300
Modellbasierte Entwicklung und Analyse von Testaufgaben zur Erfassung der Kompetenz „Musik wahrnehmen und kontextualisieren“ Dissertation zur Erlangung der Doktorwürde durch den Promotionsausschuss Dr. phil. der Universität Bremen vorgelegt von Jens Knigge Bremen, den 15.03.2010

Modellbasierte Entwicklung und Analyse von Testaufgaben zur Erfassung der Kompetenz „Musik wahrnehmen und kontextualisieren“

  • Upload
    nord

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Modellbasierte Entwicklung und Analyse von Testaufgaben zur Erfassung der Kompetenz „Musik wahrnehmen und

kontextualisieren“

Dissertation

zur Erlangung der Doktorwürde

durch den

Promotionsausschuss Dr. phil.

der Universität Bremen

vorgelegt von

Jens Knigge

Bremen, den 15.03.2010

II

Teile dieser Arbeit wurden bereits veröffentlicht unter:

Jordan, A.-K. & Knigge, J. (2010). The development of competency models: An IRT-based approach to competency assessment in general music education. In T. S. Brophy (Hrsg.), The Practice of As-sessment in Music Education: Frameworks, Models, and Designs. Proceedings of the 2009 Florida Symposium on Assessment in Music Education (S. 67-86). Chicago: GIA.

Knigge, J. & Lehmann-Wermser, A. (2008). Bildungsstandards für das Fach Musik - Eine Zwischen-bilanz. Zeitschrift für Kritische Musikpädagogik, Sonderedition: Bildungsstandards und Kompe-tenzmodelle für das Fach Musik?, 60-98. Verfügbar unter: http://www.zfkm.org/sonder08-knigge-lehmannwermser.pdf [4.3.2010].

Knigge, J. & Lehmann-Wermser, A. (2009). Kompetenzorientierung im Musikunterricht. Musik & Unterricht (94), 56-60.

III

Danksagung

Verschiedene Personen haben zum Gelingen dieser Arbeit beigetragen. Für zahlreiche moti-

vierende Gespräche, wertvolle Hinweise und kritische Kommentare möchte ich mich insbe-

sondere bei Andreas Lehmann-Wermser, Andreas C. Lehmann und den Kolleginnen und Kol-

legen des Bremer Instituts für Musikwissenschaft und Musikpädagogik bedanken. Weiterhin

zu danken ist den Kooperationslehrern des KoMus-Projekts – und vor allem auch deren Schü-

lerinnen und Schülern –, ohne deren großes Engagement diese Arbeit nicht hätte entstehen

können. Einen besonderen Dank möchte ich Anne Niessen und Klaudia Schulte aussprechen,

für unermüdliche Diskussionen, unzählige Korrekturrunden und viel freundschaftliche Unter-

stützung.

Bremen, im März 2010,

Jens Knigge

IV

Inhaltsverzeichnis

Danksagung.................................................................................................................................... III

Inhaltsverzeichnis...........................................................................................................................IV

Abbildungsverzeichnis ................................................................................................................. VII

Tabellenverzeichnis........................................................................................................................IX

Abkürzungsverzeichnis................................................................................................................ XII

1 Einleitung ...............................................................................................................1

A. HINTERGRUND UND THEORETISCHE GRUNDLAGEN ..............................................6

2 Bildungsstandards und Kompetenzorientierung...............................................6

2.1 Zentrale Konzepte und Begriffe............................................................................................. 6 2.1.1 Bildungsstandards ............................................................................................................................ 7 2.1.2 Kompetenzbegriff ............................................................................................................................ 9 2.1.3 Kompetenzmodelle ........................................................................................................................ 13

Exkurs: Kompetenzorientierung vs. Lernzieloperationalisierung ............................................ 16

2.2 Bildungsstandards, Kompetenzorientierung und das Fach Musik .................................. 19 2.2.1 Curriculare Ebene .......................................................................................................................... 19 2.2.2 Fachwissenschaftlicher Diskurs ..................................................................................................... 23 2.2.3 Das KoMus-Projekt........................................................................................................................ 28

3 Aufgaben als zentrales Moment der Kompetenzerfassung.............................32

3.1 Testaufgaben: Gütekriterien, Komponenten, Formate ..................................................... 33

3.2 Tests und Aufgaben zur Erfassung musikalischer Kompetenz: Stand der Forschung.. 37 3.2.1 Musiktests ...................................................................................................................................... 39 3.2.2 Schulleistungsstudien..................................................................................................................... 42

B. EMPIRISCHE UNTERSUCHUNGEN..........................................................................44

4 Modellbasierte Aufgabenentwicklung ..............................................................44

4.1 Das theoretische Kompetenzmodell „Musik wahrnehmen und kontextualisieren“ ....... 45

4.2 Testkonstrukt: Vom Modell zu den Testaufgaben............................................................. 48 4.2.1 Curriculare Analysen ..................................................................................................................... 50 4.2.2 Musikpsychologische Forschung................................................................................................... 52

4.3 Design und Prozess der Aufgabenentwicklung .................................................................. 56

V

5 Methoden..............................................................................................................63

5.1 Testtheoretischer Hintergrund ............................................................................................ 63 5.1.1 Klassische und Probabilistische Testtheorie .................................................................................. 64 5.1.2 Verwendete probabilistische Testmodelle: dichotomes und ordinales Rasch-Modell................... 67

5.2 Analyseverfahren .................................................................................................................. 73 5.2.1 Itemschwierigkeit........................................................................................................................... 73 5.2.2 Trennschärfe .................................................................................................................................. 78 5.2.3 Distraktorenanalyse........................................................................................................................ 79 5.2.4 Itemfit............................................................................................................................................. 80 5.2.5 Globaler Modelltest: Geltung des Rasch-Modells ......................................................................... 83 5.2.6 Differential Item Functioning (DIF) .............................................................................................. 85

5.3 Durchführung der Erhebungen ........................................................................................... 88 5.3.1 Stichprobe ...................................................................................................................................... 88 5.3.2 Testdurchführung ........................................................................................................................... 90

6 Itemanalysen und -selektion...............................................................................92

6.1 Statistische Überprüfung der Items und Tests ................................................................... 92 6.1.1 Kriterien der Itemselektion ............................................................................................................ 93 6.1.2 Exemplarische Darstellung des Selektionsprozesses ..................................................................... 99 6.1.3 Itemselektion: Ergebnisse und Zusammenfassung ...................................................................... 119

6.2 Inhaltliche Itemanalysen aus fachwissenschaftlicher Perspektive ................................. 124 6.2.1 Gute Multiple-Choice-Items: Eine Frage der Distraktoren.......................................................... 125 6.2.2 Differential Item Functioning: ‚unfaire’ Items ............................................................................ 136 6.2.3 Analyse und Interpretation von Itemschwierigkeiten .................................................................. 140

7 Weiterführende Itemanalysen: Identifikation

schwierigkeitsgenerierender Aufgabenmerkmale .........................................153

7.1 Vertiefende Analysen der Items zur Rhythmuswahrnehmung ...................................... 157

7.2 Vertiefende Analysen der Items zur Formwahrnehmung............................................... 180

7.3 Wissensbasierte Aufgabenmerkmale................................................................................. 191

7.4 Merkmalsebene ‚Aufgabe’ ................................................................................................. 200 7.4.1 Aufgabenmerkmal ‚Itemformat’ .................................................................................................. 200 7.4.2 Aufgabenmerkmal ‚sprachliche Anforderungen’ ........................................................................ 203

VI

7.5 Zusammenfassung und Systematisierung der Aufgabenmerkmale ............................... 205 7.5.1 Systematisierung der Merkmale................................................................................................... 206 7.5.2 Ausprägung und Kodierung der Merkmale.................................................................................. 208 7.5.3 Kodierung einzelner Beispielitems .............................................................................................. 214

7.6 Empirische Analyse der Zusammenhänge von Aufgabenmerkmalen und -schwierigkeiten .................................................................................................................... 219

7.6.1 Methodisches Vorgehen............................................................................................................... 219 7.6.2 Datengrundlage ............................................................................................................................ 221 7.6.3 Durchführung der Regressionsanalysen....................................................................................... 222 7.6.4 Ergebnisse .................................................................................................................................... 228

8 Diskussion und Zusammenfassung .................................................................237

8.1 Zusammenfassung der Ergebnisse .................................................................................... 237

8.2 Grenzen der durchgeführten Analysemethoden und weiterführende methodische Überlegungen....................................................................................................................... 239

8.3 Testaufgaben zur Erfassung der Hörwahrnehmung: Technische Herausforderungen und mögliche Optimierungen.......................................................... 243

8.4 Curriculare Validität der entwickelten Aufgaben ........................................................... 245

8.5 Ausblick................................................................................................................................ 246

Literaturverzeichnis...............................................................................................250

Verzeichnis der verwendeten Curricula ..............................................................265

Anhang A: Itemkennwerte .......................................................................................................... 268

Anhang B: Lehrerrückmeldebogen ............................................................................................ 283

Anhang C: Schülerrückmeldebogen........................................................................................... 285

VII

Abbildungsverzeichnis

Abb. 1: Theoretisches Strukturmodell der DESI-Studie (in Anlehnung an: Beck & Klieme, 2007, S. 15 und Nold & Rossa, 2007). ............................................................. 15

Abb. 2: Drei-Phasen-Design des KoMus-Projekts...................................................................... 29 Abb. 3: Komponenten einer Testaufgabe am Beispiel eines Multiple-Choice-Items................. 35 Abb. 4: Theoretisches Kompetenzmodell „Musik wahrnehmen und kontextualisieren“

(basierend auf: Niessen et al., 2008, S. 20) .................................................................... 46 Abb. 5: Zirkulärer Aufgabenentwicklungsprozess...................................................................... 59 Abb. 6: Phasen der Aufgabenentwicklung.................................................................................. 61 Abb. 7: Zusammenhang von Personenmerkmal und Testverhalten (in Anlehnung an:

Rost, 2004, S. 21) ........................................................................................................... 65 Abb. 8: Latente Variable und manifeste Merkmalsausprägungen .............................................. 65 Abb. 9: IC-Funktion des dichotomen Rasch-Modells für ein Item mit der

Schwierigkeit �i = 0 (entnommen aus: Rost, 2004, S. 120) ........................................... 68 Abb. 10: Lösungswahrscheinlichkeit für eine Person mit � = 1 bei einem Item mit � = 0........... 69 Abb. 11: Itemfunktionen von drei Items mit den Parametern �1 = 0, �2 = 1 und �3 = 2

(entnommen aus: Rost, 2004, S. 120) ............................................................................ 70 Abb. 12: Kategorienfunktionen eines dreikategoriellen Items (entnommen aus: Rost,

2004, S. 203) .................................................................................................................. 71 Abb. 13: Beispiel einer Wright map.............................................................................................. 75 Abb. 14: Beobachtetes Antwortverhalten und theoretische IC-Funktion eines Items mit

gutem Itemfit .................................................................................................................. 81 Abb. 15: Beobachtetes Antwortverhalten und theoretische IC-Funktion eines Items mit

schlechtem Itemfit .......................................................................................................... 82 Abb. 16: Beispiel für eine grafische Kontrolle auf DIF; Vergleich der

Itemschwierigkeiten für Jungen (J) und Mädchen (M).................................................. 86 Abb. 17: Beispiel-Item mit starkem DIF....................................................................................... 87 Abb. 18: Beispiel-Item ohne DIF.................................................................................................. 87 Abb. 19: Grafische Darstellung von Itemfit und Itemschwierigkeit für alle selektierten

Items ............................................................................................................................. 121 Abb. 20: Item D3-6a (Testheft 8)................................................................................................ 126 Abb. 21: Item D1-1a (Testheft 1)................................................................................................ 127 Abb. 22: Item D3-1e (Testheft 2)................................................................................................ 129 Abb. 23: Item D3-1e (Testheft D3)............................................................................................. 129 Abb. 24: Item D4-1e-1 (Testheft 5) ............................................................................................ 131 Abb. 25: Item D4-1f-3 (Testheft 5)............................................................................................. 132 Abb. 26: Item D3-7c (Testheft D3)............................................................................................. 134 Abb. 27: Item D4-3b-3/5 (Testheft 7) ......................................................................................... 137 Abb. 28: IC-Funktionen des Items D4-3b-3/5 für Mädchen (blau) und Jungen (grün) .............. 137 Abb. 29: Item D2-7a (Testheft 7)................................................................................................ 138

VIII

Abb. 30: IC-Funktionen des Items D2-7a für Mädchen (blau) und Jungen (grün)..................... 139 Abb. 31: Item D3-7d (Testheft 3)................................................................................................ 141 Abb. 32: Items D3-10-1 und D3-10-2 (Testheft 4) ..................................................................... 142 Abb. 33: Item D3-1b (Testheft D3)............................................................................................. 146 Abb. 34: Item D3-1c (Testheft D3)............................................................................................. 147 Abb. 35: Item D1-2a (Testheft D1)............................................................................................. 149 Abb. 36: Item D1-2b (Testheft D1)............................................................................................. 150 Abb. 37: Items D1-14a-2 und D1-14a-1 (Testheft 2).................................................................. 159 Abb. 38: Items D1-14a-3 und D1-14b (Testheft 3)..................................................................... 161 Abb. 39: Item D1-14c (Testheft 3).............................................................................................. 163 Abb. 40: Items D3-7b und D3-7c (Testheft D3) ......................................................................... 167 Abb. 41: Items D3-7a und D3-7f (Testheft 2)............................................................................. 169 Abb. 42: Items D3-7a und D3-7g (Testheft 2) ............................................................................ 170 Abb. 43: Items D3-7a, D3-7d und D3-7e aus Testheft D3 ......................................................... 172 Abb. 44: Mögliche figurale Darstellung des Rhythmus von Item D3-7a (Testheft D3)............. 177 Abb. 45: Items D1-3a und D1-3b (Testheft 6) ............................................................................ 183 Abb. 46: Items D1-3a und D1-8 (Testheft D1) ........................................................................... 185 Abb. 47: Items D1-2a und D1-3b (Testheft D1) ......................................................................... 187 Abb. 48: Vergleich der A-Teile von Item D1-2a (oben) und D1-3b (unten) .............................. 188 Abb. 49: Item D2-4e (Testheft 8)................................................................................................ 189 Abb. 50: Item D2-4f (Testheft 8) ................................................................................................ 189 Abb. 51: Items D2-1c-1 und D2-1c-2 (Testheft 6)...................................................................... 193 Abb. 52 Item D3-4a (Testheft 7)................................................................................................ 195 Abb. 53: Item D3-5 (Testheft 8).................................................................................................. 195 Abb. 54: Item D1-15c-1 (Testheft 3) .......................................................................................... 196 Abb. 55: Item D1-15g (Testheft 3).............................................................................................. 196 Abb. 56: Item mit hohen sprachlichen Anforderungen............................................................... 203 Abb. 57: Item mit niedrigen sprachlichen Anforderungen ......................................................... 203 Abb. 58: Prozessmodell der Bearbeitung einer Mathematik-Aufgabe (nach: Cohors-

Fresenborg et al., 2004, S. 121).................................................................................... 204 Abb. 59: Systematisierung der schwierigkeitsgenerierenden Aufgabenmerkmale..................... 208 Abb. 60: Beispielitem 1 (Item D2-4f, Testheft 8) ....................................................................... 214 Abb. 61: Beispielitem 2 (Item D3-9a,Testheft 7)........................................................................ 216 Abb. 62: Beispielitem 3 (Item D1-5a, Testheft 6)....................................................................... 217

IX

Tabellenverzeichnis

Tab. 1: Verwendete Item-Formate und -Typen (in Anlehnung an: Granzer et al., 2008, S. 20 und Hartig & Jude, 2007, S. 30) ........................................................................... 36

Tab. 2: Für die Aufgabenentwicklung berücksichtigte Bereiche und Inhalte der Hörwahrnehmung in bundesdeutschen Curricula .......................................................... 52

Tab. 3: Entwicklungsstand musikalischer Wahrnehmungsfähigkeit bei Kindern im Alter von 12 Jahren (in Anlehnung an: Bähr, 2001, S. 35 ff.) ....................................... 53

Tab. 4: Logitdifferenzen und Lösungswahrscheinlichkeiten im Rasch-Modell (in Anlehnung an: Wilson, 2005, S. 98) .............................................................................. 70

Tab. 5: Beispiel einer Distraktorenanalyse................................................................................. 80 Tab. 6: Stichprobengröße und Geschlechtsverhältnis nach Schulart für die realisierte

Stichprobe....................................................................................................................... 89 Tab. 7: Zusammenfassung der psychometrischen Kriterien der Itemselektion.......................... 98 Tab. 8: Itemselektion Testheft 7 – Analyse 1 (alle Items des Testhefts).................................. 104 Tab. 9: Itemselektion Testheft 7 – Analyse 2 (Analyse ohne die ausgeschlossenen

Items aus Analyse 1 und mit zusammengefasstem Richtig-Falsch-Item; erster Modelltest) ................................................................................................................... 106

Tab. 10: Itemselektion Testheft 7 – Analyse 3 (zweiter Modelltest und DIF-Analyse) ............ 107 Tab. 11: Itemselektion Testheft 7 – Analyse 4 (abschließende Modelltestung) ........................ 108 Tab. 12: Itemselektion Testheft 4 – Analyse 1 (alle Items des Testhefts).................................. 114 Tab. 13: Itemselektion Testheft 4 – Analyse 2 (Analyse ohne die ausgeschlossenen

Items aus Analyse 1; erster Modelltest) ....................................................................... 116 Tab. 14: Itemselektion Testheft 4 – Analyse 3 (zweiter Modelltest und DIF-Analyse) ............ 117 Tab. 15: Zusammenfassung der wichtigsten psychometrischen Kennwerte der

selektierten Items.......................................................................................................... 123 Tab. 16: Überblick über Itemformat, Hörbeispiel-Genres und Verteilung auf die

theoretischen Kompetenzdimensionen/-niveaus der selektierten Items....................... 123 Tab. 17: Distraktorenanalyse Item D3-6a (Testheft 8)............................................................... 126 Tab. 18: Distraktorenanalyse Item D1-1a (Testheft 1)............................................................... 128 Tab. 19: Distraktorenanalyse Item D3-1e (Testheft 2)............................................................... 130 Tab. 20: Distraktorenanalyse Item D3-1e (Testheft D3)............................................................ 130 Tab. 21: Distraktorenanalyse Item D4-1e-1 (Testheft 5) ........................................................... 132 Tab. 22: Distraktorenanalyse Item D4-1f-3 (Testheft 5) ............................................................ 133 Tab. 23: Distraktorenanalyse Item D4-1f-3 (Testheft D4) ......................................................... 134 Tab. 24: Distraktorenanalyse Item D3-7c (Testheft D3)............................................................ 135 Tab. 25: Schülerantworten Item D3-10-2 (Testheft 4) .............................................................. 143 Tab. 26: Auswahl der Items zur Rhythmuswahrnehmung ......................................................... 158 Tab. 27: Vergleich der Itemschwierigkeiten von Item D1-14a-1 und D1-14a-2 (Test-

heft 2) ........................................................................................................................... 160

X

Tab. 28: Vergleich der Itemschwierigkeiten von Item D1-14a-3 und D1-14b (Testheft 3) ................................................................................................................... 162

Tab. 29: Vergleich der Itemschwierigkeiten von Item D1-14a, D1-14b und D1-14c (Testheft 3) ................................................................................................................... 164

Tab. 30: Vergleich der Itemschwierigkeiten von Item D3-7b und D3-7c (Testheft D3) ........... 168 Tab. 31: Vergleich der Itemschwierigkeiten von Item D3-7a und D3-7f (Testheft 2)............... 169 Tab. 32: Vergleich der Itemschwierigkeiten von Item D3-7a und D3-7g (Testheft 2) .............. 171 Tab. 33: Vergleich der Itemschwierigkeiten der Items D3-7a, D3-7d und D3-7e

(Testheft D3) ................................................................................................................ 174 Tab. 34: Kodierung und Deskriptoren des Aufgabenmerkmals ‚Anwendung von

Notationskenntnissen’ .................................................................................................. 179 Tab. 35: Items zur Formwahrnehmung ...................................................................................... 181 Tab. 36: Vergleich der Itemschwierigkeiten der Items D1-3a und D1-3b (Testheft 6) ............. 183 Tab. 37: Auswahl der Items zur Formwahrnehmung ................................................................. 185 Tab. 38: Vergleich der Itemschwierigkeiten der Items D1-3a und D1-8 (Testheft D1) ............. 186 Tab. 39: Vergleich der Itemschwierigkeiten der Items D1-2a und D1-3b (Testheft D1) .......... 188 Tab. 40: Vergleich der Itemschwierigkeiten der Items D2-4e und D2-4f (Testheft 8) .............. 190 Tab. 41: Vergleich der Itemschwierigkeiten der Items D2-1c-1 und D2-1c-2

(Testheft 6) ................................................................................................................... 194 Tab. 42: Vergleich der Itemschwierigkeiten der Items D1-15c-1 und D1-15g

(Testheft 3) ................................................................................................................... 198 Tab. 43: Verteilung der Item-Formate auf die einzelnen Testhefte ........................................... 201 Tab. 44: Punktbiseriale Korrelation von Itemformat und Itemschwierigkeit............................. 201 Tab. 45: Ausprägungen des Merkmals ‚formalsprachliche Anforderungen’ ............................. 205 Tab. 46: Ausprägungen und Deskriptoren der Aufgabenmerkmale M1-3 (Ebene

‚Aufgabe’) .................................................................................................................... 209 Tab. 47: Ausprägungen und Deskriptoren der Aufgabenmerkmale M4-5 (Ebene

‚Wahrnehmung / Musikalisches Gedächtnis’) ............................................................. 211 Tab. 48: Ausprägungen und Deskriptoren der Aufgabenmerkmale M6-10 (Ebene

‚Fachwissen’) ............................................................................................................... 213 Tab. 49: Kodierung von Beispielitem 1...................................................................................... 215 Tab. 50: Kodierung von Beispielitem 2...................................................................................... 216 Tab. 51: Kodierung von Beispielitem 3...................................................................................... 218 Tab. 52: Ergebnisse der multiplen Regressionsanalyse zur Vorhersage der

Itemschwierigkeiten von Testheft 4 durch Aufgabenmerkmale (Nk = 23 Items) ........ 225 Tab. 53: Ergebnisse der multiplen Regressionsanalyse zur Vorhersage der

Itemschwierigkeiten von Testheft 5 durch Aufgabenmerkmale (Nk = 29 Items) ........ 226 Tab. 54: Ergebnisse der multiplen Regressionsanalyse zur Vorhersage der

Itemschwierigkeiten von Testheft 6 durch Aufgabenmerkmale (Nk = 24 Items) ........ 227 Tab. 55: Ergebnisse der multiplen Regressionsanalyse zur Vorhersage der

Itemschwierigkeiten von Testheft 8 durch Aufgabenmerkmale (Nk = 23 Items) ........ 228 Tab. 56: Selektierte Items Testheft 1.......................................................................................... 269

XI

Tab. 57: Selektierte Items Testheft 2.......................................................................................... 270 Tab. 58: Selektierte Items Testheft 3.......................................................................................... 271 Tab. 59: Selektierte Items Testheft 4.......................................................................................... 272 Tab. 60: Selektierte Items Testheft 5.......................................................................................... 274 Tab. 61: Selektierte Items Testheft 6.......................................................................................... 276 Tab. 62: Selektierte Items Testheft 7.......................................................................................... 278 Tab. 63: Selektierte Items Testheft 8.......................................................................................... 279 Tab. 64: Selektierte Items Testheft 9.......................................................................................... 281

XII

Abkürzungsverzeichnis

DESI Deutsch Englisch Schülerleistungen International

DIF Differential Item Functioning

ICC Item Characteristic Curve (IC-Funktion)

IRT Item-Response-Theorie

KoMus Kompetenzmodell für das Fach Musik

KTT Klassische Testtheorie

MC Multiple-Choice

MNSQ weighted mean square

PISA Programme for International Student Assessment

PTT Probabilistische Testtheorie

TH Testheft

TIMSS Trends in International Mathematics and Science Study

1

1 Einleitung

Schulleistungsmessungen und insbesondere die Erfassung und Modellierung von

Kompetenzen sind zentrale Inhalte des bildungspolitischen und erziehungswissen-

schaftlichen Diskurses der letzten Jahre (z. B. Klieme, 2007; Klieme & Hartig,

2007; Weinert, 2001b). Besondere Bedeutung kommt in diesem Zusammenhang

dem Thema ‚Aufgaben’ zu (z. B. Thonhauser, 2008a): Aufgaben sollen u. a.

Kompetenzanforderungen illustrieren, Kompetenzaufbau und -förderung unter-

stützen und nicht zuletzt die Kompetenzen von Schülerinnen und Schülern1 einer

empirischen Überprüfung zugänglich machen.

Die große Relevanz der Themen Schulleistung und Kompetenz ist auch innerhalb

der verschiedenen fachdidaktischen Diskurse auszumachen (z. B. Bayrhuber,

2007b) und – wenngleich in deutlich geringerem Maße – auch innerhalb der Mu-

sikpädagogik (z. B. Lütgert, 2001; Schäfer-Lembeck, 2008). Betrachtet man den

musikpädagogischen Diskurs näher, so zeigt sich, dass hier bislang nur sehr weni-

ge empirische Arbeiten zu dem betreffenden Themenfeld vorgelegt wurden. So

sind z. B. kaum Testinstrumente zur Erfassung von musikalischen Kompetenzen

oder ähnlichen Leistungskonstrukten vorhanden; dies gilt sowohl für den interna-

tionalen Kontext (z. B. Colwell, 1999b) als auch insbesondere für die deutsche

Musikpädagogik. Oerter & Bruhn (1997) fassen diese Situation mit dem nach wie

vor zutreffenden Satz zusammen: „Der besondere Wert von Testverfahren für die

musikpädagogische Forschung ist bisher noch nicht erkannt worden“ (S. 558).

Dies verwundert zunächst, da es für die Musikpädagogik durchaus von Interesse

sein dürfte, über welche fachspezifischen Kompetenzen Schüler verfügen, von

welchen Variablen diese beeinflusst werden und wie eine Förderung derselben er-

folgen kann bzw. welchen Erfolg entsprechende Fördermaßnahmen haben. Diese

stichpunktartige Aufzählung ist zwar nur ein sehr kleiner Ausschnitt der Möglich-

keiten, die mit einer empirischen Erfassung musikbezogener Leistungen einher-

gehen könnten. Es ist trotzdem direkt ersichtlich, dass auf einer konkreten An-

wendungsebene (Lehreraus- und -fortbildung, Unterrichtsentwicklung, Evaluation

von Unterrichtsmaßnahmen, Bildungsmonitoring etc.) eine Vielzahl von Mög-

lichkeiten für die Verwendung entsprechender Testverfahren bestünde. Aber auch

1 Aus Gründen der leichteren Lesbarkeit wird im Folgenden auf die Nennung beider Geschlechter verzichtet.

2

auf der Ebene musikpädagogischer Grundlagenforschung wären die Konstruktion

und der Einsatz von musikalischen Kompetenztests höchst interessant. Denn bis

heute liegen nur wenige Erkenntnisse hinsichtlich der Strukturen (u. a. Dimensio-

nalität und Graduierung) von Schülerkompetenzen und deren empirischer Erfas-

sung vor.

Im Rahmen aktueller bildungspolitischer Reformprozesse wird die Musikpädago-

gik nun verstärkt mit der Thematik der Erfassung und Modellierung von Kompe-

tenzen konfrontiert. Die Ergebnisse von internationalen Schulleistungsstudien

(u. a. PISA und TIMSS)2 haben in Deutschland zu einem Umdenken in Bezug auf

die Steuerung des Bildungssystems geführt. Unter einer Reihe von Maßnahmen

ist es vor allem die Umstellung auf nationale Bildungsstandards, durch die eine

am ‚Output’ orientierte Qualitätssicherung erfolgen soll (Klieme et al., 2003). In

den letzten Jahren wird zunehmend sichtbar, dass – obwohl Bildungsstandards auf

nationaler Ebene nur für die ‚Kernfächer’3 implementiert werden – auch das Fach

Musik von diesen Reformprozessen betroffen ist und die Musikpädagogik sich ei-

ner Auseinandersetzung mit den damit verbundenen Konzepten nicht entziehen

kann (Knigge & Lehmann-Wermser, 2008). Denn im Kontext der standard- und

kompetenzorientierten Prozesse wird gerade den Fachdidaktiken eine zentrale

Funktion zugewiesen (z. B. Bayrhuber, 2007a): Sie sollen sowohl die fachwissen-

schaftlichen Grundlagen für die Erstellung von Bildungsstandards bestimmen als

auch Unterrichtskonzepte zur Kompetenzförderung entwickeln und evaluieren. Im

Zentrum steht hierbei die empirisch basierte Erarbeitung von Kompetenzmodellen

und darauf bezogener Testinstrumente.

Vor diesem Hintergrund wurde mit dem KoMus-Projekt (z. B. Jordan, Knigge &

Lehmann-Wermser, 2010), im Rahmen dessen die vorliegende Arbeit entstanden

ist, erstmals der Versuch unternommen, ein Kompetenzmodell für einen Teilbe-

reich des Musikunterrichts (‚Musik wahrnehmen und kontextualisieren’) zu erstel-

len und empirisch zu validieren. Ein wichtiges Teilergebnis des KoMus-Projekts

war der Entwurf eines theoretischen Kompetenzmodells (Niessen, Lehmann-

Wermser, Knigge & Lehmann, 2008).

2 PISA = „Programme for International Student Assessment”; TIMSS = „Trends in International Mathematics and Science Study”. 3 Deutsch, Mathematik, erste Fremdsprache und Naturwissenschaften (Biologie, Chemie, Physik).

3

Dieses Modell bildet die Grundlage für die vorliegende Arbeit, die den Prozess

der Modelloperationalisierung in Form von Testaufgaben zum Inhalt hat. Im

Rahmen der Arbeit wird als zentrale Fragestellung verfolgt, ob sich anhand eines

theoretischen Modells zur Kompetenz des Wahrnehmens und Kontextualisierens

von Musik Testaufgaben konstruieren lassen, die psychometrischen Qualitätskri-

terien genügen, eine hohe curriculare Validität aufweisen und differenzierende

Aussagen über die Kompetenzen der Schüler ermöglichen. Auf Basis dieser über-

geordneten Fragestellung ergeben sich die folgenden Ziele der Arbeit:

� Die Konzeption, Durchführung und Dokumentation eines Prozesses zur Ent-

wicklung von Testaufgaben, der durch eine Verankerung auf unterrichtlicher

und curricularer Ebene einen musikpädagogischen Fokus hat, dabei aber psy-

chometrische Gütekriterien der Test- und Aufgabenentwicklung konsequent

berücksichtigt.

� Die statistische Analyse der entwickelten Aufgaben (Itemselektion) unter An-

wendung klassischer und probabilistischer Methoden, die in dieser Kombina-

tion bislang in der Musikpädagogik noch keine Verwendung fanden. Ziel ist

hierbei die Generierung eines psychometrisch hochwertigen Itempools, der die

Dimensionen, Facetten und Niveaus des theoretischen Kompetenzmodells ab-

bildet.

� Die Identifikation ‚schwierigkeitsgenerierender Aufgabenmerkmale’ mittels

inhaltlicher und vergleichender Itemanalysen: Über die Absicherung der psy-

chometrischen Qualität der Aufgaben hinaus soll in diesem Zusammenhang

untersucht werden, welche Teilkompetenzen von einer Aufgabe konkret er-

fasst bzw. für deren Lösung benötigt werden. Anvisiertes Ziel ist die Systema-

tisierung der gefundenen relevanten Aufgabenmerkmale sowie deren empiri-

sche Validierung.

Die vorliegende Arbeit gliedert sich in einen theoretischen und einen empirischen

Teil, deren inhaltlicher Aufbau sich wie folgt darstellt:

Das zweite Kapitel skizziert zunächst die bildungspolitischen Hintergründe und

führt hierbei insbesondere in die Themen ‚Bildungsstandards’ und ‚Kompetenz-

orientierung’ ein (2.1). Von zentraler Bedeutung für die Arbeit sind in diesem Zu-

sammenhang der Kompetenzbegriff und die konzeptionellen Grundlagen von

Kompetenzmodellen. Daran anschließend erfolgt eine Betrachtung der Situation

4

des Schulfaches Musik, wie sie sich im Kontext der standard- und kompetenzori-

entierten Reformprozesse darstellt (2.2).

Im dritten Kapitel erfolgen einige grundlegende Ausführungen hinsichtlich der

Gütekriterien, Komponenten und Formate von Testaufgaben sowie die Darstel-

lung des Forschungsstandes in Bezug auf die Erfassung von musikalischen Kom-

petenzen mittels standardisierter Testverfahren.

Der empirische Teil der Arbeit beginnt mit dem vierten Kapitel, in dem der Pro-

zess der modellbasierten Aufgabenentwicklung vorgestellt wird. Grundlage ist

hierfür das im KoMus-Projekt entwickelte theoretische Kompetenzmodell (4.1),

dessen Operationalisierung im Rahmen eines Testkonstrukts auf curricularer Ebe-

ne verankert und durch musikpsychologische Forschungen theoretisch fundiert

wird (4.2). Abschließend erfolgt an dieser Stelle die Darstellung von Design und

Prozess der Aufgabenentwicklung (4.3).

Die entwickelten Testaufgaben wurden einem umfassenden Analyseprozess un-

terzogen. Im fünften Kapitel sind die hierfür verwendeten Methoden dargestellt.

Da Testkonstruktionen in der Musikpädagogik sehr selten sind und diese bislang

ausnahmslos auf Basis der Klassischen Testtheorie durchgeführt wurden, erfolgen

in einem einleitenden Teil grundlegende testtheoretische Ausführungen unter be-

sonderer Berücksichtigung der Probabilistischen Testtheorie und des Rasch-

Modells (5.1). Daran anschließend werden ausführlich die einzelnen Analysever-

fahren dargestellt (5.2), bevor in einem abschließenden Abschnitt die Durchfüh-

rung der Erhebungen beschrieben ist (5.3).

Kapitel sechs enthält schließlich die Ergebnisse der Itemanalysen und stellt aus-

führlich den Prozess der Itemselektion dar. Nach detaillierten Ausführungen zu

den statistischen Aspekten der Item- und Testanalyse (6.1) erfolgen im anschlie-

ßenden Abschnitt verschiedene inhaltliche Itemanalysen, die eine fachwissen-

schaftliche Perspektive ins Zentrum stellen (6.2).

Ausgehend von den Ergebnissen der Itemanalysen steht im Zentrum des siebten

Kapitels die Frage nach den ‚schwierigkeitsgenerierenden Merkmalen’ der entwi-

ckelten Testaufgaben. Mittels verschiedener vertiefender Analysen werden dabei

eine Reihe von Aufgabenmerkmalen identifiziert (7.1-7.4), die anschließend sys-

tematisiert (7.5) und einer empirischen Überprüfung unterzogen werden (7.6).

5

Im abschließenden achten Kapitel werden die Ergebnisse der Arbeit noch einmal

zusammengefasst und diskutiert. Es werden Probleme und Grenzen der modellba-

sierten Aufgabenentwicklung sowie weitergehende methodische Überlegungen

dargestellt. Die Arbeit schließt mit Ausführungen zur curricularen Validität der

entwickelten Testaufgaben und einem Ausblick in Bezug auf die Verwendungs-

möglichkeiten der Aufgaben.

6

A. HINTERGRUND UND THEORETISCHE GRUNDLAGEN

2 Bildungsstandards und Kompetenzorientierung

Im einleitenden Kapitel ist bereits angeklungen, dass die vorliegende Arbeit vor

dem Hintergrund aktueller bildungspolitischer und erziehungswissenschaftlicher

Diskurse entstanden ist. Im Zentrum stehen hierbei die Reformprozesse im Kon-

text der Diskussion um Bildungsstandards, die gerade auch den Fachdidaktiken

zentrale Aufgaben wie die Erstellung von Kompetenzmodellen oder die Entwick-

lung von kompetenzorientierten Test- und Lernaufgaben zuweist.

Zum besseren Verständnis der Arbeit erfolgen daher zunächst in Abschnitt 2.1 ei-

nige allgemeine und grundlegende Ausführungen zu Bildungsstandards und den

dabei zentralen Komponenten (Kompetenzbegriff, Kompetenzmodelle). Daran

anschließend erfolgt eine Betrachtung der Situation des Schulfachs Musik, wie sie

sich im Kontext der standardorientierten Reformprozesse darstellt (2.2). Die Imp-

lementierung von Bildungsstandards bzw. daran orientierter Curricula und die

Auswirkungen dieses Prozesses auf das Fach Musik sind der Ausgangspunkt des

KoMus-Forschungsprojekts, dessen Ziel die Erstellung eines Kompetenzmodells

für den Bereich des Wahrnehmens und Kontextualisierens von Musik ist. Die vor-

liegende Arbeit ist im Rahmen des KoMus-Projekts entstanden und inhaltlich sehr

eng mit dem Projekt verbunden, weshalb eine kurze Einordnung der Arbeit in das

Gesamtprojekt in Abschnitt 2.2.3 erfolgt.

2.1 Zentrale Konzepte und Begriffe

Der erste Teil dieses Kapitels befasst sich mit den zentralen Konzepten und Ter-

minologien von Bildungsstandards, insofern sie für die vorliegende Arbeit rele-

vant sind. Es besteht hierbei nicht der Anspruch einer möglichst umfassenden und

detaillierten Einführung oder Diskussion von Bildungsstandards und den damit

verbundenen Konzepten.4 Vielmehr soll in den folgenden Abschnitten der Hinter-

4 Es sei hierfür auf die überaus umfangreiche Literatur zur Thematik verwiesen: z. B. Böttcher, 2006; Criblez et al., 2009; Dubs, 2007; Klieme et al., 2003; Klieme, 2004a; 2009; Labudde, 2007; Oelkers & Reusser, 2008. Der erziehungswissenschaftliche und insbesondere der bildungstheoreti-sche Diskurs sind dabei in Bezug auf Bildungsstandards höchst konträr. Es sind in diesem Zu-sammenhang u. a. die beiden folgenden Sammelbände zu nennen, die vor allem kritische Positio-

7

grund skizziert werden, vor dem die vorliegende Arbeit zu lesen ist. Von besonde-

rer Bedeutung sind hierbei das im Rahmen von Bildungsstandards verwendete

Konzept der ‚Kompetenz’ sowie dessen theoretische und empirische Modellie-

rung.

2.1.1 Bildungsstandards

Bildungspolitischer Hintergrund

Um das Jahr 2000 herum waren es vor allem zwei großangelegte internationale

Schulleistungsstudien, die den Ausgangspunkt einer bis heute anhaltenden und

sehr breiten Diskussion über die Qualität von Schule und Unterricht bilden: die

TIMS-Studien (Baumert & Lehmann, 1997; Baumert, Bos & Lehmann, 2000) und

vor allem PISA 2000 (Baumert et al., 2001). Beide Studien offenbarten dabei gra-

vierende Mängel des deutschen Bildungssystems und nicht zuletzt große Dispari-

täten zwischen Regionen, zwischen Schülern unterschiedlicher sozialer Schichten

und zwischen Schülern mit und ohne Migrationshintergrund. Darüber hinaus ha-

ben aber auch mehrere nationale Untersuchungen gezeigt, dass die in den bundes-

deutschen Lehrplänen definierten Ziele häufig nicht erreicht werden und die Be-

notungsmaßstäbe zwischen den Bundesländern sehr stark variieren (Klieme et al.,

2003, S. 13). Vor dem Hintergrund dieser Erkenntnisse hat in Deutschland ein

Umdenken stattgefunden, das häufig als Paradigmenwechsel von der Input- zur

Outputsteuerung bezeichnet wird.5 Als zentrales Moment dieses Paradigmen-

wechsels beschloss die Ständige Konferenz der Kultusminister der Länder der

Bundesrepublik Deutschland (KMK) am 25. Juni 2002 die Einführung nationaler

Bildungsstandards für bestimmte Kernfächer und bestimmte Jahrgangsstufen.6

nen enthalten: Pongratz, Reichenbach & Wimmer, 2007; Schlömerkemper, 2004. Zusammenge-fasst wird die Kritik an Standards z. B. bei Oelkers & Reusser, 2008, S. 52 ff. und Uhl, 2006. Eine Darstellung des musikspezifischen Diskurses erfolgt in Abschnitt 2.2.2. 5 Mit dem ‚Input’ eines Bildungssystems sind im Allgemeinen Lehrpläne, Lehrmittel, Finanzen, Infrastruktur etc. gemeint. Der ‚Output’ umfasst hingegen u. a. den Aufbau von „Kompetenzen, Qualifikationen, Wissensstrukturen, Einstellungen, Überzeugungen, Werthaltungen – also von Persönlichkeitsmerkmalen bei den Schülerinnen und Schülern, mit denen die Basis für ein lebens-langes Lernen zur persönlichen Weiterentwicklung und gesellschaftlichen Beteiligung gelegt ist“ (Klieme et al., 2003, S. 12). 6 In den Jahren 2003 und 2004 wurden daraufhin Bildungsstandards für den Primarbereich (Jahr-gangsstufe 4, Fächer: Deutsch und Mathematik), den Hauptschulabschluss (Jahrgangsstufe 9, Fä-cher: Deutsch, Mathematik und Erste Fremdsprache) und den Mittleren Schulabschluss (Jahr-gangsstufe 10, Fächer: Deutsch, Mathematik, Erste Fremdsprache, Biologie, Chemie und Physik) in Kraft gesetzt. Im Oktober 2007 hat die KMK darüber hinaus die Entwicklung von Bildungs-

8

Aufgrund mangelnder Erfahrungen mit der Entwicklung und Implementierung

von Bildungsstandards wurde vom Bundesministerium für Bildung und Forschung

eine Expertengruppe mit der Erstellung einer Expertise beauftragt. Die sogenannte

‚Klieme-Expertise’ (Klieme et al., 2003) hatte die Zielsetzung, „das Konzept der

Bildungsstandards fachlich zu klären und eine Rahmenkonzeption dafür vorzu-

stellen, wie Bildungsstandards für das deutsche Schulsystem angelegt sein sollten

und wie sie entwickelt und genutzt werden könnten“ (S. 14).7 Die Klieme-

Expertise hat sich seither in weiten Teilen des wissenschaftlichen und politischen

Diskurses als maßgeblich erwiesen in Bezug auf die konzeptionellen Grundlagen

der Entwicklung von Bildungsstandards in Deutschland und liegt auch den Dar-

stellungen im folgenden Abschnitt zugrunde.

Konzeptionelle Grundlagen

Bildungsstandards sollen als zentrales Gelenkstück zur Sicherung und Steigerung

der Qualität schulischer Arbeit fungieren (Klieme et al., 2003, S. 9). Die Klieme-

Expertise definiert auf grundsätzlicher, konzeptioneller Ebene Bildungsstandards

wie folgt (Klieme et al., 2003):

� „Bildungsstandards orientieren sich an Bildungszielen, denen schulisches Ler-

nen folgen soll, und setzen diese in konkrete Anforderungen um.“ (S. 20)

� „Bildungsstandards konkretisieren die Ziele in Form von Kompetenzanforde-

rungen. Sie legen fest, über welche Kompetenzen ein Schüler, eine Schülerin

verfügen muss, wenn wichtige Ziele der Schule als erreicht gelten sollen. Sys-

tematisch geordnet werden diese Anforderungen in Kompetenzmodellen, die

Aspekte, Abstufungen und Entwicklungsverläufe von Kompetenzen darstel-

len.“ (S. 21)

� „Bildungsstandards als Ergebnisse von Lernprozessen werden konkretisiert in

Aufgabenstellungen und schließlich Verfahren, mit denen das Kompetenzni-

standards für die gymnasiale Oberstufe in den Fächern Deutsch, Mathematik, Englisch, Franzö-sisch, Biologie, Chemie und Physik beschlossen, die aktuell erarbeitet werden. 7 Die Entwicklung von Bildungsstandards ist kein spezifisch deutsches Phänomen. Vor allem die englischsprachigen Länder haben bereits eine längere Tradition der outputorientierten Steuerung von Bildungssystemen, die teilweise auch als Orientierung für die deutsche Entwicklung diente. Ausführliche Darstellungen der internationalen Situation finden sich z. B. bei van Ackeren, 2003; Arbeitsgruppe Internationale Vergleichsstudie, 2003; Criblez et al., 2009, S. 19 ff.; Huber, Späni, Schmellentin & Criblez, 2006; Oelkers & Reusser, 2008, S. 61 ff.

9

veau, das Schülerinnen und Schüler tatsächlich erreicht haben, empirisch zu-

verlässig erfasst werden kann.“ (S. 23)

Bildungsstandards beziehen sich demgemäß auf drei Dimensionen: (1) Bildungs-

ziele, (2) Kompetenzen und Kompetenzmodelle, (3) Aufgabenstellungen und

Testverfahren (Kompetenztests).

Mit dieser Konzeption sind vor allem zwei Erwartungen verbunden (Klieme et al.,

2003, S. 9 f.): Einerseits soll dadurch eine höhere Zielklarheit erreicht werden. In

diesem Sinne dienen Standards der Orientierung aller Beteiligten (Lehrkräfte,

Schüler, Eltern, Administration) über die normativ gesetzten Ziele und schaffen so

mehr Klarheit, größere Objektivität und höhere Verbindlichkeit als bisher (Blum,

2006, S. 16). Andererseits soll es durch Bildungsstandards ermöglicht werden,

Lernergebnisse zu erfassen und zu bewerten. Im Zentrum stehen hierbei standard-

basierte Evaluationsverfahren (u. a. Bildungsmonitoring und Schulevaluation).

Die Entwicklung und Implementierung von Bildungsstandards ist ein sehr auf-

wendiges Verfahren und erfordert ein komplexes Zusammenspiel verschiedener

Akteure. Die Klieme-Expertise beschreibt hierfür umfassend die verschiedenen

Kriterien und Komponenten, die an dieser Stelle jedoch nicht weiter ausgeführt

werden können. Es wird bereits auf Basis dieser ausschnitthaften Darstellung der

Hintergründe und konzeptionellen Grundlagen von Bildungsstandards deutlich,

dass vor allem der Kompetenzbegriff sowie die Modellierung von Kompetenzen

im Rahmen fachspezifischer Kompetenzmodelle von zentraler Bedeutung sind.

Beide Punkte stehen in direktem Zusammenhang mit dem Thema der vorliegen-

den Arbeit, weshalb in den folgenden beiden Abschnitten auf den Kompetenzbeg-

riff und auf die Funktionen und Strukturen von Kompetenzmodellen eingegangen

wird.

2.1.2 Kompetenzbegriff

Der Kompetenzbegriff ist ein vielbenutzter und -diskutierter Terminus des sozial-

und erziehungswissenschaftlichen Diskurses der vergangenen Jahre (Klieme et al.,

2007). Er bildet die konzeptionelle Grundlage für eine Vielzahl nationaler und in-

ternationaler Schulleistungsstudien (z. B. PISA, TIMSS, DESI) und steht nicht zu-

letzt im Zentrum der Konzeption von Bildungsstandards. Hierdurch ist der Kom-

petenzbegriff auch für die Fachdidaktiken zu einem wichtigen Begriff geworden,

denn zentrale Fragen der Formulierung und Modellierung von Kompetenzen kön-

10

nen nur auf Basis fachdidaktischer Expertise geklärt werden (z. B. Klieme et al.,

2003, S. 121 f.). Der im Folgenden explizierte Kompetenzbegriff liegt auch dem

KoMus-Projekt (vgl. 2.2.3) und entsprechend der vorliegenden Arbeit zugrunde.

Kompetenzbegriff im Rahmen von Bildungsstandards

Der erziehungswissenschaftliche Kompetenz-Diskurs8 geht in Deutschland u. a.

auf Heinrich Roth zurück, der den Begriff sehr breit anlegt:

„Wenn er [Roth; dV] von ‚Fähigkeiten’ spricht, sind nicht nur kognitive Leistungsdis-positionen gemeint, sondern eine umfassende Handlungsfähigkeit, die auch den affek-tiv-motivationalen Bereich einschließt. In emanzipatorischer Absicht wird Kompetenz schließlich auch mit dem Anspruch an Zuständigkeit verbunden“ (Klieme & Hartig, 2007, S. 20).

Als zentrales Ziel von Erziehung definiert Roth ‚Mündigkeit’, verstanden als ver-

antwortliche und selbstbestimmte Handlungsfähigkeit und stellt sich damit in die

Tradition eines aufgeklärten Bildungsbegriffs (Klieme & Hartig, 2007, S. 19). Be-

sonders interessant ist vor diesem Hintergrund die Verbindung zum Kompetenz-

begriff: „Mündigkeit, wie sie von uns verstanden wird, ist als Kompetenz zu in-

terpretieren“ (Roth, 1971, S. 180). Daran anschließend schlägt Roth drei Kompe-

tenzbereiche vor: Selbstkompetenz, Sachkompetenz und Sozialkompetenz (ebd.).

Der große Einfluss des von Roth eingeführten Kompetenzbegriffs lässt sich bis in

die jüngste Vergangenheit verfolgen und wird nicht zuletzt innerhalb der Diskus-

sion um Schlüsselkompetenzen auf OECD-Ebene deutlich (Rychen & Salganik,

2001; Weinert, 1999; 2001a; vgl. auch Klieme & Hartig, 2007, S. 20 f.). Das in

diesem Kontext von Weinert ausgearbeitete Kompetenzkonzept ist mit dem Kom-

petenzbegriff nach Roth kompatibel, wenngleich es einen stärker psychologisch

ausgerichteten Fokus aufweist (Klieme & Hartig, 2007, S. 21). Gleichzeitig bildet

die von Weinert vorgeschlagene Kompetenzdefinition die konzeptuelle Grundlage

für Bildungsstandards in Deutschland. Weinert versteht unter Kompetenzen

„die bei Individuen verfügbaren oder durch sie erlernbaren kognitiven Fähigkeiten und Fertigkeiten, um bestimmte Probleme zu lösen, sowie die damit verbundenen motiva-tionalen, volitionalen und sozialen Bereitschaften und Fähigkeiten um die Problemlö-sungen in variablen Situationen erfolgreich und verantwortungsvoll nutzen zu kön-nen.“ (Weinert, 2001c, S. 27)

8 Auf den gesamten Kontext der sozialwissenschaftlichen Grundlagen wird an dieser Stelle nicht eingegangen; siehe hierzu z. B. Klieme & Hartig, 2007.

11

Darüber hinaus beschreibt Weinert verschiedene Facetten, die in Bezug auf die

individuelle Ausprägung einer Kompetenz von Relevanz sind (Klieme et al.,

2003, S. 73): Fähigkeit, Wissen, Verstehen, Können, Handeln, Erfahrung und Mo-

tivation.

Auf Basis dieser Definition spricht sich die Klieme-Expertise für einen domänen-

spezifischen Kompetenzbegriff aus, d. h., „Kompetenzen werden hier verstanden

als Leistungsdispositionen in bestimmten Fächern oder ‚Domänen’“ (Klieme et

al., 2003, S. 22). Diese eindeutige Stellungnahme gegen ein Konzept von über-

greifenden Kompetenzen, wie es z. B. häufig in der Berufspädagogik anzutreffen

ist, hat sowohl pragmatische als auch lernpsychologische Hintergründe (Klieme,

2004b, S. 12): Einerseits ist so eine Anschlussfähigkeit an die traditionelle Lehr-

planarbeit, aber auch an die Ausbildungs- und Kompetenzstruktur der Lehrer-

schaft gegeben. Andererseits sprechen aber vor allem Erkenntnisse der Lernpsy-

chologie für die fachspezifische Ausformulierung von Kompetenzen und gegen zu

große Erwartungen an übergreifende Kompetenzen: „Die Vorstellung, bereichs-

spezifische Kompetenzen könnten durch einen generischen Satz von hoch transfe-

rierbaren Schlüsselkompetenzen ersetzt werden, ist nach Befunden vor allem aus

der Expertiseforschung illusionär“ (Klieme, 2004b, S. 12).

Hartig & Klieme (2006) betonen vor allem zwei entscheidende konzeptionelle Ei-

genschaften des Kompetenzkonstrukts: die Kontextspezifität und die Erlernbarkeit

von Kompetenzen. Hierdurch hebt sich der Kompetenzbegriff auch von anderen

Leistungskonstrukten ab, im Speziellen von der Intelligenzforschung, die genera-

lisierte, kontextunabhängige und nur begrenzt lernbare kognitive Dispositionen

untersucht:

„Ein konzeptueller Unterschied zwischen Kompetenz und Intelligenz kann demnach in der Generalisierbarkeit der damit beschriebenen Leistungsdispositionen gesehen werden: Kompetenz ist stärker an spezifische Kontexte gebunden, während Intelligenz sich v. a. durch generalisierbare Leistungsdispositionen kennzeichnen lässt. […] Im Unterschied zur Erlernbarkeit – und damit Veränderbarkeit – von Kompetenzen wird Intelligenz als relativ stabil betrachtet.“ (Hartig & Klieme, 2006, S. 129 f.)

Empirische Erfassung von Kompetenzen

Die Kontextspezifität, aber auch die verschiedenen Facetten des Kompetenzkon-

strukts haben direkte Auswirkungen auf eine empirische Umsetzung. Diese muss

gemäß der Komplexität des Kompetenzbegriffs eine adäquate Erfassung von

Kompetenzen gewährleisten:

12

„Kompetenzen kann man nicht durch einzelne, isolierte Leistungen darstellen oder er-fassen. Der Bereich von Anforderungssituationen, in denen eine bestimmte Kompe-tenz zum Tragen kommt, umfasst immer ein mehr oder weniger breites Leistungs-spektrum. […] Eine eng gefasste Leistungserfassung kann dem Anspruch von Kompe-tenzmodellen nicht gerecht werden. Gerade wenn die […] genannten Facetten von Kompetenz berücksichtigt werden, wird erkennbar, dass die Erfassung von Kompe-tenz einen breiten Begriff von Aufgaben bzw. Tests erfordert, der nicht mit Wissens-abfragen allein erschöpft ist.“ (Klieme et al., 2003, S. 74)

Wenngleich der vielschichtige und komplexe Weinertsche Kompetenzbegriff aus

theoretischer und vor allem pädagogischer Sicht sinnvoll und fruchtbar für die

Entwicklung von Bildungsstandards erscheint, so herrscht doch innerhalb der em-

pirischen Bildungsforschung mittlerweile weitgehend Konsens darüber, dass im

Kontext konkreter empirischer Fragestellungen häufig eine einschränkende Ver-

wendung des Begriffs notwendig ist. Im Rahmen von mehreren groß angelegten

Forschungsvorhaben9 hat sich daher in der jüngeren Vergangenheit eine ‚Arbeits-

definition’ durchgesetzt, die Kompetenzen als „kontextspezifische kognitive Leis-

tungsdispositionen, die sich funktional auf Situationen und Anforderungen in be-

stimmten Domänen beziehen“ (Klieme & Leutner, 2006a, S. 4; Hervorhebungen

im Original) definiert (vgl. auch Hartig, 2008). Die Einschränkung des Kompe-

tenzbegriffs auf den kognitiven Bereich geht dabei auf Weinert selbst zurück, der

für empirische Untersuchungsdesigns empfiehlt, den kognitiven Bereich getrennt

von den motivationalen, volitionalen und sozialen Facetten zu erfassen, weil nur

so ihre Wechselwirkung analytisch dargestellt werden könne (Weinert, 2001a;

vgl. auch Klieme et al., 2007, S. 18, 24 f.; Hartig, 2008, S. 19). Damit wird jedoch

keinesfalls die Kompetenzdefinition nach Weinert, wie sie in Bildungsstandards

Verwendung findet, auf grundlegender Ebene infrage gestellt. Auch geht damit

nicht die Geringschätzung der nicht-kognitiven Facetten einher. Es handelt sich

hierbei vielmehr um die Eingrenzung des Kompetenzbegriffs aus einer bestimm-

ten „Anwendungsperspektive“ (Hartig, 2008, S. 17), die sich der Komplexität des

Konstrukts durchaus bewusst ist:

„Zu erwähnen ist, dass die Operationalisierung eines zu erfassenden Merkmals, auch einer Kompetenz, mit zunehmender Komplexität der inhaltlichen Definition immer schwieriger wird. Um bei der empirischen Untersuchung von Kompetenzen präzise Hypothesen formulieren zu können und inhaltlich aussagekräftige Messungen vor-nehmen zu können, ist es daher günstiger, mehrere präzise definierte Konstrukte zu unterscheiden und separat zu messen (z. B. kognitive Fähigkeiten und motivationale

9 U. a. innerhalb des DFG-Schwerpunktprogramms „Kompetenzmodelle zur Erfassung individuel-ler Lernergebnisse und zur Bilanzierung von Bildungsprozessen“ (Klieme & Leutner, 2006b).

13

Dispositionen), als unterschiedliche Aspekte in einem breiten Konstrukt zusammenzu-fassen.“ (Klieme et al., 2007, S. 25)

Im Rahmen von theoretischen Vorüberlegungen wurde dem KoMus-Projekt zu-

nächst der umfassende Weinertsche Kompetenzbegriff zugrunde gelegt (Niessen

et al., 2008, S. 9 f.). In Bezug auf die empirischen Projektphasen wurde jedoch

auch dort beschlossen, eine Fokussierung auf den kognitiven Bereich vorzuneh-

men. Im Sinne einer psychometrischen Messung werden also im KoMus-Kontext

ausschließlich die kognitiven Anteile der anvisierten Kompetenz erfasst.10

2.1.3 Kompetenzmodelle

Bildungsstandards konkretisieren Bildungsziele und machen sie durch Kompe-

tenzformulierungen pädagogisch anwendbar (Criblez et al., 2009, S. 33). Kompe-

tenzmodellen kommt dabei die Aufgabe zu, die Bildungsziele in konkrete Leis-

tungsanforderungen zu transformieren. Hierfür beschreiben Kompetenzmodelle

einerseits, welche Kompetenzen von Schülern in den einzelnen Fächern und zu

einem bestimmten Zeitpunkt erwartet werden. Andererseits liefern Kompetenz-

modelle „wissenschaftlich begründete Vorstellungen darüber, welche Abstufun-

gen eine Kompetenz annehmen kann bzw. welche Grade oder Niveaustufen sich

bei den einzelnen Schülerinnen und Schülern feststellen lassen“ (Klieme et al.,

2003, S. 74).

Auf konzeptioneller Ebene lassen sich grundsätzlich zwei Formen von Modellen

unterscheiden: Kompetenzniveaumodelle und Kompetenzstrukturmodelle (z. B.

Hartig & Klieme, 2006).11 Beide Modellformen fokussieren auf verschiedene As-

pekte von Kompetenzstrukturen, die sich jedoch nicht ausschließen, sondern ide-

alerweise ergänzen (Klieme et al., 2007, S. 11).

Niveaumodelle befassen sich mit der inhaltlichen Beschreibung von Kompeten-

zen. Es geht hierbei vor allem um die Frage, wie sich Abstufungen einer Kompe-

10 Dass eine umfassende Erfassung des facettenreichen Kompetenzbegriffs prinzipiell durchaus möglich ist, gleichsam damit aber aufgrund der getrennten Operationalisierungen ein immenser methodischer Aufwand verbunden ist, zeigt z. B. die Dokumentation der PISA-Studie 2006 (PISA-Konsortium Deutschland, 2007; vgl. auch Köller, 2008, S. 165). 11 In verschiedenen fachdidaktischen Publikationen werden darüber hinaus weitere Klassifikatio-nen von Kompetenzmodellen vorgeschlagen (z. B. Körber, 2007; Schecker & Parchmann, 2007), die für den vorliegenden Kontext jedoch nicht relevant sind.

14

tenz beschreiben lassen.12 Auf Basis eines Niveaumodells lassen sich demnach

Aussagen treffen über die Anforderungen, die Schüler bewältigen können. In psy-

chometrischer Hinsicht entspricht die Formulierung eines Kompetenzniveaumo-

dells der kriteriumsorientierten Interpretation einer Skala. Hierfür wird eine Kom-

petenzskala in unterschiedliche Abschnitte unterteilt und inhaltlich interpretiert

(zum methodischen Vorgehen vgl. z. B. Hartig, 2004).

Strukturmodelle befassen sich hingegen mit der Dimensionalität einer anvisierten

Kompetenz. Dies kann auf verschiedenen Ebenen geschehen (vgl. Klieme et al.,

2007, S. 12 f.): auf übergeordneter Ebene einer Domäne (Differenzierung von

verschiedenen Kompetenzbereichen und deren Zusammenhänge) oder aber inner-

halb eines einzelnen Kompetenzbereichs (Differenzierung von Teilkompetenzen

und deren Zusammenhänge). Als eigenständige Dimensionen werden im Rahmen

eines Strukturmodells diejenigen Kompetenzbereiche bzw. Teilkompetenzen aus-

gewiesen, die hinsichtlich ihrer korrelativen Zusammenhänge hinreichend unab-

hängig voneinander sind (Hartig & Klieme, 2006, S. 132). Die methodische Vor-

gehensweise bei der Erstellung bzw. Überprüfung von Strukturmodellen ist meist

faktorenanalytisch. Zunehmend werden jedoch auch mehrdimensionale IRT-

Modelle eingesetzt (z. B. Hartig & Höhler, 2008).

12 Es sei an dieser Stelle darauf hingewiesen, dass Kompetenzmodelle nicht notwendigerweise eine hierarchische Niveauabfolge aufweisen müssen: „Vor allem in Kompetenzbereichen, die affektive Aspekte und Einstellungen einschließen, wie der sozialen Kompetenz oder interkultureller Kom-petenz, gibt es möglicherweise keine klar abgrenzbaren und auf einer Skala von ‚niedrig’ bis ‚hoch’ bewertbaren Niveaus, sondern eher unterschiedliche Muster oder Typen“ (Klieme, 2004b, S. 13).

15

Abb. 1: Theoretisches Strukturmodell der DESI-Studie (in Anlehnung an: Beck & Klieme, 2007, S. 15 und

Nold & Rossa, 2007).

Abb. 1 verdeutlicht die Verbindung von Struktur- und Niveaumodellen am Bei-

spiel der DESI-Studie (Beck & Klieme, 2007; DESI-Konsortium, 2008). Darüber

hinaus ist in der Abbildung auf der rechten Seite unterhalb des Kompetenzni-

veaumodells für den Kompetenzbereich ‚Hörverstehen’ auch der Prozess zur Er-

stellung und Überprüfung von Kompetenzmodellen angedeutet. Kompetenzmo-

delle werden in aller Regel zunächst als theoretische Konstrukte entworfen, die

einer empirischen Überprüfung bedürfen (Klieme et al., 2003, S. 82), d. h., sie

müssen in Form von Aufgabenstellungen und Testverfahren operationalisiert wer-

den. Die Aufgaben operationalisieren einerseits die in einem theoretischen Model

angenommenen Strukturen einer Kompetenz. Andererseits dienen die Aufgaben

zur Illustration und Bildung von Kompetenzniveaus sowie zur weiteren Ausdiffe-

renzierung des Modells. Dies entspricht auch der Vorgehensweise, die im KoMus-

Projekt gewählt wurde (vgl. 2.2.3).

16

Exkurs: Kompetenzorientierung vs. Lernzieloperationalisierung13

Im Kontext von Bildungsstandards und Kompetenzorientierung wird oft auf die

sogenannte ‚Curriculumdiskussion’ in den 1960er und 70er Jahren verwiesen. Ei-

nige Beiträge konstatieren dann sinngemäß: Das hatten wir doch alles schon mal

und auch damals hat’s nicht funktioniert (z. B. Brügelmann, 2003; Rumpf, 2005).

Ein Vergleich ist naheliegend. Auch um 1970 war die Unzufriedenheit mit dem

Schulwesen groß – „Die deutsche Bildungskatastrophe“ (Picht, 1964) – und die

Erwartungen an eine wissenschaftlich fundierte Reform waren den heutigen z. T.

sehr ähnlich. Wenngleich mit anderer Terminologie, so sollte auch damals vor al-

lem der ‚System-Output’ gesteigert werden, damit – und auch das klingt bekannt

– Schule bei den Schülern Problemlösefähigkeiten für das spätere Leben aufbauen

kann. Ein ebenso nach wie vor aktuelles Argument war die Unzufriedenheit mit

der fehlenden Objektivität, Validität und (daraus resultierenden) Fairness von

Zeugnisnoten (z. B. Oelkers & Reusser, 2008, S. 18 ff.).

Im Folgenden sollen zwei zentrale Punkte skizziert werden, die verdeutlichen,

dass beide Konzeptionen – trotz einer ähnlichen Ausgangslage – durch wichtige

Unterschiede gekennzeichnet sind:14

(1) Der erste Punkt betrifft die theoretische Basis. In der Erziehungswissenschaft

hat sich ein Kompetenzbegriff durchgesetzt, der mittlerweile sowohl international

(u. a. OECD, PISA) als auch national (u. a. Bildungsstandards, DESI-Studie, Pro-

jekt VERA) Anwendung findet. In Abschnitt 2.1.2 wurde bereits dargestellt, dass

Kompetenz dabei als ein kontextspezifisches, komplexes Konstrukt definiert ist,

das sich im Zusammenspiel verschiedener Facetten manifestiert. Nun könnte man

argumentieren, dass eine ähnliche Konzeption auch den Lernziel-Taxonomien

zugrunde liegt. Auch dort trifft man auf verschiedene Facetten bzw. Bereiche:

Lernziele werden systematisiert in einen kognitiven, affektiven und psychomoto-

rischen Bereich (Anderson, Krathwohl & Airasian, 2001; Bloom, 1956). Während 13 Dieser Exkurs basiert auf dem Abschnitt „Kompetenzen vs. Lernzieloperationalisierung“ in Knigge & Lehmann-Wermser, 2009. 14 Ein systematischer und vor allem in historischer Hinsicht umfassender Vergleich von Lernzielo-perationalisierung und Bildungsstandards kann an dieser Stelle nicht erfolgen. Aus musikpädago-gischer Sicht sind hierfür vor allem die Ausführungen von Abel-Struth (1978, Kap. 3.2.2) und Fül-ler (1974) interessant. Des Weiteren sei in diesem Zusammenhang auf erziehungswissenschaftli-che Überblicksdarstellungen (z. B. Criblez et al., 2009, S. 58 ff.; Haft & Hopmann, 1987; Klieme, 2009) sowie einen sehr interessanten Beitrag aus der Geschichtsdidaktik (Borries, 2007) verwie-sen.

17

‚Kompetenz’ jedoch dezidiert als das Zusammenspiel diverser Facetten definiert

ist, spalten die Lernziel-Taxonomien die Bereiche voneinander ab und betrachten

sie isoliert voneinander. In jedem Bereich werden darüber hinaus die Ziele noch

weiter ‚zerlegt’: von obersten Lernzielen über Zwischenstufen bis hin zu Fein-

lernzielen, die dann operationalisiert, also in empirisch überprüfbare Ziele ‚über-

setzt’ werden. Diese sind dann jedoch so weit in ihre Bestandteile zerlegt, dass

z. B. nur noch die isolierte Abfrage von Wissensbeständen übrigbleibt.15 Sol-

chermaßen operationalisierte (meist kognitive) Feinlernziele sind dadurch sehr

weit entfernt von realen Anwendungssituationen. Der Unterschied zum Kompe-

tenzkonzept ist offensichtlich. Hier sollen gerade nicht einzelne, isolierte Facetten

einer Kompetenz getestet werden, sondern ein komplexes Konstrukt, und das in

möglichst realen und kontextspezifischen Anwendungssituationen:16

„Kompetenzen umschließen das Wissen und Können, das erforderlich ist, damit Schü-lerinnen und Schüler komplexe Anforderungen zu bewältigen vermögen. Dabei geht es nicht um Detailkenntnisse oder Fertigkeiten, wie sie im ‚lehrzielorientierten Unter-richt’ der 1970er Jahre abgearbeitet wurden. Mit dem Kompetenzbegriff stehen viel-mehr die ‚großen Linien’ im Vordergrund […]. Bei mathematischer Kompetenz bei-spielsweise geht es nicht nur darum, typische Aufgaben aus Algebra und Geometrie zu beherrschen, sondern um ein Verständnis für die zentralen Konzepte der Mathematik […] und um mathematikbezogene Tätigkeiten wie das Modellieren einer Problemsitu-ation, das Argumentieren und den Umgang mit unterschiedlichen Repräsentationsfor-maten.“ (Klieme, 2009, S. 47)

(2) Eng verbunden mit diesen eher theoretischen Unterschieden ist die empirisch-

methodische Umsetzung der beiden Konzeptionen (z. B. Klieme & Leutner,

2006b, S. 881). Im Vergleich zum analytischen Zerlegen von Lernziel-

Taxonomien gehen empirische Studien auf Basis des Kompetenzkonzepts einen

anderen Weg. Durch Fortschritte auf den Gebieten der Psychometrie und Testthe-

orie ist es inzwischen möglich, das Kompetenzkonstrukt in seiner Komplexität

auch empirisch adäquat zu erfassen. Hiermit sind zuvorderst sehr anspruchsvolle 15 Die Fokussierung auf den kognitiven Bereich – und dabei vor allem auf die Erfassung von Wis-sensbeständen – ist nicht vorgegeben durch die Lernziel-Taxonomien, die dem affektiven und psy-chomotorischen Bereich prinzipiell gleiches Gewicht einräumen. Trotzdem wurden in der deut-schen Musikpädagogik vor allem die Arbeiten zu kognitiven Lernziel-Taxonomien (v. a. Colwell, 1970b) rezipiert und angewendet (vgl. Abel-Struth, 1978, S. 64 ff.). Dies dürfte vor allem daran liegen, dass die kognitiven Taxonomien noch am ehesten überzeugen konnten, während der affek-tive und psychomotorische Bereich auch von den Autoren selbst als problematisch eingeschätzt wurde, sodass z. B. von Colwell hierfür noch eine Reihe kritischer konzeptioneller Überlegungen angestellt werden, aber keine Operationalisierung der beiden Bereiche mehr erfolgt (Colwell, 1970b). 16 Sehr anschaulich wird dieser grundlegende Unterschied, wenn man operationalisierten Feinlern-zielen z. B. Aufgaben aus den PISA-Studien gegenüberstellt, die zur Erfassung hoher Kompetenz-niveaus dienen.

18

statistische Verfahren gemeint, die in Abhängigkeit von der zu erfassenden Kom-

petenz verschiedene psychometrische Messmodelle zur Verfügung stellen (v. a.

sogenannte IRT-Modelle der probabilistischen Testtheorie; vgl. 5.1). Dabei ist es

möglich mithilfe einer größeren Anzahl an Testaufgaben die Dimensionen, Kom-

ponenten und Strukturen von Schülerkompetenzen zu erfassen und zu beschrei-

ben. Außerdem ermöglichen z. B. regressionsanalytische Verfahren die Analyse

von komplexen Aufgaben hinsichtlich ihrer schwierigkeitsgenerierenden Aufga-

benmerkmale, sodass bestimmt werden kann, welche Kompetenzen in welcher

Ausprägung zur Lösung einer Aufgabe notwendig sind (vgl. Kap. 7). Auch konn-

ten hinsichtlich der testpraktischen Durchführung von Kompetenztests wichtige

Fortschritte erzielt werden (z. B. Einsatz computerbasierter Tests, interaktive

Testformate, adaptive Tests, Multi-Matrix-Designs, erhöhter Anteil offener Item-

formate). Diese testtheoretischen und -praktischen Errungenschaften sind nicht zu

unterschätzen, denn auch die elaboriertesten Theorien über Lernziele oder Kom-

petenzen sind von relativ begrenzter Tragweite, wenn ihre empirische Umsetzung

nur verkürzt und unbefriedigend ausfällt. Entsprechend macht die empirische Er-

ziehungswissenschaft und pädagogische Psychologie gerade hierin den Hauptun-

terschied und Fortschritt zu den Lernzieloperationalisierungen der 1970er Jahre

aus:

„Die lern- bzw. lehrzielbezogenen Leistungsmessung der 1970er-Jahre ist nicht zuletzt auch daran gescheitert, dass sie den Anspruch einer engen Verbindung von kognitiver Modellierung, Psychometrie und diagnostischen bzw. Assessment-Konzepten nicht einlösen konnte. Entwicklungen in den betroffenen Disziplinen ermöglichen jetzt eine neue Form von Diagnostik und Assessment, die auf intensiver Grundlagenforschung beruht.“ (Klieme & Leutner, 2006b, S. 881)

Es spricht also einiges dafür, dass Bildungsstandards und Kompetenzkonzept die

Situation um 1970 nicht replizieren, da – trotz einiger Parallelen – ein anderer

theoretischer Hintergrund und auch eine verbesserte empirisch-methodische Stra-

tegie angewendet werden.17

17 Die konzeptuellen Unterschiede und Fortschritte werden bedauerlicherweise jedoch auf curricu-larer Ebene z. T. konterkariert. Dort sind häufig vermeintliche Kompetenzformulierungen anzu-treffen, die viel eher als Beispiel eines operationalisierten Lernziel gelten müssten: „Die Schüle-rinnen und Schüler kennen ausgewählte Kompositionen/Musiken unterschiedlicher Stilrichtungen und Merkmale aus Gegenwart und Vergangenheit (in Auszügen) sowie deren Komponistinnen o-der Komponisten“ (Niedersächsisches Kultusministerium, 2006, S. 17); „Die Schülerinnen und Schüler können Notenwerte, Pausen, einfache Rhythmen und Taktarten, Stammtöne und Vorzei-chen, Lautstärkeangaben, Stammintervalle und Tonleitern lesen, notieren […]“ (Freie Hansestadt

19

2.2 Bildungsstandards, Kompetenzorientierung und das Fach Musik

Auch das Fach Musik ist von den aktuellen bildungspolitischen Reformprozessen

betroffen. Wenngleich auf KMK-Ebene nationale Bildungsstandards für Musik

vorerst nicht geplant sind, so sind die Einflüsse des Reformprozesses auf Länder-

ebene eindeutig festzustellen. Ebenso spielt die Diskussion über Bildungsstan-

dards und Kompetenzorientierung eine Rolle im fachdidaktischen Diskurs der

letzten Jahre. Sowohl der Stand der curricularen Entwicklungen unter dem Ein-

fluss von Bildungsstandards als auch der darauf bezogene fachdidaktische Diskurs

wurden vom Autor der vorliegenden Arbeit bereits an anderer Stelle ausführlich

behandelt (Knigge & Lehmann-Wermser, 2008). Im folgenden Abschnitt erfolgt

eine zusammenfassende Darstellung dieser musikspezifischen Hintergründe, vor

denen das KoMus-Projekt und nicht zuletzt die vorliegende Arbeit entstanden

sind.

2.2.1 Curriculare Ebene

Bei der Betrachtung der momentan18 in Deutschland gültigen Musikcurricula19

wird zuallererst deutlich, dass sich der Paradigmenwechsel von der Input-

Orientierung alter Lehrpläne hin zur Output-Orientierung auch in den Curricula

für das Fach Musik niederschlägt. Seit der Jahrtausendwende haben nahezu alle

Bundesländer Neuentwicklungen oder Überarbeitungen ihrer Curricula vorgelegt,

die in Terminologie und Konzeption in die Richtung von Bildungsstandards wei-

sen.20

Die folgenden Ausführungen verdeutlichen, wie sich konkret der Einfluss von

Bildungsstandards und Kompetenzorientierung auf curricularer Ebene zeigt und

Bremen, 2007, S. 9). In diesem Sinne ist eines der Hauptprobleme von Standards und Kompetenz-orientierung nicht deren Konzeption, sondern deren Implementierung (vgl. 2.2.1). 18 Stand: Sommer 2008. Ein Verzeichnis der analysierten Curricula ist im Anschluss an das Litera-turverzeichnis aufgeführt. 19 Die gängige terminologische Unterscheidung in ‚Lehrplan’, der sich mehr auf Anweisungen für den Lehrenden beschränkt, und ‚Curriculum’, das auch begründet und reflektiert (vgl. Abel-Struth, 1978, S. 24), ist in diesem Kontext nicht von Bedeutung. Somit werden im Folgenden unter dem Begriff ‚Curricula’ sowohl Curricula als auch Lehrpläne, Rahmenpläne, Bildungspläne, curriculare Vorgaben etc. subsumiert. 20 Für alle weiteren Länder (bzw. Schulformen innerhalb der betreffenden Länder) sind aktuelle Arbeiten an neuen Curricula bekannt (z. B. Bremen, Hessen, Saarland). Die vorliegenden Entwür-fe dieser Länder deuten darauf hin, dass die Orientierung am Bildungsstandardkonzept zunehmend konstitutiv ist.

20

inwieweit die Curricula dabei mit den Kriterien kompatibel sind, die im Rahmen

der Klieme-Expertise (Klieme et al., 2003) für die Erstellung von Bildungsstan-

dards vorgeschlagen werden.

Dimensionen des Faches – Kompetenzbereiche

Ein Merkmal von Bildungsstandards ist die Identifizierung von Teildimensionen

eines Faches (‚Kompetenzbereiche’), innerhalb derer dann die Kompetenzen be-

schrieben und in Kompetenzmodellen differenziert erfasst werden können. In die-

ser Hinsicht ist ein übereinstimmendes Merkmal der betrachteten Curricula die

Systematisierung des Faches in übergeordnete Kernbereiche.21 Es werden Berei-

che definiert unter verschiedenen Überschriften wie beispielsweise „Arbeitsfel-

der“, „Lernfelder“, „Inhaltsbereiche“, „Betrachtungsdimensionen“, „Umgangs-

weisen“ oder eben „Kompetenzbereiche“ (vgl. Knigge & Lehmann-Wermser,

2008, S. 62 ff.):

� Dabei ist immer ein Bereich zu finden, der die musikpraktischen Umgangs-

weisen abdeckt (sowohl produktive als auch reproduktive).

� Häufig wird das Umsetzen von Musik in andere Bereiche (z. B. Bewegung,

Malen) bzw. umgekehrt (z. B. Komponieren nach Bildvorlage) als eigenstän-

diger Bereich ausgewiesen, gelegentlich ist es in den musikpraktischen integ-

riert.

� Daneben gibt es Bereiche, die schwerpunktmäßig das strukturierend hörende

Wahrnehmen und Verstehen von Musik zum Inhalt haben. Diesen ist grundle-

gend gemeinsam, dass es um ein Zusammenspiel von Wissen über Musik

(z. B. über musikalische Formen, Symbolsysteme etc.) und Wahrnehmen von

Musik geht. In unterschiedlichem Grad werden innerhalb dieser Bereiche be-

reits auch Reflexionsprozesse hinsichtlich des kritischen Beurteilens von Mu-

sik, aber auch deren kulturhistorischen und sozialen Dimensionen thematisiert.

� Diese zuletzt genannten Inhalte befinden sich somit auf der Grenze zu den

oftmals als eigenständig ausgewiesenen Bereichen des Nachdenkens über Mu-

sik. Hierbei steht explizit die Reflexion über Musik und teilweise auch des ei-

genen Umgangs mit Musik im Mittelpunkt. In vielen Fällen ist mit der Beto-

21 Hierbei ist größtenteils eine Orientierung an schon relativ alten Dimensionierungen des Faches, sogenannten ‚Umgangsweisen mit Musik’ (vgl. Kaiser & Nolte, 1989, S. 30 ff.) zu beobachten.

21

nung dieses Bereichs das Bildungsziel eines ‚offenohrigen’22 Umgangs mit

Musik verbunden.

Grundsätzlich kann festgehalten werden, dass auf curricularer Ebene eine relativ

große Übereinstimmung hinsichtlich der Einteilung des Faches in zumeist drei

oder vier Kernbereiche vorliegt (vgl. Knigge & Lehmann-Wermser, 2008, S.

63 f.).23

Kompetenz: Begriff und Modellierung

Des Weiteren stellt sich die Frage, in welcher Form der Kompetenzbegriff inner-

halb der Musikcurricula Verwendung findet. Dabei wird zunächst deutlich, dass

einige Curricula kein domänenspezifisches, sondern ein übergreifendes Kompe-

tenzkonzept verwenden (vgl. 2.1.2). Häufig werden in diesem Zusammenhang die

aus der Berufspädagogik stammenden und in der Öffentlichkeit viel gebrauchten

Konzepte der Sach-, Methoden-, Sozial- und Personalkompetenz angewandt. Es

scheint jedoch, dass sich die Formulierung von fachspezifischen Kompetenzen

durchsetzt, was vor allem bei Betrachtung der neueren Curricula deutlich wird.

In den Abschnitten 2.1.2 und 2.1.3 wurde dargestellt, dass neben der Fachspezifi-

tät die Beschreibung der Kompetenzen im Rahmen von Kompetenzmodellen ein

zentraler Aspekt ist. Jedes Kompetenzniveau sollte dabei durch Prozesse und

Handlungen von bestimmter Qualität gekennzeichnet sein, die Schüler auf diesem

Niveau bewältigen können, nicht aber auf niedrigeren Niveaus (Klieme et al.,

2003, S. 75 f.). Darüber hinaus bedürfen die formulierten Kompetenzen einer

Konkretisierung in Form von Aufgabenstellungen (Klieme et al., 2003, S. 23 f.).24

Von den Musikcurricula werden diese Anforderungen nicht oder nur ansatzweise

erfüllt. Dies soll an einigen Beispielen verdeutlicht werden:

� Häufig werden einfach traditionelle Lehrplaninhalte unter den neuen Über-

schriften ‚Standards’ oder ‚Kompetenzen’ aufgeführt; z. B. „Die Schülerinnen

22 ‚Offenohrigkeit’ (open earedness) ist als Terminus vor allem von Hargreaves (u. a. 1982) vorge-schlagen worden, um die relative Unvoreingenommenheit, die Grundschüler in den ersten Jahren gegenüber vielfältigen Musiken zeigen, zu beschreiben. 23 Diese Dimensionalisierung ist auch anschlussfähig an den internationalen Diskurs (vgl. Niessen, Lehmann-Wermser, Knigge & Lehmann, 2008, S. 10 ff.). 24 Damit ist nicht nur die Aufgaben- und Testentwicklung für Schulleistungsstudien, Bildungsmo-nitoring etc. gemeint, sondern auch die Aufgabenkonstruktion zur Orientierung für die Unter-richtspraxis und die Bewertung von Lernergebnissen (vgl. Klieme et al., 2003, S. 23 f.).

22

und Schüler verfügen über ein Liedrepertoire und spielen einfache Rhythmen,

Melodien und Akkorde auf verschiedenen Instrumenten“ (Sekundarstufe I,

Berlin).

� Eng verbunden mit dem zuvor genannten Punkt ist die oftmals sehr undiffe-

renzierte Beschreibung einer Kompetenz, z. B. „Schülerinnen und Schüler

können Musik in andere Ausdrucksbereiche umsetzen oder andere Ausdrucks-

bereiche mit Musik gestalten“ (Bildungsplan Gymnasium, Baden-

Württemberg).

� Fast ausnahmslos werden keine Kompetenzniveaus unterschieden. Ansätze

dazu gibt es lediglich in den „Niveaukonkretisierungen“ zum Bildungsplan

Baden-Württemberg, in denen die Bewältigung einer „Problemstellung“ auf

drei Niveaustufen beschrieben wird. Diese Niveaukonkretisierungen sind je-

doch bislang nur exemplarisch für einzelne Standards und Klassenstufen vor-

handen. Eine systematische Beschreibung im Sinne einer umfassenden Model-

lierung im Rahmen von Kompetenzstruktur- und -niveaumodellen liegt jedoch

für keines der Curricula vor.

� Ebenso fehlt größtenteils die Konkretisierung in Aufgabenstellungen. Versu-

che, wie z. B. im Kerncurriculum für die Grundschule des Landes Niedersach-

sen, bleiben auf einem sehr allgemeinen Niveau (z. B. „Instrumente eines

Werkes benennen“) und können ohne einen Bezug zu Kompetenzniveaus die

Ausprägung einer Kompetenz nur sehr undifferenziert beschreiben.

Zusammenfassend ist für die curriculare Ebene festzuhalten, dass bislang noch

keine Musikcurricula vorliegen, die den in der Klieme-Expertise formulierten Kri-

terien für Bildungsstandards genügen. Insbesondere fehlen Kompetenzmodelle

zur differenzierten Beschreibung und Erfassung der Schülerkompetenzen. Viele

Länder haben zwar offensichtlich den Weg in Richtung Bildungsstandards einge-

schlagen, was vor allem in einer Dimensionierung des Faches in Kernbereiche

und kompetenzorientierten Formulierungen sichtbar wird. Das Konzept von Stan-

dards und Kompetenzen, zu dem sich viele Präambeln bekennen, wird in der Fol-

ge jedoch nicht konsequent umgesetzt.

Wenngleich sich das Fach Musik offensichtlich noch am Anfang einer kompe-

tenz- und standardbasierten Entwicklung befindet, drängt sich trotzdem die Frage

auf, warum in den bislang vorgelegten Curricula eine doch relativ stark verkürzte

23

Umsetzung der entsprechenden Konzeptionen festzustellen ist. Für Musikcurricu-

la ergeben sich im Gegensatz zu den sogenannten ‚Hauptfächern’ besondere Prob-

leme: Zuvorderst liegt dies in der Natur eines ästhetischen Faches, auf das die

Konzeption von Bildungsstandards nicht so leicht übertragen werden kann, wie

dies beispielsweise für das Fach Mathematik der Fall zu sein scheint. Außerdem

bestehen insbesondere für die Hauptfächer lange und umfassende theoretische

sowie auch empirische Forschungstraditionen, die für die Entwicklung von Bil-

dungsstandards und insbesondere für Kompetenzmodelle nutzbar gemacht werden

können.25 Eine auch nur ansatzweise vergleichbare Situation ist für das Fach Mu-

sik nicht gegeben.

2.2.2 Fachwissenschaftlicher Diskurs

Notwendige fachwissenschaftliche Vorarbeiten

Die Annahme ist daher naheliegend, dass die Entwicklung von Bildungsstandards

vor allem dadurch erschwert wird, dass entscheidende Grundlagenarbeiten vonsei-

ten der Fachdidaktik fehlen. Deutlich wird dies bei Betrachtung der in der Klie-

me-Expertise beschriebenen notwendigen Vorarbeiten, die größtenteils unter Be-

teiligung der Fachwissenschaften zu leisten sind (Klieme et al., 2003):

� Bildungstheoretische Verankerung des Faches: Zentraler Punkt ist hierbei die

Bestimmung von Bildungszielen, denn „ohne Bezug auf allgemeine Bil-

dungsziele wären Kompetenzanforderungen reine Willkür oder bloße Exper-

tenmeinung. Erst die Orientierung an diesen Zielen legitimiert die Bestim-

mung von erwünschten Niveaustufen und die daraus resultierenden Testver-

fahren. Insbesondere sollten die Standards von einem Verständnis des Bil-

dungsauftrags der jeweiligen Fächer ausgehen, das expliziert werden muss“

(S. 23).

� Benennung der Kompetenzen, die Schülerinnen und Schüler erwerben müs-

sen, damit die Bildungsziele als erreicht gelten können (S. 71).

� Entwicklung von Kompetenzmodellen, die „auf der Basis fachdidaktischer

Konzepte die Komponenten und Stufen der Kompetenzen [beschreiben] und

25 Für das Fach Deutsch z. B. die intensiven und seit Jahrzehnten durchgeführten Forschungen zur Lesekompetenz (z. B. Richter & Christmann, 2002; Voss, Carstensen & Bos, 2005).

24

[…] sich dabei auf pädagogisch-psychologische Forschungen zum Aufbau von

Wissen und Können [stützen]“ (S. 17).

� Operationalisierung von Kompetenzmodellen und Testentwicklung: „Testver-

fahren […] operationalisieren die Kompetenzanforderungen durch konkrete

Aufgaben. Sie dienen unterschiedlichen diagnostischen und evaluativen Zielen

und ermöglichen zugleich die empirische Überprüfung der Kompetenzmodel-

le“ (S. 17).26

Bei Betrachtung des fachwissenschaftlichen Diskurses wird deutlich, dass zum

heutigen Zeitpunkt für das Fach Musik keiner der genannten Punkte zufriedenstel-

lend geklärt ist. Selbst auf grundlegender Ebene existiert kein Konsens, an dem

die Arbeit an Bildungsstandards direkt anschließen könnte (vgl. Niessen et al.,

2008, S. 6 ff.). Ganz im Gegenteil ist die Bestimmung von Zielen des Faches seit

vielen Jahren durch eine große Heterogenität geprägt (z. B. Abel-Struth, 1978;

Kaiser & Nolte, 1989; vgl. auch Schlegel, 2001).27

Darüber hinaus ist in der Musikpädagogik bis heute kein umfassender Diskurs

zum Kompetenzbegriff bzw. zu ‚musikalischer Kompetenz’ zu verzeichnen. Einer

der wenigen Beiträge, die sich grundlegend mit dem Kompetenzbegriff in musik-

pädagogischen Kontexten auseinandersetzen, stammt von Kaiser (2001). In seinen

Überlegungen formuliert Kaiser eine Vielzahl nach wie vor ungeklärter Fragen

und beschließt seine Analyse des fachdidaktischen Diskurses mit dem Satz: „Die

darin [im Kompetenz-Konzept; dV] zum Vorschein kommenden Probleme sind

bisher in der musikpädagogischen und -didaktischen Diskussion keineswegs ge-

löst, ja sie sind noch nicht einmal als Problem erkannt worden“ (Kaiser, 2001,

S. 10).

Ebenso wurden vonseiten der Musikpädagogik bislang noch keine Kompetenz-

modelle vorgelegt. Ein Problem ist hierbei vor allem, dass die dafür notwendigen, 26 Realistischerweise können empirisch gestützte Modelle nicht von Anfang an und in allen Fä-chern erstellt werden. Die Klieme-Expertise schlägt deshalb die Entwicklung von theoretischen Kompetenzmodellen auf Basis fachdidaktischen Erfahrungswissens vor, die nach und nach jedoch einer empirischen Überprüfung zugeführt werden sollten (Klieme et al., 2003, S. 71). 27 Dies gilt sowohl für den fachdidaktischen Diskurs als auch für die curriculare Ebene. Man fühlt sich auch heute noch an die Worte Abel-Struths erinnert: „Beobachtet man den Gebrauch des Wortes ‚Ziel’ im Zusammenhang musikalischen Lernens, so fällt zunächst auf, dass in außeror-dentlich hohem Maße von Zielen geredet wird; fast möchte man von einer auffallenden Bereit-schaft zu Lernziel-Bekenntnissen im Zusammenhang mit Musik sprechen“ (Abel-Struth, 1978, S. 13). Diese Problematik wird seit Langem in der Musikpädagogik reflektiert und gerade in Be-zug auf die Erstellung von Bildungsstandards erneut angemahnt (z. B. Bähr, 2004a; 2005).

25

größtenteils empirischen Grundlagenforschungen fehlen. Diese sind weder in den

Nachbardisziplinen (z. B. der Musikpsychologie) vorhanden, noch sind diesbe-

zügliche musikpädagogische Forschungsprojekte in Sicht.

An dieser Stelle wird deutlich, dass es hinsichtlich der Entwicklung von Bildungs-

standards und insbesondere dem Bedarf an Kompetenzmodellen ein Missverhält-

nis zwischen curricularer Realität und Fachwissenschaft gibt. Die folgende Be-

trachtung des fachwissenschaftlichen Diskurses geht nun der Frage nach, was die

Hintergründe für diese Situation sind.

Fachwissenschaftlicher Diskurs

Gemessen an der Tragweite der Umstellung des Bildungssystems auf Standards

fällt die Beachtung des Themas im musikpädagogischen Diskurs relativ beiläufig

aus. Neben einigen Einzelbeiträgen findet sich der größte Teil der Publikationen

in zwei speziellen Themenheften.28 Richter (2005) identifiziert mindestens vier

verschiedene Haltungen gegenüber Bildungsstandards für den Musikunterricht:

� „den Versuch, die Musik und das ‚Musik-Lernen‘ den formalen Vorgaben für Standards und Kompetenzen anzupassen […];

� den Versuch, bisher formulierte Ziele gemäß der neuen Terminologie umzu-deuten, bzw. die bisherigen Ziele einfach in Kompetenzen umzubenennen […];

� die Behauptung, die formulierten Forderungen seien im Fach Musik nicht er-füllbar, bzw. sie seien dem Fach nicht angemessen;

� die Erwägung, welche positiven Auswirkungen das Konzept der Bildungs-standards haben könne - neben allen fragwürdigen Einflüssen, die es für das Fach Musik mit sich bringt.“ (S. 14)

Interessant ist nun die Frage nach den Argumenten hinter diesen (und weiteren)

Haltungen. Die folgenden Ausführungen beschränken sich dabei auf die zentralen

und für das Fach Musik im Speziellen relevanten Argumentationsfiguren.29

Kritische Positionen

Unter der Vielzahl der kritischen Anmerkungen lassen sich vier zentrale Positio-

nen identifizieren:30

28 Diskussion Musikpädagogik, Nr. 27, 2005; Musik & Bildung, Nr. 4, 2004. 29 Für allgemeine, nicht musikspezifische Positionen sei auf die in Fußnote 4 genannte Literatur verwiesen. 30 Gegenpositionen und -argumente werden an dieser Stelle nicht dargestellt; vgl. hierzu Knigge & Lehmann-Wermser, 2008.

26

(1) Zuvorderst steht hierbei ein sehr grundsätzlicher Einwand gegen eine stan-

dard- und kompetenzbasierte Ausrichtung des Faches Musik. Den betreffenden

Autoren zufolge sei das, was musikalische (und insgesamt ästhetische) Bildung

ausmacht, nicht in Form von Kompetenzen zu formulieren oder in Standards ab-

zubilden (z. B. Richter, 2005; Rumpf, 2005; Weber, 2004; vgl. auch Niessen &

Lehmann-Wermser, 2005; Rolle, 2006) – zumindest nicht umfassend und auch

nicht im Rahmen der von Klieme et al. (2003) vorgeschlagenen Konzeption.31 Die

Schlussfolgerungen aus diesem Einwand reichen von totaler Ablehnung von Bil-

dungsstandards für Musik (z. B. Rumpf, 2005) bis hin zu einer konstruktiven

Auseinandersetzung mit der Problematik (z. B. Niessen & Lehmann-Wermser,

2005).

(2) Ein weiterer häufig angeführter Kritikpunkt drückt sich in der Befürchtung

aus, dass durch Bildungsstandards einer gewissen ‚Gleichmacherei’ Vorschub ge-

leistet werde, die gerade in einem ästhetisch-kreativen Bereich besonders unange-

bracht sei (z. B. Richter, 2005, S. 22).32

(3) Darüber hinaus insistieren Teile des musikpädagogischen Diskurses auf einer

vermeintlichen ‚kognitiven Beschränkung’ des im Rahmen von Bildungsstandards

verwendeten Kompetenzbegriffs.33

(4) Ebenfalls auf grundlegender Ebene setzen Argumentationen an, die eine be-

sondere Problematik in der Kulturabhängigkeit und Subjektbezogenheit des Fa-

ches sehen (Vogt, 2004, S. 11 f.; Rolle, 2008b, S. 51 ff.).

Positive Aspekte

Neben den genannten kritischen Positionen gibt es auch eine Reihe von Autoren,

die in einer Kompetenzorientierung und dem Systemwechsel hin zu Bildungs-

standards durchaus Positives und Chancen für das Fach Musik sehen. Vor allem

drei Punkte werden dabei immer wieder hervorgehoben:

31 Die Diskussion um das Verhältnis von musikalischer Bildung und Kompetenz kann an dieser Stelle nicht nachgezeichnet werden; vgl. hierzu z. B. Bähr, 2001, S. 49 ff.; Geuen & Orgass, 2007; Kaiser, 1995; Rolle, 2008b; Vogt, 2008. 32 Vgl. hierzu auch die Klieme-Expertise (Klieme et al., 2003, Kap. 5), die auf den von Richter ge-äußerten Reduktionismus-Vorwurf und den Vorwurf der Vereinheitlichung und Nivellierung ex-plizit eingeht. 33 Vgl. hierzu die Ausführungen zum Kompetenzbegriff in Abschnitt 2.1.2.

27

(1) Die Erarbeitung von Standards kann die Fachdidaktik fordern und fördern

(z. B. Geuen, 2006; Urban, 2004; Weber, 2004): Hiermit ist zuvorderst gemeint,

dass in der Auseinandersetzung mit Bildungsstandards wichtige Prozesse in Gang

gesetzt werden können, die auch unabhängig von diesem Systemwechsel für die

Musikpädagogik auf den Weg zu bringen wären, nun jedoch mit erhöhter Dring-

lichkeit und Priorität; so z. B. die Verständigung über didaktische Leitideen, In-

halte und Kernbereiche oder die Einigung auf Bildungsziele des Faches.

(2) Standards können zu einer qualitativen Weiterentwicklung des Musikunter-

richts beitragen (z. B. Bähr, 2003; 2004b; Krämer, 2005; Niessen & Lehmann-

Wermser, 2005; Rolle, 2006; Scheuer, 2003). Angesichts der gegenwärtigen Situ-

ation des Musikunterrichts (keine Kontinuität, Lehrermangel und Unterrichtsaus-

fall, stark heterogene Lehrpläne in den einzelnen Bundesländern etc.; vgl. z. B.

Bähr, 2003) könnte das Fach Musik besonders von der Implementierung von

Standards profitieren. Von besonderer Bedeutung wird hierbei der Aspekt der sys-

tematischen Rückkopplung von Unterricht an evaluative Maßnahmen angesehen.

Damit könnten sich sowohl auf Systemebene als auch auf Schul- und Klassenebe-

ne Möglichkeiten zur Qualitätskontrolle und -steigerung ergeben. Mit der Orien-

tierung des konkreten Unterrichts an Kompetenzmodellen bzw. darauf basieren-

den Aufgaben und Tests verbindet sich nicht zuletzt die Erwartung, Aussagen ü-

ber spezifische Stärken und Schwächen und damit den Förderbedarf einzelner

Schülerinnen und Schüler machen zu können.

(3) Das Fach Musik muss sich der Diskussion um Bildungsstandards stellen, da

ansonsten ein erhöhter Legitimationsdruck für das Fach zu erwarten ist (z. B.

Geuen, 2006; Köhler, 2004). Im schlimmsten Fall, so die Meinung einiger Musik-

pädagogen, könnte die konsequente Ablehnung von Standards sogar grundlegende

und existenziell negative Folgen für das Fach Musik haben (z. B. Schoenebeck,

2004).

Zusammenfassend ist festzuhalten, dass sich einerseits auf curricularer Ebene ein-

deutig eine standard- und kompetenzorientierte Entwicklung abzeichnet. Anderer-

seits wird diese Entwicklung vonseiten des fachwissenschaftlichen Diskurses

größtenteils sehr kritisch begleitet. Darüber hinaus stellt die Musikpädagogik bis-

lang keine Kompetenzmodelle und darauf bezogene Aufgaben bzw. Testinstru-

mente zur Verfügung, die für curriculare Entwicklungen verwendet werden könn-

ten. Angesichts dieser Situation plädieren eine Reihe von Musikpädagogen dafür,

28

sich umfassend und systematisch der fachdidaktischen Aspekte von Bildungsstan-

dards anzunehmen (z. B. Flämig, 2004; Bähr, 2005; Köhler, 2004; Niessen &

Lehmann-Wermser, 2005).

Die dargestellte curriculare und fachdidaktische Situation bildet den Hintergrund,

vor dem im Rahmen des KoMus-Projekts erstmalig der Versuch unternommen

wird, einen Kompetenzbereich des Musikunterrichts in einem Kompetenzmodell

abzubilden und hierfür Testaufgaben bzw. ein Testinstrument zu entwickeln.

2.2.3 Das KoMus-Projekt

Die vorliegende Arbeit entstand im Kontext eines größeren Forschungsprojekts.

Innerhalb der Arbeit werden dabei einerseits Ergebnisse des Gesamtprojekts als

Grundlage genutzt (v. a. das theoretische Kompetenzmodell; vgl. 4.1), anderer-

seits stellt die vorliegende Arbeit Erkenntnisse bereit, die wiederum in die Ergeb-

nisse des Gesamtprojekts einfließen. Es wird daher im Folgenden zunächst ein

kurzer zusammenfassender Überblick über das KoMus-Projekt gegeben und ins-

besondere die Einbettung der vorliegenden Arbeit in das Projekt dargestellt.34

In den vorangegangenen Abschnitten wurde deutlich, dass im Kontext aktueller

bildungspolitischer Reformbemühungen der Implementierung von nationalen Bil-

dungsstandards eine zentrale Bedeutung zukommt. Wenngleich für das Fach Mu-

sik auf nationaler Ebene bislang keine Bildungsstandards angestrebt werden, so

zeigt sich doch auf Länderebene ein deutlicher Einfluss der Standardkonzeption

auf die Curricula des Faches Musik (vgl. 2.2.1). Problematisch erscheint hierbei

insbesondere das Fehlen von Kompetenzmodellen und darauf bezogener Aufga-

ben und Testinstrumente.

Vor diesem Hintergrund begann eine Arbeitsgruppe, bestehend aus Wissenschaft-

lern der Universitäten Bremen und Köln sowie der Musikhochschule Würzburg,

mit Vorbereitungen für ein Projekt zur Entwicklung von Kompetenzmodellen.35

Von 2007 bis 2010 wurde das daraus resultierende Forschungsprojekt „Kompe-

34 Umfassendere Ausführungen zu Hintergründen, Design und Ergebnissen des KoMus-Projekts sind bei Niessen, Lehmann-Wermser, Knigge & Lehmann (2008); Jordan, Knigge & Lehmann-Wermser (2010) und Jordan, Knigge, Lehmann-Wermser, Lehmann & Niessen (i. Vorb.) darge-stellt. Weitere Informationen sind auch auf der Projekthomepage zu finden: http://www.musik.uni-bremen.de/forschung/komus. 35 Beteiligte Wissenschaftler: Andreas C. Lehmann (Hochschule für Würzburg), Andreas Leh-mann-Wermser (Universität Bremen) und Anne Niessen (Universität zu Köln).

29

tenzmodell für das Fach Musik“ (KoMus) von der Deutschen Forschungsgemein-

schaft (DFG) gefördert. Im Rahmen von KoMus wurden zwei zentrale Ziele ver-

folgt:

1. Entwicklung eines Kompetenzmodells für den Bereich „Musik wahrneh-

men und kontextualisieren“;

2. Entwicklung eines darauf bezogenen Testinstruments (Kompetenztest),

das für Bildungsmonitoring und Evaluation eingesetzt werden kann.

Zur Durchführung des Projekts wurde ein Drei-Phasen-Design gewählt (vgl. Abb.

2): (1) Erstellung eines theoretischen Kompetenzmodells, (2) Operationalisierung

des Modells in Form von Testaufgaben, (3) Empirische Validierung des Modells

und Erstellung des Testinstruments auf Basis einer systematischen Pilotie-

rungsstudie.

Abb. 2: Drei-Phasen-Design des KoMus-Projekts

Durchführung und Ergebnisse der ersten Phase sind ausführlich bei Niessen et al.

(2008) beschrieben. Zusammenfassend erfolgten hierbei vor allem theoretische

Vorarbeiten für die Entwicklung des Kompetenzmodells (u. a. Erstellung eines

bildungstheoretischen Rahmens, Analyse der Musikcurricula der Bundesländer

30

und anschließende Dimensionalisierung des Faches in Kompetenzbereiche, Sich-

tung der national und international verfügbaren Modelle und Testverfahren, Defi-

nition der Zielpopulation36). Auf dieser Basis konnte anschließend ein theoreti-

sches Kompetenzmodell für den Bereich „Musik wahrnehmen und Kontextuali-

sieren“ entworfen werden, das auch die Grundlage für vorliegende Arbeit bildet

(vgl. 4.1).

Im Zentrum der zweiten Phase, die vom Autor der vorliegenden Arbeit verantwor-

tet und durchgeführt wurde, stand die Operationalisierung des Modellentwurfs in

Form von Testaufgaben. Hierfür wurde ein zirkulärer Prozess der Aufgabenent-

wicklung und -optimierung konzipiert, dessen zentrale Komponente die Arbeit ei-

ner Entwicklungsgruppe, bestehend aus Kooperationslehrern und Wissenschaft-

lern des KoMus-Projekts, darstellte. Dieser Prozess, die dabei durchgeführten A-

nalysen und die erreichten Ergebnisse stehen im Zentrum der vorliegenden Arbeit

und werden entsprechend ausführlich in den betreffenden Kapiteln behandelt

(Kap. 4, 5, 6 und 7). Im Rahmen der Aufgabenentwicklung konnte ein Itempool

generiert werden, der einerseits psychometrischen Kriterien genügt (vgl. 6.1), an-

dererseits aber vor allem die Dimensionen und Niveaus des theoretischen Kompe-

tenzmodells operationalisiert. Dieser Itempool ist gleichzeitig die Grundlage für

die dritte Phase.

In dieser abschließenden Phase stand die Validierung des Kompetenzmodells im

Vordergrund. Hierfür wurde eine computerbasierte (vgl. 8.3), zweistufige Pilotie-

rungsstudie durchgeführt (vgl. Jordan et al., 2010). Als Stichprobe konnten 1451

Schüler sechster Klassen an Schulen aus Niedersachsen und Bremen gewonnen

werden. Ziel der ersten Stufe war die Überprüfung der internen Konsistenz der

theoretisch angenommenen Modelldimensionen, wofür die in der zweiten Pro-

jektphase generierten Items in vier Testheften zusammengefasst wurden, sodass

jeweils nur Items einer Dimension in einem Testheft enthalten waren. Die zweite

Stufe umfasste die Testung von Aufgaben aller Dimensionen in einem Finaltest-

heft. Auf Basis der in der zweiten Stufe erhobenen Daten konnten sowohl die I-

tems für das endgültige Testinstrument selektiert werden als auch die Überprü-

fung der Modellstruktur erfolgen. Hierfür wurden einerseits Analysen zur Validie-

36 Das Kompetenzmodell und die darauf bezogenen Testaufgaben wurden für Schüler der Klassen-stufe Sechs entwickelt (vgl. Niessen, Lehmann-Wermser, Knigge & Lehmann, 2008, S. 18).

31

rung der dimensionalen Struktur durchgeführt (uni- und multidimensionale

Raschmodellierungen, konfirmatorische Faktorenanalysen), andererseits kamen

Methoden zur Bildung von Kompetenzniveaus zum Einsatz.37

37 Die Ergebnisse des KoMus-Projekts können aus publikationsrechtlichen Gründen an dieser Stel-le nicht referiert werden. Eine entsprechende Publikation ist in Vorbereitung (Jordan, Knigge, Lehmann-Wermser, Lehmann & Niessen, i. Vorb.).

32

3 Aufgaben als zentrales Moment der Kompetenzerfassung

Das Entwickeln, Stellen, Bearbeiten und Lösen von Aufgaben ist traditionell eine

zentrale Komponente von Lehr-Lern-Prozessen.38 In der erziehungswissenschaft-

lichen, psychologischen und nicht zuletzt auch fachdidaktischen Literatur werden

verschiedene Aufgabensystematiken vorgeschlagen (vgl. z. B. Bausch, Burwitz-

Melzer, Königs & Krumm, 2006; Eikenbusch, 2008; Herget, 2006; Thonhauser,

2008a). Aufgaben werden dort z. B. hinsichtlich ihres Inhalts, ihrer Funktion oder

ihres Formats unterschieden. Es ergibt sich dabei eine Vielzahl von Aufgabenty-

pen: u. a. diagnostische Aufgaben, geschlossene/offene Aufgaben, kompetenzori-

entierte Aufgaben, konvergente/divergente Aufgaben, Lernaufgaben, Prüfungs-

aufgaben oder Testaufgaben.39 Der Diskurs zum Thema ‚Aufgaben’ ist entspre-

chend umfassend und hat vor allem im Kontext der kompetenz- und standardba-

sierten Reformprozesse an Dynamik gewonnen (vgl. Thonhauser, 2008b).

Im Zuge der Kompetenzorientierung stehen Aufgabenstellungen besonders im

Fokus, da ihnen mehrere zentrale Funktionen zugewiesen werden (z. B. Klieme,

2007, S. 78 f.; vgl. auch 2.1.1 und 2.1.3): (1) Auf curricularer Ebene sollen Auf-

gaben die dort formulierten Kompetenzen konkretisieren und illustrieren. Die

meist relativ abstrakt beschriebenen Kompetenzfacetten und -niveaus werden so

inhaltlich präzisiert und sollen als Orientierung für kompetenzorientierte Unter-

richtsentwicklung dienen.40 (2) Kompetenzorientierte (Lern-)Aufgaben haben auf

Unterrichtsebene die Funktion, Kompetenzaufbau und -förderung zu ermöglichen.

(3) Ein weiteres Einsatzgebiet von (Test-)Aufgaben besteht darin, die Kompeten-

zen von Schülerinnen und Schülern zu überprüfen.

38 Dies gilt auch für das Fach Musik, wenngleich das Thema auf fachwissenschaftlicher Ebene dort bislang kaum Beachtung fand (vgl. Niessen, 2008). 39 Jeder dieser Aufgabentypen bezieht sich in der Regel auf einen speziellen Anwendungskontext und weist entsprechende Besonderheiten in Bezug auf die Konstruktion, Verwendung und Aus-wertung der Aufgaben auf. Eine genauere Betrachtung dieser umfassenden Thematik kann an die-ser Stelle nicht erfolgen. Verwiesen sei auf die genannten Publikationen, die eine große Anzahl an Beiträgen zu den verschiedenen Aufgabentypen und deren Kontexte enthalten. 40 Trotz der Übernahme des Kompetenzkonzepts von fast allen neueren Musikcurricula besteht an diesem Punkt noch großer Entwicklungsbedarf (vgl. 2.2.1). Ebenso wie Kompetenzmodelle fehlen illustrative Aufgaben, sodass die meisten Curricula mit sehr vagen Kompetenzformulierungen o-perieren, deren Nützlichkeit für die Qualitätsentwicklung des Unterrichts zumindest fraglich er-scheint. Erste Versuche der Konkretisierung von Kompetenzbeschreibungen mittels Aufgaben wurden z. B. in Hessen und Baden-Württemberg („Niveaukonkretisierungen“) vorgelegt.

33

Für den vorliegenden Zusammenhang ist vor allem die funktionale Unterschei-

dung von Lern- und Testaufgaben wichtig (z. B. Benner, 2007; Caspari, Grotjahn

& Kleppin, 2008). Während bei Lernaufgaben der Anregungsgehalt und das

Lernpotenzial im Vordergrund stehen (Kompetenzen sollen beispielsweise aufge-

baut und gefördert werden), besteht die Funktion von Testaufgaben darin, Kompe-

tenzen einer empirischen Überprüfung zugänglich zu machen. In diesem Sinne

werden Testaufgaben zur Lernstandsfeststellung in Schulleistungsstudien, nicht

zuletzt aber auch in Klassen- und Abschlussarbeiten eingesetzt. Dieser Praxis liegt

die Annahme zugrunde, dass aus dem Lösen von Aufgaben mit einer relativ ho-

hen Sicherheit auf das Vorhandensein bzw. Fehlen der entsprechenden Kompe-

tenzen bei Schülern geschlossen werden kann. Um das leisten zu können, müssen

Testaufgaben bestimmten formalen und psychometrischen Kriterien genügen

(Granzer et al., 2008, S. 16 ff.).

3.1 Testaufgaben: Gütekriterien, Komponenten, Formate

Die im KoMus-Projekt entwickelten Testaufgaben erfüllen zwei Funktionen: (1)

Durch verschiedene Analyseverfahren und anschließende Aufgaben- bzw. Itemse-

lektion (vgl. 6.1) soll aus den Aufgaben ein standardisiertes Testinstrument gebil-

det werden. (2) Mittels der selektierten Aufgaben ist eine empirische Überprüfung

und ggf. notwendige Modifikation des Kompetenzmodells, auf das sich die Auf-

gaben beziehen, möglich.

Gütekriterien

Sowohl für die Validierung des Modells als auch für den darauf bezogenen Kom-

petenztest ist es erforderlich, dass die Aufgaben bestimmten Qualitätsansprüchen

genügen. Die Hauptgütekriterien von Tests (Objektivität, Reliabilität und Validi-

tät) sind in der empirischen Forschungsmethodik hinlänglich bekannt und be-

schrieben (z. B. Moosbrugger & Kelava, 2007). Es sollen an dieser Stelle daher

wenige zusammenfassende Ausführungen genügen:

Unter der Objektivität eines Tests versteht man den Grad, in dem das Testergebnis

unabhängig ist vom Testleiter bzw. den Personen, die den Test auswerten. Umge-

kehrt formuliert bedeutet dies, dass das Testergebnis nur von den Merkmalen (in

vorliegendem Kontext also den Kompetenzen) der Schüler abhängen darf. Übli-

34

cherweise gilt die Objektivität eines Testverfahrens als sichergestellt, wenn eine

gründliche Standardisierung und Dokumentation der Testdurchführung und -

auswertung vorliegt.41

Die Reliabilität (Zuverlässigkeit) bezeichnet die Messgenauigkeit, mit der ein

Test das zu messende Merkmal erfasst. Die verschiedenen Reliabilitätsarten kön-

nen mit statistischen Verfahren geprüft werden (z. B. Bühner, 2006, Kap. 4).42

Die Validität (Gültigkeit) beschreibt das Ausmaß, in dem ein Test tatsächlich das

Merkmal erfasst, das er messen soll. In Bezug auf Kompetenztests wird vor allem

die Bedeutung von Kriteriums- und Inhaltsvalidität betont (Hartig et al., 2007,

S. 22 f.). Gerade die Frage, wie gut sich ein Test praktisch bewährt, also Verhal-

ten außerhalb der Testsituation prognostizieren kann (Kriteriumsvalidität), er-

scheint für die Kompetenzerfassung im Schulkontext zentral. Ebenso bedeutsam

ist die Inhaltsvalidität, denn wenn untersucht werden soll, ob die auf curricularer

Ebene beschriebenen Kompetenzen von Schülern erworben wurden, so muss der

Test die entsprechenden Kompetenzen hinreichend gut abbilden.43

Die eben genannten Hauptgütekriterien sind nicht unabhängig voneinander (z. B.

Bühner, 2006, S. 42 f.): Nur ein hinreichend objektiver Test kann auch eine opti-

male Reliabilität erreichen. Ebenso ist die Reliabilität Voraussetzung für die Vali-

dität eines Tests. Zusammenfassend ist festzuhalten, dass standardisierte Tests

(und entsprechend die dabei verwendeten Testaufgaben) den genannten Gütekrite-

rien entsprechen müssen, um eine zuverlässige Messung der anvisierten Kompe-

tenzen sicherzustellen.

Neben diesen psychometrischen Gütekriterien ist auch die Wahl eines geeigneten

Itemformats entscheidend für die optimale Erfassung von Kompetenzen.

Aufgabenkomponenten und Itemformate

Folgende Komponenten einer Testaufgabe sind in formaler Hinsicht zu unter-

scheiden (vgl. Abb. 3): Aufgaben bestehen in der Regel aus einem Aufgaben-

stamm und mehreren Items, also den verschiedenen Fragestellungen und Ar-

41 Beides ist im Rahmen der vorliegenden Arbeit gewährleistet (vgl. 5.3.2 und 6.1). 42 Die Reliabilitäten der durchgeführten Tests sind in Abschnitt 6.1.3 (Tab. 15) dargestellt. 43 Die Frage der Validität der im Rahmen des KoMus-Projekts entwickelten Items bzw. des daraus zu bildenden Testinstruments wird ausführlicher in Kapitel 8.4 behandelt.

35

beitsaufträgen für die Schüler. In Ausnahmefällen kann es auch Aufgaben ohne

Aufgabenstamm geben, wenn die Aufgabenstellung allein durch die Itemstämme

definiert wird. In einer Aufgabe zur Hörwahrnehmung ist das Hörbeispiel der

Aufgabenstamm. Zu diesem Hörbeispiel können Fragen formuliert werden, für

deren Beantwortung die Schüler entweder aus mehreren vorgegebenen Lösungs-

vorschlägen die zutreffende Alternative auswählen sollen oder aber frei antworten

können. Eine Frage (Itemstamm) und die zugehörigen Lösungsvorschläge (Ant-

wortalternativen) bilden zusammen ein Item. Eine Testaufgabe kann also aus

mehreren Items bestehen, wobei ein Item die kleinste Analyseeinheit eines Tests

darstellt.

Abb. 3: Komponenten einer Testaufgabe am Beispiel eines Multiple-Choice-Items

Für die Entwicklung von Testaufgaben stehen verschiedene Item-Formate und

-Typen zur Verfügung (z. B. Bühner, 2006, S. 53 ff.). Wenn die Aufgabenstellung

verschiedene Elemente oder Antwortmöglichkeiten vorgibt, die bearbeitet werden

müssen bzw. aus denen ausgewählt werden muss, so spricht man von einem ge-

schlossenen Format. Wenn die Antwort auf ein Item frei und nach eigenem Er-

messen gewählt werden kann, so handelt es sich um offene Formate. Tab. 1 ent-

hält die im Rahmen des KoMus-Projekts eingesetzten Formate.

36

Tab. 1: Verwendete Item-Formate und -Typen (in Anlehnung an: Granzer et al., 2008, S. 20 und Hartig & Jude, 2007, S. 30)

Item-Formate und -Typen Vor- und Nachteile

1. Geschlossene Item-Formate

1.1 Richtig-Falsch-Items Diese Items bestehen aus einem Item-Stamm, der als Frage oder Aussage formuliert sein kann, und zwei Antwortalter-nativen, bspw. ‚Ja/Nein’ oder ‚Richtig/Falsch’, von denen immer eine wahr und die andere unwahr ist. Die Ratewahr-scheinlichkeit von 50 % ist ein schwerwiegender Nachteil dieses Item-Typs, der jedoch durch entsprechende Auswer-tungsstrategien ausgeglichen werden kann.44

1.2 Multiple-Choice-ltems MC-ltems bestehen aus einem Item-Stamm, der als Frage oder zu vervollständigende Aussage formuliert sein kann, und meist vier Antwortalternativen, wobei die korrekte Antwortalternative als ‚Target’ oder ‚Schlüsselantwort’ und die falschen Antwortmöglichkeiten als ‚Distraktoren’ be-zeichnet werden.

1.3 Matching- bzw. Zuordnungs-Items Bei Zuordnungs-Items sollen Elemente zweier Kategorien einander zugeordnet werden, bspw. die Wirkung von Mu-sikstücken und die dafür verantwortlichen kompositori-schen Mittel.

2. Halboffene-Item-Formate

2.1 Kurzantwort-Items Bei diesen Items werden die Schülerinnen und Schüler ge-beten, zur Beantwortung einer Frage einzelne Wörter, Zah-len oder Symbole anzugeben oder einen Satz zu vervoll-ständigen.

2.2 Korrektur- und Verbesserungsaufgaben Bei Korrekturaufgaben sollen Fehler im Noten- oder Hör-beispiel identifiziert und korrigiert bzw. beschrieben wer-den.

3. Offenes-Item-Format Die Schüler werden aufgefordert, eine umfassendere eigen-ständige Leistung zu erbringen durch freies Antworten auf ein Item. Um eine objektive Auswertung gewährleisten zu können, sind detaillierte Kodieranweisungen notwendig.

+ einfache Auswertung

+ hohe Objektivität

+ schnell zu beantworten

- anspruchsvolle Konstruk-tion

- fragliche Validität

+ hohe Inhaltsvalidität

+ einfach zu konstruieren

- zeitaufwendige Beantwor-tung

- aufwendige Auswertung

- fragliche Objektivität

Jedes der aufgelisteten Formate hat Vor- und Nachteile (Tab. 1, rechte Spalte).

Geschlossene Formate sind sehr ökonomisch in der Bearbeitung und Auswertung

bei gleichzeitig maximaler Auswertungsobjektivität.45 Komplexe und kreative Fä-

higkeiten können aber oft nur schwer oder gar nicht mit geschlossenen Formaten

44 Es werden hierfür bei der Auswertung mehrere Richtig-Falsch-Fragen bzw. -Aussagen zu einem Item zusammengefasst (vgl. auch 6.1.2). 45 U. U. kann die hohe Objektivität von geschlossenen Formaten jedoch zu Lasten der Validität des Tests gehen (Rost, 2004, S. 61).

37

erfasst werden (Rost, 2004, S. 59 ff.).46 Offene Aufgaben sind hingegen eher ge-

eignet für komplexere Anforderungen und das Antwortverhalten lässt sich leichter

auf reale Situationen übertragen. ‚Erkauft’ wird dies jedoch mit einem relativ ho-

hen Zeitaufwand bei der Bearbeitung der Aufgaben und vor allem bei der Aus-

wertung (Erstellung von detaillierten Kodieranweisungen, Kodierung der Schüler-

antworten durch mehrere Rater, Berechnung der Interrater-Reliabilität). Es muss

daher darauf geachtet werden, dass das gewählte Aufgabenformat und die anvi-

sierte Kompetenz in einem entsprechenden Passungsverhältnis zueinander stehen,

um eine ökonomische, aber gleichzeitig möglichst objektive und valide Messung

zu gewährleisten.

3.2 Tests und Aufgaben zur Erfassung musikalischer Kompetenz:

Stand der Forschung47

In Abschnitt 2.2.2 wurde der fachwissenschaftliche Diskurs zu Bildungsstandards

und Kompetenzorientierung im Fach Musik dargestellt. Die dort formulierten kri-

tischen Positionen sind zum Teil nicht auf den Kontext der aktuellen Reformen

des Bildungssystems beschränkt. Vielmehr herrscht in der deutschen Musikpäda-

gogik traditionell eine große und sehr grundsätzliche Skepsis gegenüber standar-

disierten Testverfahren zur Erfassung musikbezogener Leistungen (z. B. Bruhn,

1994; Kormann, 2005; Meißner, 1987; Oerter & Bruhn, 1997, S. 558). Kormann

(2005) nennt hierfür folgende Gründe:

„Die prinzipielle Ablehnung naturwissenschaftlicher Methoden im musikalisch-künstlerischen Bereich, das generelle Desinteresse weiter Kreise deutscher Schulpä-dagogen an Tests, die zunehmende Theoriemüdigkeit in der Musikpädagogik in den letzten Jahren, das ungelöste Hauptproblem der Validität von Musikalitätstests, Gefah-ren eines unreflektierten Einsatzes von Musiktests (Labeling- bzw. Stigmatisierungs-effekt, Negativprognosen), der in der Regel sehr hohe finanzielle und zeitliche Auf-wand bei der Konstruktion und Erprobung von Tests an repräsentativen Stichproben

46 Gerade in fachdidaktischen Kontexten bestehen oft große Vorbehalte gegenüber geschlossenen Formaten. „Dennoch besitzen MC-Items in Abhängigkeit von der Beschaffenheit der Fragestel-lung und der gewählten Distraktoren […] ein großes Potential, welches sich auch auf höhere kog-nitive Anforderungen ausdehnen lässt und oftmals unterschätzt wird“ (Granzer, Böhme & Köller, 2008, S. 20). Herget (2006, S. 186 f.) zeigt z. B. eindrucksvoll, wie ein offenes Format in ein ge-schlossenes überführt werden kann, ohne dass der Grad an Komplexität verlorengeht. 47 Es sei vorab darauf hingewiesen, dass bislang keine Testverfahren existieren, die sich explizit auf das Kompetenzkonzept beziehen, wie es der vorliegenden Arbeit zugrunde liegt (vgl. 2.1.2). Aus diesem Grund wird im Folgenden auf den breiteren Kontext der Testverfahren zur Erfassung musikalischer Leistung rekurriert.

38

und nicht zuletzt die Tatsache, dass Musikalitätstests im Vergleich zu Intelligenz- oder Schulleistungstests bei ‘justitiablen’ Entscheidungen […] nicht eingesetzt werden müssen.“ (S. 370-371)

Entsprechend waren lange Zeit in der deutschen Musikpädagogik weder ein um-

fassender Diskurs noch Forschungstätigkeiten zur Thematik auszumachen (Loh-

mann, 1997).48 Abgesehen von wenigen und schon relativ alten Publikationen im

Kontext der Curriculumdiskussion der 1970er Jahre (z. B. Füller, 1974) scheint

das Thema erst im letzten Jahrzehnt (z. B. Lütgert, 2001; Stöger, 2006) und insbe-

sondere im Zusammenhang mit den standard- und kompetenzbasierten Reform-

prozessen der letzten Jahre an Bedeutung zu gewinnen (z. B. Schäfer-Lembeck,

2008). Dem dabei immer wieder formulierten Bedarf an Verfahren zur möglichst

objektiven Erfassung musikbezogener Leistungen folgten bislang jedoch keine

umfassenderen Forschungsarbeiten auf dem Gebiet der Testkonstruktion. So ist

zum heutigen Zeitpunkt zu konstatieren, dass in der deutschen Musikpädagogik

weder standardisierte Testverfahren zur Erfassung musikalischer Leistungen ent-

wickelt noch entsprechende Verfahren aus dem Ausland adaptiert und in größe-

rem Umfang angewendet wurden.49

Vor diesem Hintergrund ist der ohnehin gebotene Blick ins Ausland umso not-

wendiger, da hier diverse Arbeiten auf dem Gebiet der Konstruktion und Nutzung

von Tests zur Erfassung musikbezogener Leistungen vorliegen. Einerseits sind

hierbei sogenannte ‚Musiktests’ von Interesse, die größtenteils vonseiten der US-

amerikanischen und englischen Musikpsychologie entwickelt wurden (3.2.1). An-

dererseits gibt es in den USA in jüngster Vergangenheit vermehrte Anstrengungen

auch für das Fach Musik nationale Schulleistungsstudien (‚large-scale-

assessments’) durchzuführen (3.2.2).

48 Aufgrund des fehlenden Diskurses lassen sich auch nur vereinzelt Positionen identifizieren, die für den Einsatz von Testverfahren zur Leistungserfassung plädieren bzw. deren Potential reflektie-ren (z. B. Lohmann, 1997; Meißner, 1999). Demgegenüber steht international ein relativ breiter Diskurs zum Thema „Assessment’s Potential in Music Education“ (Colwell, 2002), bei dessen Be-trachtung sich vor allem für die englischsprachigen Länder (insbesondere USA) eine relativ positi-ve Haltung gegenüber Assessment-Konzepten zeigt. Dieser Diskurs kann an dieser Stelle nicht nachgezeichnet werden, verwiesen sei exemplarisch auf folgende Publikationen: Asmus, 1999; Brophy, 2008; 2010; Colwell, 1999b; 2004; Murphy, 2007; Pistone, 2002; Wolf & Pistone, 1991. Interessant ist vor allem ein Beitrag von Fisher (2009), der das Potential aber auch die Probleme standardbasierter Leistungsmessung im US-amerikanischen Kontext überblicksartig darstellt. 49 Eine der wenigen Ausnahmen stellt die Arbeit von Bähr (2001) dar, der sowohl bestehende Ver-fahren adaptiert als auch eigene Testinstrumente entwickelt; weitere Ausführungen erfolgen hierzu in Abschnitt 3.2.1.

39

3.2.1 Musiktests

In der internationalen Musikpädagogik und -psychologie (v. a. Australien, Eng-

land und USA) gibt es eine lange Tradition standardisierter Musiktests, die bis in

die Mitte des 19. Jahrhunderts zurückreicht.50 Unter dem Terminus ‚Musiktest’

wird üblicherweise eine Vielzahl von Messverfahren zusammengefasst. Systema-

tisieren lassen sich diese in die folgenden Bereiche (Boyle & Radocy, 1987; vgl.

auch Kormann, 2005, S. 373):51 musikalische Begabungstests (‚tests of musical

aptitude and ability’), musikalische Leistungstests (‚tests of musical achieve-

ment’), Gesangs- und Instrumentaltests (‚tests of musical performance’) und Tests

der musikbezogenen Einstellung und Wertung (‚tests of musical attitude and ap-

preciation’). Für den vorliegenden Zusammenhang sind lediglich Leistungstests

von Interesse. Wenngleich Begabungstests z. T. inhaltliche Überschneidungen mit

Leistungstests aufweisen, so beziehen sich beide auf ein deutlich zu unterschei-

dendes theoretisches Konstrukt:

„Begabungs- oder Musikalitätstests wollen das von Lernerfahrungen unabhängige, angeborene Potential an musikalischen Fähigkeiten (aptitude) messen. Musikalische Leistungstests beziehen sich auf die Prüfung von musikalischen Fähigkeiten, die durch Unterricht erlernt wurden (achievement).“ (Gembris, 1998, S. 111 f.)

Das Verhältnis von Begabungs- zu Leistungstests ist somit in etwa dem bereits

diskutierten Verhältnis von Intelligenz und Kompetenz vergleichbar (vgl. 2.1.2).

Im Fokus der folgenden Betrachtungen stehen daher ausschließlich musikalische

Leistungstests, die jedoch innerhalb der Gesamtheit der Musiktests nur einen

marginalen Anteil ausmachen:

“The number of assessment devices for music K-12 published in the past thirty-five years can be counted on one hand, yet in this same period of time most of the research requiring assessment in music education has been conducted. There is more interest in measuring music aptitude than music achievement. Apparently parents and teachers find musical talent identification more important than accurate measures of achieve-ment. The research literature does not reveal this priority as a problem; there is no call to arms, no pressure to resolve the differences.” (Colwell, 1999b, S. 59 f.)

Musikalische Leistungstests beinhalten die Erfassung von musiktheoretischen und

-geschichtlichen Wissensbeständen (‚general musical knowledge’), Wissen in Be-

zug auf Notation, auditiv-visuelle Fähigkeiten, auditive Fähigkeiten und komposi-

50 Überblicksdarstellungen finden sich z. B. bei Boyle & Radocy (1987) und Kormann (2005). 51 In der Literatur finden sich noch weitere Vorschläge für die Systematisierung von Musiktests (vgl. Kormann, 2005, S. 373 f.).

40

torische Fähigkeiten (Boyle & Radocy, 1987, S. 157 ff.).52 Im Folgenden werden

die drei bekanntesten musikalischen Leistungstests kurz skizziert (Boyle & Rado-

cy, 1987, S. 164 ff.):53

(1) Bereits Ende der 1960er, Anfang der 70er Jahre entwickelte Colwell die aus

vier Tests bestehenden „Music Achievement Tests“ (Colwell, 1969; 1970a). Die

Itementwicklung basierte auf der Analyse von Schulbüchern und wurde in Zu-

sammenarbeit mit einem Team aus erfahrenen Lehrkräften durchgeführt. Inhalt-

lich erfassen die Tests ausschließlich auditive bzw. auditiv-visuelle Fähigkeiten

(Tonhöhendiskrimination, Intervalldiskrimination, Takterkennung, Diskrimination

von Dur/Moll, Fehlerhören auf Basis einer Notation, tonales Gedächtnis, Melo-

dieerkennung, Instrumentenerkennung, Erkennung von musikalischen Stilen, Er-

kennung von musikalischen Gestalten, Akkorderkennung, Kadenzerkennung). Für

die vier Tests liegen gute bis sehr gute Reliabilitäten (Kuder-Richardson) zwi-

schen .88 und .94 vor. Die Inhaltsvalidität wurde mittels Lehrerurteilen abgesi-

chert. Da es sich um ein normorientiertes Testverfahren handelt, wurde eine Test-

normierung für alle vier Tests und für jede Klassenstufe (4-12) durchgeführt.

(2) Die „Iowa Tests of Music Literacy“ (ITML) wurden etwa zur gleichen Zeit

von Gordon zur Erfassung auditiver Wahrnehmung und tonal-rhythmischen Fä-

higkeiten entwickelt (Gordon, 1971). Die Tests sind unterteilt in verschiedene

Schwierigkeitslevels, wobei Level 1-3 für die Klassenstufen 4-12 und Level 4-6

für die Klassenstufen 7-12 vorgesehen ist. Inhaltlich sind alle Levels gleich kon-

struiert und beinhalten jeweils Items zu den beiden Bereichen ‚tonale Konzepte’

und ‚rhythmische Konzepte’ (jeweils unterteilt in Subtests zu auditiver Wahrneh-

mung, lesendem Wiedererkennen und Notationsverständnis). Die Inhaltsvalidität

wurde nicht speziell abgesichert, die Reliabilitäten (Split-Half) liegen für alle Le-

vels in einem Bereich zwischen .87 und .94. Auch für diese Tests liegen Normie-

rungen für alle Levels und Klassenstufen vor.

52 In den Bereich der Leistungstests fällt prinzipiell auch die Erfassung von musikpraktischen Fä-higkeiten. Hierfür existiert jedoch die eigenständige Testgruppe der Gesangs- und Instrumental-tests. 53 Es existiert noch eine kleine Anzahl weiterer Tests, die jedoch in der Regel nicht publiziert sind (Boyle & Radocy, 1987, S. 164). Die drei im Folgenden beschriebenen Tests sind hingegen gut dokumentiert und über Testverlage erhältlich. Somit konnte eine detaillierte Auswertung hinsicht-lich einer möglichen Nutzung für das KoMus-Projekt erfolgen.

41

(3) Die „Silver Burdett Music Competency Tests“ umfassen insgesamt 18 Tests

auf sechs verschiedenen Levels. Es handelt sich bei den ebenfalls von Colwell

(1979) entwickelten Verfahren um kriterienorientierte Tests, die sich explizit auf

eine Schulbuchserie beziehen. Inhaltlich erfassen die Tests die Wahrnehmung von

Melodien, Rhythmen, Klangfarbe, Gestalt, Form, Tonalität und Dynamik. Die Te-

streliabilitäten (Test-Retest) liegen zwischen .69 und .94. Die Inhaltsvalidität be-

zieht sich auf die verwendeten Schulbücher und wurde durch Lehrerurteile abge-

sichert.

Bei genauerer Betrachtung der dargestellten Tests zeigt sich zunächst, dass eine

Reihe von Subtests und Items vorliegen, die eine inhaltliche Nähe zum KoMus-

Kompetenzmodell aufweisen (vgl. 4.1). Gleichzeitig wird aber auch die Herkunft

der Tests deutlich: Diese sind einerseits sehr stark auf das US-amerikanische

Schulsystem, im Extremfall (Colwell, 1979) sogar explizit auf eine bestimmte

Schulbuchreihe abgestimmt. Andererseits sind die Testverfahren relativ alt und

weisen eine starke Nähe zu damaligen theoretischen Konzepten (v. a. den Bloom-

schen Lernzieltaxonomien) auf.54 Unter Berücksichtigung der unterschiedlichen

theoretischen Hintergründe und vor allem aufgrund der mangelnden Inhaltsvalidi-

tät (verstanden als curriculare Validität in Bezug auf das deutsche Schulsystem)

erscheint es nicht sinnvoll ganze Tests oder Subtests für die Operationalisierung

des KoMus-Modells zu verwenden. Trotzdem sind die bereits vorhandenen Test-

instrumente überaus hilfreich als Orientierung für den Prozess der Itemkonstrukti-

on (vgl. 4.3).

Abschließend sei noch auf die einzige umfassendere Testentwicklung der letzten

Jahre in Deutschland verwiesen. Bähr (2001) entwickelte bzw. adaptierte im

Rahmen seiner Dissertation mehrere Testverfahren für Schüler der Klassenstufen

fünf und sechs, von denen für den vorliegenden Zusammenhang vor allem der

MLT-Gruppentest55 von Interesse ist. Der MLT enthält mehrere Subskalen, von

denen sich vier auf Wahrnehmungsfähigkeiten beziehen: Instrumentendiskrimina-

tion, Instrumentenerkennung, hörendes Wahrnehmen musikalischer Gestaltungs-

elemente und Formwahrnehmung. Während der MLT insgesamt eine gute Relia-

54 Es verwundert daher auch nicht, dass die Items meist sehr isolierte Teilfähigkeiten erfassen. Komplexere und nahe an realen Anforderungssituationen konstruierte Aufgabenstellungen zur Kompetenzerfassung finden sich hingegen höchst selten. 55 MLT = Musikleistungstest.

42

bilität aufweist (Cronbachs Alpha = .81), liegt die Reliabilität für die Subskalen

zur Hörwahrnehmung bei nur .60. Eine Verwendung des Testinstruments erschien

daher aus Gründen der mangelnden Reliabilität, aber vor allem auch hinsichtlich

der Inhaltsvalidität problematisch, da sich der MLT speziell auf das hessische

Curriculum bzw. einen in diesem Rahmen durchgeführten Schulversuch bezieht.

Ähnlich den US-amerikanischen Leistungstests wurde aber auch der MLT als

Grundlage für die KoMus-Itementwicklung herangezogen.

3.2.2 Schulleistungsstudien

Während für die sogenannten ‚Hauptfächer’ (incl. naturwissenschaftliche Fächer)

in regelmäßigen Abständen großangelegte nationale und internationale Schulleis-

tungsstudien durchgeführt werden (z. B. DESI, IGLU, PISA, TIMMS), liegen Stu-

dien dieser Größenordnung bislang für das Fach Musik nicht vor. Lediglich in den

USA gab es größere nationale Musik-Schulleistungsstudien im Rahmen des

NAEP-Programms.56

Bis zum heutigen Zeitpunkt wurden insgesamt vier NAEP-Studien durchgeführt

(1972, 1978, 1997 und 2008; im Überblick: Fisher, 2009). Für den vorliegenden

Zusammenhang ist vor allem die Studie aus dem Jahr 1997 von Interesse, da diese

einerseits einen direkten Bezug zu den ‚National Standards for Music Education’

(Music Educators National Conference, 1994) aufweist und andererseits in Anlage

und Durchführung die umfangreichste und am besten dokumentierte Studie dar-

stellt (Allen, Jenkins & Schoeps, 2004; Persky, Sandene & Askew, 1998).57 Un-

tersucht wurden die musikalischen Fähigkeiten von Schülern der achten Jahr-

gangsstufe in den drei Bereichen ‚responding to music’, ‚creating’ und ‚perfor-

ming’. Die umfangreichen Ergebnisse der gesamten Studie können an dieser Stel-

le nicht dargestellt werden (vgl. hierzu Persky et al., 1998). Interessant für den

vorliegenden Zusammenhang ist vor allem der Bereich ‚responding to music’, der

neben Hörwahrnehmungsfähigkeiten u. a. auch Notationskenntnisse, Wissen in

56 NAEP = National Assessment of Educational Progress; darüber hinaus werden aktuell auch in einigen US-Bundesstaaten größere Schulleistungsstudien durchgeführt (vgl. die entsprechenden Beiträge in Brophy, 2008). Umfassendere Publikationen stehen hierzu jedoch noch aus. 57 Die jüngste Studie aus dem Jahr 2008 benutzte das „assessment framework“ (National Assess-ment Governing Board, 1994) und die Testinstrumente der 1997er Studie, jedoch mit einer aus Kostengründen deutlich kleineren Stichprobe und begrenzt auf nur einen Inhaltsbereich (‚respon-ding to music’). Es erfolgen daher an dieser Stelle nur Ausführungen zu der Studie von 1997.

43

Bezug auf die kulturellen und historischen Kontexte von Musik und die Fähigkeit

zur kritischen Bewertung eines Musikstücks bzw. dessen Ausführung umfasst

(National Assessment Governing Board, 1994, S. 12; Persky et al., 1998, S. 11).

Bereits in dieser inhaltlichen Ausrichtung des Bereichs ‚responding to music’ deu-

tet sich eine – im Vergleich zu den Musiktests – andere Konzeption der Erfassung

von musikalischer Leistung an. Ohne den Terminus ‚Kompetenz’ zu verwenden,

geht die konzeptionelle Ausrichtung der NAEP-Studie doch eindeutig in diese

Richtung. Entscheidend ist in diesem Zusammenhang der Begriff „authentic as-

sessment“ (Persky et al., 1998, S. 10): Es sollen hierbei kontextspezifische und

auf möglichst reale Anforderungssituationen bezogene Leistungen erfasst werden,

was sich auch in den Testaufgaben entsprechend widerspiegelt.58 Aus methodi-

scher Sicht ist die NAEP-Studie auch deshalb interessant, da hier erstmals proba-

bilistische Methoden im Rahmen eines Musik-Leistungstests eingesetzt wurden

(vgl. 5.1). Es konnte für den ‚responding’-Bereich eine Rasch-Skalierung durch-

geführt und anschließend die Skala – ähnlich der Definition von Kompetenzni-

veaus – in drei Abschnitte eingeteilt werden (Persky et al., 1998, S. 40 f.). Wenn-

gleich an die NAEP-Studie verschiedene Kritik herangetragen wurde – insbeson-

dere in Bezug auf die Validität der Ergebnisse (z. B. Colwell, 1999a) –, so stellt

sie doch international das umfassendste und methodisch avancierteste Vorgehen

zur Erfassung musikalischer Leistung im Large-Scale-Bereich dar.

Hinsichtlich einer direkten Übernahme von Aufgaben stellt sich auch hier das

Problem der Inhaltsvalidität, denn die Tests sind für Schüler der achten Klassen-

stufe und größtenteils sehr speziell für den US-amerikanischen Schulkontext kon-

struiert.59 Trotzdem bilden die innovativen und teilweise sehr komplexen Aufga-

benformate der NAEP-Studie eine wichtige Grundlage für die Aufgabenentwick-

lung im Rahmen des KoMus-Projekts.

58 Exemplarisch werden ausgewählte Aufgaben – insbesondere unter dem Aspekt einer möglichen Verwendung im Rahmen des KoMus-Projekts – bei Knigge & Lehmann-Wermser (2008) und Niessen, Lehmann-Wermser, Knigge & Lehmann (2008) dargestellt. 59 Darüber hinaus sind nur wenige Items publiziert, da das gesamte Testinstrumentarium für weite-re Studien verwendet werden soll.

44

B. EMPIRISCHE UNTERSUCHUNGEN

4 Modellbasierte Aufgabenentwicklung

„Historically, task design has been regarded more as an art than a science.”

(Mislevy, Steinberg & Almond, 2002, S. 98)

In Kap. 3.2 wurde dargestellt, dass bislang nur sehr wenige und größtenteils veral-

tete Testverfahren zur Erfassung von musikalischen Fähigkeiten vorliegen. Diese

sind zudem vor anderen theoretischen Hintergründen entstanden und somit nur

bedingt fruchtbar für die Konstruktion eines Kompetenztests. Nicht zuletzt er-

scheint eine direkte Übernahme von existierenden Tests oder Subtests aus Grün-

den der Inhaltsvalidität nicht sinnvoll. Es wurde daher im Rahmen des KoMus-

Projekts entschieden, die bestehenden Instrumente zwar zur Orientierung heran-

zuziehen, grundsätzlich aber eine vollständige Neukonstruktion eines Testinstru-

ments (Kompetenztest) und der entsprechenden Testaufgaben durchzuführen.

Test- bzw. Aufgabenkonstruktionen können auf verschiedene Weise erfolgen

(z. B. Bühner, 2006, S. 46 ff.). Insbesondere im Bereich der Schulleistungsfor-

schung wurden Tests häufig konstruiert, indem für einen bestimmten Inhaltsbe-

reich eine große Menge von Aufgaben eher unsystematisch entwickelt und erprobt

wurden, sodass die entsprechenden Leistungstests in der Regel nur eine normori-

entierte Interpretation der Testergebnisse zulassen (Klieme et al., 2003, S. 124).

Im Rahmen der Erfassung von Kompetenzen wird hingegen eine kriteriumsorien-

tierte Interpretation von Schülerleistungen angestrebt (z. B. Hartig & Jude, 2007,

S. 24; vgl. auch 2.1 und 5.1). Um dies zu gewährleisten, ist ein systematisches

Vorgehen notwendig, das als modellbasierte Aufgaben- bzw. Testentwicklung be-

zeichnet wird. Modellbasiert meint in diesem Zusammenhang zunächst schlicht,

dass dem Entwicklungsprozess ein Modell zugrunde liegt. In solch einem Modell

sollten grundlegende Annahmen über Inhalte und Strukturen (Dimensionalität und

Niveaustruktur) der zu erfassenden Kompetenzen formuliert sein. Ein entspre-

chendes Modell kann rein theoretischer Natur sein, stützt sich aber bestenfalls be-

reits auf empirische Erkenntnisse. Auf Basis des Modells können dann systema-

tisch Aufgaben entwickelt werden, die zu den inhaltlichen und kognitiven Anfor-

derungen der Dimensionen und Niveaus des Modells passen und diese in ver-

schiedenen Kontexten variieren (Klieme et al., 2003, S. 124).

45

Durch solch ein modellbasiertes und relativ stark theoriegeleitetes Vorgehen wer-

den den entwickelten Aufgaben starke Annahmen auferlegt, die sich im Rahmen

der statistischen Auswertungen bestätigen müssen (vgl. Kap. 6). Es erfolgt also

bereits im Prozess der Aufgabenentwicklung eine ständige Rückkopplung zwi-

schen Empirie und Theorie: Sollten die empirischen Aufgabeneigenschaften nicht

den im Modell angenommenen entsprechen, so ist entweder nach Problemen im

Rahmen der Aufgabenkonstruktion zu suchen oder aber es sind die im zugrunde-

liegenden Modell formulierten theoretischen Annahmen zu revidieren. Es zeich-

net sich bereits an dieser Stelle ab, dass eine modellbasierte Aufgabenentwicklung

nur als zirkulärer Prozess der Entwicklung, Überprüfung und ggf. Modifikation

von Modell und/oder Aufgaben zu konzipieren ist. Wie genau dieser Prozess im

Rahmen des KoMus-Projekts realisiert wurde, ist in Abschnitt 4.3 beschrieben.

Zunächst folgen jedoch in Abschnitt 4.1 einige Ausführungen zum theoretischen

Kompetenzmodell, das die Grundlage für die modellbasierte Aufgabenentwick-

lung darstellt. Die Darstellung des Modells verdeutlicht die theoretisch angenom-

menen Strukturen der anvisierten Kompetenz des Wahrnehmens und Kontextuali-

sierens von Musik. Gleichzeitig zeigt sich aber auch, dass das Modell relativ abs-

trakt und primär basierend auf fachdidaktischem Erfahrungswissen formuliert ist.

Für die Operationalisierung des Modells ist daher eine möglichst präzise Be-

schreibung der Kompetenz und auch der Inhalte, an denen sich die Kompetenz

manifestiert, notwendig, was durch die Formulierung eines Testkonstrukts geleis-

tet wird (Abschnitt 4.2).

4.1 Das theoretische Kompetenzmodell „Musik wahrnehmen und

kontextualisieren“

Im Zentrum der vorliegenden Arbeit steht die modellbasierte Entwicklung und

Analyse von Testaufgaben (Kap. 4 bis 7). Als Grundlage dient hierfür das theore-

tische Kompetenzmodell, das in der ersten Phase des KoMus-Projekts entwickelt

wurde (vgl. 2.2.3). Im Folgenden werden die Inhalte und Strukturen des in Abb. 4

dargestellten Modells erläutert.60

60 Ursprünglich publiziert und ausführlich beschrieben ist das Modell bei Niessen, Lehmann-Wermser, Knigge & Lehmann (2008, S. 18 ff.).

46

Abb. 4: Theoretisches Kompetenzmodell „Musik wahrnehmen und kontextualisieren“ (basierend auf:

Niessen et al., 2008, S. 20)61

Das Kompetenzmodell spannt sich auf zwischen zunehmender Wahrnehmungs-

kompetenz (Dimension 1) und einem zunehmend reflektierten Einsatz musikali-

schen Sach- und Weltwissens (Dimensionen 2-4). Die drei wissensbasierten Di-

mensionen (D2-4) sind dabei jedoch nicht isoliert von Interesse, sondern aus-

schließlich im Zusammenhang mit der Hörwahrnehmung (D1).62 Erst durch die

Vernetzung der Modelldimensionen entsteht die anvisierte Kompetenz des Wahr-

61 Es handelt sich hierbei bereits um eine minimal modifizierte Fassung des publizierten Modell-entwurfs, die in dieser Form als Grundlage für die Aufgabenentwicklung diente. 62 Inhalt des Kompetenzmodells ist es beispielsweise nicht, isolierte Notenlesefähigkeiten oder terminologisches Wissen zu erfassen (z. B. Benennung der Töne einer bestimmten Skala). Im Rahmen des Modells geht es vielmehr darum, musikbezogene Wissensbestände im Zusammen-hang mit der Hörwahrnehmung einzusetzen (z. B. ein klingendes Musikstück in einer Partitur mit-zuverfolgen oder einen wahrgenommenen Klang mit den entsprechenden Fachwörtern beschreiben zu können); vgl. hierzu auch die Ausführungen zur curricularen Verankerung des Modells im Rah-men des Testkonstrukts in Abschnitt 4.2.1.

47

nehmens und Kontextualisierens von Musik.63 Innerhalb der Dimensionen werden

jeweils drei aufeinander folgende Niveaus unterschieden. Der Niveaustruktur liegt

dabei die Hypothese zugrunde, dass Schüler auf einem höheren Niveau immer

auch die Anforderungen der vorausgehenden Niveaus bewältigen können.

Auf grundsätzlich konzeptioneller Ebene ist das Modell also einerseits ein Struk-

turmodell, denn es unterscheidet verschiedene Kompetenzdimensionen. Gleich-

zeitig handelt es sich um ein Niveaumodell, da verschiedene Graduierungen der

Kompetenzen beschrieben werden (vgl. 2.1.3).

Inhaltlich lassen sich die einzelnen Dimensionen wie folgt charakterisieren:

Dimension 1: In Bezug auf die Wahrnehmung beschreiben die drei Niveaus Fä-

higkeiten zur Erfassung von musikalischen Ereignissen mit zunehmend größerer

Komplexität. Das Erkennen von Abschnittbildung und der Vergleich klar unter-

scheidbarer musikalischer Phänomene sind z. B. Voraussetzung für das Identi-

fizieren von musikalischen Grundformen. Zusätzlich spielt das musikalische Ge-

dächtnis eine wichtige Rolle, wenn z. B. ein musikalisches Thema memoriert

werden muss, um es später in variierter Form wiederzuerkennen.

Dimensionen 2-4: In Bezug auf das musikalische Sach- und Weltwissen lassen

sich drei Dimensionen unterscheiden: Verbalisierungsfähigkeit (D2), Fähigkeiten

im Umgang mit Notation (D3) sowie Wissen über kulturelle, historische und sozi-

ale Zusammenhänge (D4). Die Niveaudifferenzierung erfolgt hierbei einerseits in

Abhängigkeit des Differenzierungsgrades der Verbalisierung, andererseits durch

den Komplexitätsgrad der Notation.64 Darüber hinaus wird der Umgang mit Kon-

textwissen ausgehend von alltagsnahen Wissensbeständen hin zu einem historisch

und kulturell reflektierten Umgang mit Musik modelliert. Auf eine Besonderheit

ist an dieser Stelle noch hinzuweisen: Auf Niveau C ist die Facette „Kritische

Bewertung von Musik und ihrer Aufführung“ quer über die Dimensionen 2-4

63 Diese Festlegung auf theoretischer Modellebene ist von großer Bedeutung für die Aufgabenent-wicklung. Somit müssen Aufgaben, die Fähigkeiten der Dimensionen 2-4 erfassen sollen, immer auch Hörwahrnehmungsanteile haben. 64 Hier muss allerdings angemerkt werden, dass nicht etwa das Verständnis graphischer Notation, wie sie beispielsweise im Rahmen ‚Neuer Musik’ vorkommt, als weniger komplex angesehen wird als das Verstehen einfacher Formen traditioneller Notation. Mit dem Stichwort graphische Notati-on ist vor allem gemeint, dass die Schüler verstanden haben sollen, dass sich Musik als Zeitverlauf in einem räumlichen Verlauf abbilden lässt und dass sich begründet und nachvollziehbar Bezie-hungen zwischen beiden Dimensionen herstellen lassen.

48

hinweg ausgewiesen, da diese in den drei Dimensionen gleichermaßen eine Rolle

spielt.65

Zusammenfassend ist die Kompetenz des Wahrnehmens und Kontextualisierens

von Musik im theoretischen Kompetenzmodell als kontinuierliche, zunehmend

komplexere Fähigkeitsdimension gedacht.66 Sie ist mehrdimensional definiert und

wird verstanden als ein Zusammenspiel von Hörwahrnehmungsfähigkeit und dem

reflektierten Einsatz musikbezogener Wissensbestände.67

Abschließend ist noch anzumerken, dass das KoMus-Kompetenzmodell in dieser

Form bewusst als vorläufiger Entwurf konzipiert war. Mit dem Modell wurde ein

theoretischer Rahmen eröffnet, der vor allem als Basis für die Aufgabenentwick-

lung dienen sollte. Die endgültige Ausformulierung des Modells, u. a. in Bezug

auf die dimensionale Struktur und die Abfolge der Kompetenzniveaus, kann erst

auf Basis der Analysen der Pilotierungsstudie erfolgen.68 Erste Modifikationen er-

folgten jedoch bereits im Kontext der Aufgabenentwicklung und der dort durchge-

führten Analysen (vgl. 6.2).

4.2 Testkonstrukt: Vom Modell zu den Testaufgaben

Im vorangegangenen Abschnitt wurde das theoretische Kompetenzmodell vorge-

stellt, das auf fachdidaktischem Erfahrungswissen basiert und eine möglichst

plausible Dimensionierung und Graduierung der Kompetenz beinhaltet. Um eine

Operationalisierung des Modells zu ermöglichen, muss im Testkonstrukt mög-

lichst präzise beschrieben werden, was genau unter der Kompetenz „Musik wahr-

nehmen und kontextualisieren“ verstanden wird und welche Aspekte der Kompe-

65 So z. B. wenn die Ausführung eines Musikstücks auf Basis eines Notentextes bewertet werden soll. Sofern dabei ein bestimmtes sprachliches Differenzierungsniveau oder die Anwendung spe-zieller Fachterminologien verlangt ist, kommt die zweite Dimension ins Spiel. Auch die vierte Dimension kann eine Rolle spielen, wenn es um die Bewertung einer stilgerechten oder histo-risch/kulturell angemessenen musikalischen Ausführung geht. 66 Die Untergliederung der Fähigkeitsdimension in Niveaus scheint zunächst in Widerspruch hier-zu zu stehen. Es ist jedoch ein übliches Vorgehen, Kompetenzmodelle zum Zweck der Veran-schaulichung und der leichteren Kommunizierbarkeit in verschiedene Niveaus einzuteilen, obwohl das zugrundeliegende Konstrukt als kontinuierliches aufgefasst wird (vgl. z. B. Hartig, 2004). 67 Für eine präzisere Definition unter Berücksichtigung musikpsychologischer Aspekte vgl. die Ausführungen zum Testkonstrukt in Abschnitt 4.2.2. 68 In diesem Zusammenhang wird zu zeigen sein, ob sich die angenommenen vier Dimensionen auch empirisch als unabhängige Dimensionen abbilden. Ebenso bedarf die über alle Niveaus hin-weg angenommene Abstufung in Form von drei Kompetenzniveaus der empirischen Validierung.

49

tenz durch den Test erfasst bzw. nicht erfasst werden. Das Testkonstrukt dient da-

bei einerseits einer theoretischen und empirischen Fundierung im Rahmen vor-

handener (musikpsychologischer) Forschungen, andererseits können in diesem

Zusammenhang die im theoretischen Modell noch relativ abstrakt formulierten

Kompetenzdimensionen und -facetten ausgeschärft und konkretisiert werden.

Denn erst wenn man dies „elaboriert hat […], wird man aus der Konstruktdefini-

tion Verhaltensweisen ableiten können, die bei hohen oder geringen Ausprägun-

gen auf dem Konstrukt beobachtbar sein sollten“ (Köller, 2008, S. 166).

Die mit einem Modell bzw. Test anvisierte Schülerschaft bestimmt den Rahmen,

innerhalb dessen ein valides Testinstrument entwickelt werden kann. Die Aufga-

benentwicklung orientierte sich in KoMus an Schülern der sechs-

ten Jahrgangsstufe im Alter von etwa elf bis zwölf Jahren sowie an deren Erfah-

rungen und musikbezogenen Entwicklungsstand, und sie musste auf die Lerner-

fahrungen im Fach Musik ausgelegt sein. Aus diesem Grund basiert das Testkon-

strukt sowohl auf musikpsychologischen Befunden als auch auf Curriculaanaly-

sen. Das Testkonstrukt bildet somit die Gelenkstelle zwischen dem theoretischen

Modell und dessen empirischer Umsetzung in Form von Testaufgaben.

Der eleganteste Weg, ein Testkonstrukt zu definieren, ist die Anbindung an eine

Theorie, die Struktur und Ausprägungen der in Frage stehenden Kompetenz be-

schreibt. So ist es z. B. in der Sprachdidaktik möglich, verschiedene Theorien und

Modelle zum Prozess des Leseverstehens der Testkonstruktion zugrunde zu legen

(z. B. Nold & Willenberg, 2007). Eine vergleichbare Situation ist für die Musik-

pädagogik nicht gegeben, da bislang keine umfassende Theorie oder ein dem Le-

severstehen vergleichbares Modell entwickelt wurde, das die Dimensionen, Facet-

ten, Graduierungen und Interaktionen einer musikalischen Wahrnehmungskompe-

tenz beschreiben würde.

Das im KoMus-Projekt definierte Testkonstrukt stützt sich daher auf mehrere

Quellen. Von zentraler Bedeutung ist hierbei zunächst die Verankerung auf curri-

cularer Ebene, wodurch die Inhaltsvalidität der zu entwickelnden Aufgaben abge-

sichert wird (4.2.1). Darüber hinaus werden aber auch musikpsychologische Er-

kenntnisse in das Testkonstrukt einbezogen (4.2.2).

50

4.2.1 Curriculare Analysen

Die zentrale Komponente des Testkonstrukts, vor allem hinsichtlich der Inhaltsva-

lidität des Modells und des Testinstruments, ist die Verankerung auf curricularer

Ebene. Sofern, wie in vorliegendem Fall, der Anspruch erhoben wird, dass ein

Kompetenzmodell die in einer Domäne (Fach Musik) erworbenen Kompetenzen

abbildet, muss sich ein entsprechendes Testinstrument notwendigerweise am Un-

terricht orientieren oder anders formuliert: „Tests must reflect teaching as it is ex-

perienced, i.e. the test items must be formulated in such a way that good teaching

is evident in the results (awareness of the teaching given)“ (Dubs, 2007, S. 421;

vgl. auch Criblez et al., 2009, S. 38 f.). Hartig et al. (2007) sprechen in diesem

Zusammenhang auch von ‚curricularer Validität’ eines Tests als Sonderfall der

Inhaltsvalidität. Curricular valide ist ein Test dann, wenn die Aufgaben des Tests

die auf curricularer Ebene „definierten Fähigkeiten umfassend abdecken und da-

mit die Menge möglicher Aufgaben hinreichend gut repräsentieren“ (Hartig et al.,

2007, S. 141). Nur wenn die curriculare Validität eines Tests sichergestellt ist, ist

eine Verallgemeinerung über die konkret verwendeten Testaufgaben hinaus zuläs-

sig:69

„Die verallgemeinernde Interpretation des Testergebnisses besteht darin anzunehmen, dass ein Schüler mit einem hohen Testwert auch bei einer Vielzahl anderer Aufgaben, die das Lernziel repräsentieren, erfolgreich wäre, wenn man sie ihm vorlegen würde.“ (Hartig et al., 2007, S. 142)

Deshalb wurden im Rahmen des KoMus-Projekts alle bundesdeutschen Musikcur-

ricula der sechsten Jahrgangsstufe im Hinblick auf die dort geforderten Kompe-

tenzen analysiert.70 Ziel der Analyse war nicht ein Vergleich der heterogenen

Lehrpläne, sondern das Auffinden von Gemeinsamkeiten. Zusammenfassend er-

gab die Analyse folgende Befunde:

69 Dieses Vorgehen wird auch als ‚Repräsentationsschluss’ bezeichnet, da von der Lösungshäufig-keit bearbeiteter Aufgaben auf die Lösungshäufigkeit hypothetischer Aufgaben (‚Itemuniversum’) geschlossen wird (Hartig, Frey & Jude, 2007, S. 141 f.). 70 Der Einwand liegt nahe, dass das Verhältnis von unterrichtlicher Realität und curricularen Vor-gaben empirisch völlig ungeklärt ist. Gerade im Fach Musik, das größtenteils nicht versetzungs- oder abschlussrelevant ist, könnte die Steuerungsfunktion von Curricula zumindest eingeschränkt sein. Trotzdem erscheint es plausibel, dass Curricula in jedem Fall auf übergeordneter Ebene eine Orientierungsfunktion erfüllen und nicht zuletzt durch daran ausgerichtete Fortbildungsangebote, didaktische Materialen und Schulbücher einen entscheidenden Einfluss auf den Musikunterricht haben. Sie sind zudem die einzig rechtlich verbindlichen Dokumente, an denen sich eine schul- und bundeslandübergreifende Test- bzw. Modellentwicklung orientieren kann.

51

� Im Rahmen der Dimensionalisierung des Faches weisen die Curricula das hö-

rende Wahrnehmen übereinstimmend als einen zentralen Bereich des Musik-

unterrichts aus (Knigge & Lehmann-Wermser, 2008; vgl. auch 2.2.1). Ent-

sprechende Bereiche sind bspw. überschrieben mit „Musik hören und reflek-

tieren“, „Musik wahrnehmen und verstehen“, „Musik hören, verstehen und

einordnen“.

� Den Curricula ist grundlegend gemeinsam, dass es in diesem Lernbereich um

ein Zusammenspiel von musikalischer Wahrnehmung und Wissen über Musik

geht. In unterschiedlichem Grad werden auch Reflexionsprozesse hinsichtlich

des Beurteilens von Musik, aber auch deren kulturhistorischen und sozialen

Dimensionen thematisiert. Diese Befunde sind bei der Modell- und Testent-

wicklung zu berücksichtigen und wurden entsprechend bereits in die mehrdi-

mensionale Struktur des theoretischen Kompetenzmodells eingearbeitet (vgl.

Abb. 4).

� Über diese grundsätzliche Ausrichtung des Bereichs hinaus lässt sich auch ein

relativ breiter Konsens hinsichtlich der konkret geforderten und z. T. sehr de-

tailliert beschriebenen Wissensbestände und Fähigkeiten identifizieren.71 Auch

diese Analyseergebnisse können direkt für die Aufgabenentwicklung genutzt

werden.

� Gleichzeitig konnten durch die Curriculaanalysen aber auch Aspekte identifi-

ziert werden, die zwar auf curricularer Ebene eine Rolle spielen, aber auf-

grund testpraktischer oder theoretischer Überlegungen keinen Eingang in das

Modell und die Testkonstruktion fanden.72 In dieser Hinsicht erfüllt das Test-

konstrukt eine abgrenzende Funktion.

71 So wird beispielsweise in nahezu allen Curricula die Kenntnis von Dur und Moll, 3/4 und 4/4-Takt, Dynamikbezeichnungen, Violin- und Bassschlüssel sowohl als Wissensbestand als auch in der Anwendung beim Hören gefordert. Im Rahmen der Analysen wurden für jede Dimension und Facette des theoretischen Modells die Inhalte identifiziert, die durch den Großteil der Curricula abgedeckt sind, sodass diese dann bevorzugt für die Aufgabenkonstruktion verwendet werden konnten. 72 Der Ausschluss von bestimmten Bereichen/Kompetenzen in diesem Zusammenhang bedeutet keinesfalls, dass diese nicht relevant für den Musikunterricht wären. Es erschien jedoch häufig plausibler, die entsprechenden Kompetenzen in gesonderten Kompetenzmodellen zu verorten; so z. B. die in den Curricula häufig geforderte Fähigkeit zur Interpretation von Musik bzw. dem äs-thetischen Urteilen über Musik. Beides könnte evtl. besser in ein Modell ‚musikbezogener Argu-mentationskompetenz’ integriert werden, für das aktuell bereits Vorarbeiten laufen (Rolle, 2008a; vgl. auch Cvetko & Knigge, im Druck). Ähnliches gilt für Kompetenzen mit sehr hohen motivati-onalen und sozialen Anteilen (z. B. „respektvoller Umgang mit unterschiedlichen Hörgewohnhei-

52

Tab. 2 enthält die auf Basis der Curriculaanalysen für die Aufgabenentwicklung

berücksichtigten Bereiche und Inhalte.

Tab. 2: Für die Aufgabenentwicklung berücksichtigte Bereiche und Inhalte der Hörwahrneh-mung in bundesdeutschen Curricula

Bereiche/Inhalte (elementare) musikalische Verläufe, Strukturen, Formen musikalische Gestaltungsmittel/Parameter (Rhythmus, Intervalle, Dynamik etc.) Instrumente traditionelle Notation einfachere (grafische) Notationsformen73 Gattungen, Stile, Genres Wirkungen von Musik, Ausdrucksgehalt Fachsprache (Begründung/Anwendung von Kriterien zur) Beurteilung von Musik H

örw

ahrn

ehm

ung

unte

r

Ver

wen

dung

von

Wis

sen

in

Bez

ug a

uf

historische, kulturelle und gesellschaftliche Kontexte von Musik

4.2.2 Musikpsychologische Forschung

Eine weitere wichtige Komponente des Testkonstrukts ist die Verankerung in der

musikpsychologischen Forschung. Hierbei sind drei Dimensionen zu unterschei-

den:

(1) Entwicklungspsychologische Befunde wurden herangezogen, um abzusichern,

inwieweit die im theoretischen Kompetenzmodell und auf curricularer Ebene for-

mulierten grundlegenden Wahrnehmungsfähigkeiten tatsächlich bei 11- bis 12-

Jährigen aufgrund ihres Entwicklungsstands ausgeprägt sind. Eine Reihe von Ü-

berblicksarbeiten fassen die Forschungsergebnisse zum Entwicklungsstand musi-

kalischer Fähigkeiten bei Kindern und Jugendlichen zusammen (z. B. Brophy,

2000; Gembris, 2005; Runfola & Swanwick, 2002). Die Befunde sind an dieser

Stelle eindeutig und bestätigen, dass die in Bezug auf das theoretische Modell

notwendigen Fähigkeiten im Alter von 11 bis 12 Jahren prinzipiell und ohne spe-

ten“); vgl. hierzu die Überlegungen zu einem Kompetenzmodell ‚musikbezogener interkultureller Kompetenz’ bei Niessen, Lehmann-Wermser, Knigge & Lehmann (2008). 73 Grafische Notationsformen wurden trotz einer relativ seltenen Nennung in den Curricula in das Modell aufgenommen bzw. bei der Aufgabenentwicklung berücksichtigt. Es ist davon auszugehen, dass dieser Bereich in den vorangegangenen Klassenstufen eine größere Rolle spielt und nach der Grundschulzeit zunehmend von traditioneller Notation abgelöst wird. Vor diesem Hintergrund wurde die Verbindung von Wahrnehmung und einfachen grafischen Notationsformen im Testkon-strukt als ein basales Niveau bestimmt auf dem aufbauend der Umgang mit komplexeren Notati-onsformen folgt.

53

zielle musikalische Ausübung ausgeprägt sind. Tab. 3 verdeutlicht dies im Über-

blick:

Tab. 3: Entwicklungsstand musikalischer Wahrnehmungsfähigkeit bei Kindern im Alter von 12 Jahren (in Anlehnung an: Bähr, 2001, S. 35 ff.)

Allgemein

Wahrnehmung und Wiedergabe musikalischen Ausdrucks (Manturzewska & Kaminska, 1993)

Unterscheidungsfähigkeit von verschiedenen Musikstilen (Campbell, 1991; Manturzewska & Kaminska, 1993)

Mehrfach-Wahrnehmung - Invarianz/Erhaltung

Fähigkeit zur gleichzeitigen Betrachtung verschiedener Aspekte der Melodie (Rhythmik, Harmonik) und zum Erkennen von Identität oder Ähnlichkeit des Rhythmus, der Melodie und Harmonik bei gleichzeitiger Veränderung einzelner Parameter (Pflederer & Sechrest, 1968)

Wiedererkennen einzelner musikalischer Merkmale in verschiedenen musikalischen Zusammenhängen (Serafine, 1988)

Erkennen nach Gehör von Motiven, musikalischen Pattern und Phrasenbildungen als zeitlich konstituierende musikalische Elemente (Serafine, 1988)

Verstehen, dass mehrere Klänge oder Motive zu musikalischen Einheiten zusammengesetzt werden können (Serafine, 1988)

Melodik – Erhaltung

Erkennen invarianter melodischer Strukturen (Poppensieker, 1986; Pick & Palmer, 1993)

Erkennen von veränderten Melodien als Variationen (Pflederer & Sechrest, 1968)

Identifizierung gleichzeitig erklingender Melodien (Gudmundsdottir, 1999)

Identifizierung von Melodien in transponierter und variierter Form – auch im Zusammenhang einer längeren Komposition (Serafine, 1988)

Erkennen von Melodien, die von verschiedenen Instrumenten gespielte werden, auch wenn sie begleitet wer-den - auch in unterschiedlichem Tempo (Manturzewska & Kaminska, 1993)

Tonalität und Harmonik

Unterscheiden von Dur und Moll und von Halbtönen (Imberti, 1969)

Rhythmus/Metrum/Tempo – Erhaltung

Unterscheidung von rhythmischen Pattern (Manturzewska & Kaminska, 1993)

Erhaltung rhythmischer Figuren bei tonaler Veränderung (Zimmermann & Sechrest, 1968)

Erhaltung des Metrums (Serafine, 1975)

Das metro-rhythmische Konzept ist entwickelt (Jones, 1976; Zenatti, 1993)

Unterscheidung von langsamen und schnellen Tempi (Young, 1982)

Festigung der Differenzierung von Dauer und Tempo – auch operational (Andrews & Deihl, 1967)

Klangfarbe

Erkennen von Instrumenten im Zusammenklang mit anderen (Schellberg, 1998)

Unterscheidung von zusammenklingenden Instrumenten (Serafine, 1988)

54

(2) Musikpsychologische Grundlagenforschung zu musikbezogenen Wahrneh-

mungsprozessen: Innerhalb der Musikpsychologie existiert eine lange Tradition

der Erforschung musikbezogener Wahrnehmung (vgl. z. B. Bruhn, 2005; La Mot-

te-Haber, 2004; 2005b; Lange, 2005; Nauck-Börner, 1987; Stoffer, 2005). Im

Rahmen des KoMus-Projekts wurden die entsprechenden Arbeiten gesichtet und

hinsichtlich ihrer Verwertbarkeit für die Operationalisierung des Modells ausge-

wertet. Auf dieser Basis wurde folgende Arbeitsdefinition erstellt:

„Unter musikalischer Wahrnehmung verstehen wir im Folgenden die aktiv (re-) kon-struierende Verarbeitung akustischer Eindrücke mit Hilfe spezifischer Techniken und unter Verwendung vorhandener Erfahrungs- und Wissensbestände. Der Verarbei-tungsprozess selbst kann als Zusammenspiel von bottom-up- und top-down-Prozessen beschrieben werden: Zunächst werden kleinere wahrgenommene Einheiten zu größe-ren zusammengefasst bzw. abstrahiert (bottom-up). Hier spielt das Gedächtnis eine entscheidende Rolle. Diese Wahrnehmungs- bzw. Verarbeitungsprozesse von Musik werden bei Musikern wie Nicht-Musikern von Kenntnissen und Erwartungen über ‚musikalische Syntax’ mit gesteuert (top-down), die zwar deklarative Anteile beinhal-ten können, aber zum großen Teil implizit erworben wurden.“ (Jordan, Knigge, Leh-mann-Wermser, Lehmann & Niessen, i. Vorb.)

Darüber hinaus sind unter musikpsychologischen Gesichtspunkten drei grundle-

gende Aspekte hervorzuheben, die für die musikalische Wahrnehmung, wie sie im

Rahmen von KoMus modelliert wird, eine besondere Rolle spielen (vgl. Jordan et

al., i. Vorb.):

� Aufmerksamkeitssteuerung: Aufmerksamkeit und ihre Steuerung spielen beim

Musikhören generell eine besondere Rolle; man unterscheidet u. a. zwischen

willkürlicher und unwillkürlicher, wissensabhängiger und -unabhängiger

Aufmerksamkeitssteuerung (Stoffer, 2005, S. 594). In den meisten Fällen er-

folgt die Aufmerksamkeitssteuerung bei der Bearbeitung von Testaufgaben

willkürlich und wissensabhängig. Diese starke willkürliche Aufmerksamkeits-

steuerung ist beim alltäglichen Hören in dieser Form und Ausprägung kaum

vorhanden und unterscheidet es damit vom aufgabengeleiteten Hören, wie es

in schulischen Zusammenhängen und insbesondere bei Leistungstest häufig

vorkommt.

� Abbruch der Informationsaufnahme bei Inferenz: Ein weiteres relevantes Phä-

nomen ist die Ausschnitthaftigkeit bzw. Unvollständigkeit musikalischer

Wahrnehmung. Gemeint ist hiermit der Abbruch der Informationsverarbei-

tung, sobald ein Ergebnis ausreichend präzise erscheint (Bruhn, 1993b,

S. 445). Gerade weil die musikalische Wahrnehmung bei Leistungstests von

55

Aufgaben geleitet wird und nach dem Zeitpunkt der Lösungsfindung nicht

weiter differenziert werden muss, ist davon auszugehen, dass die Schüler bei

vielen Aufgaben zielgerichtet nur jeweils einen kleinen Teil der akustischen

Eindrücke nutzen, die ihnen dargeboten werden. Dieses Phänomen erlaubt es

überhaupt erst, beispielsweise nach einer Lautstärkeveränderung in einem Sin-

fonieausschnitt zu fragen. Eine adäquate Verarbeitung aller gegebenen Infor-

mationen wäre schon bei wenig komplexer Musik nicht mehr möglich.

� Bedeutung von Wissensbeständen: Es wurde bereits darauf hingewiesen, dass

im Rahmen des KoMus-Kompetenzmodells nicht allein Wahrnehmungsleis-

tungen erfasst werden sollen, sondern auch das Zusammenspiel von Wahr-

nehmungsfähigkeit und dem Einsatz musikbezogener Wissensbestände (vgl.

4.1 und 4.2.1). Aus musikpsychologischer Sicht ist in diesem Kontext implizi-

tes und explizites Wissen zu unterscheiden. Implizites Wissen bezeichnet Ge-

dächtnisinhalte, die nicht bewusst zugänglich sind, aber im Verhalten wirksam

werden (Lange, 2005, S. 89). Explizites Wissen (oft auch deklaratives Wissen

genannt) ist hingegen bewusst zugänglich und bezieht sich auf semantische

Inhalte (Bruhn, 2005, S. 537). Beide Wissensformen spielen bei der Aufga-

benkonstruktion bzw. der späteren Aufgabenbearbeitung eine Rolle: deklarati-

ves Wissen beispielsweise bei der Benennung von wahrgenommenen Instru-

menten. Implizites Wissen wird beispielsweise wirksam bei der Kenntnis ele-

mentarer Melodieverlaufsmuster, Formtypen oder stilspezifischer Einschrän-

kungen (Stoffer, 2005, S. 611). Häufig werden aber auch beide Wissensformen

gleichermaßen angesprochen, z. B. wenn ein Hörbeispiel einem Stil oder einer

historischen Epoche zugeordnet werden soll.

(3) Einzelne Modell-Facetten konnten auf der Basis musikpsychologischer For-

schungen inhaltlich präzisiert und in Bezug auf ihre Operationalisierung konkreti-

siert werden. Dies betrifft z. B. die Wahrnehmung der Wirkung von Musik (z. B.

Gabrielsson & Lindström, 2001; Gabrielsson, 2001/2002; Kreutz, Ott & Vaitl,

2006), Formwahrnehmung (z. B. Kreutz, 1995; La Motte-Haber, 2005a), Melo-

diewahrnehmung (z. B. Kreutz, 2005; Thompson & Schellenberg, 2006) oder das

Rhythmus- und Tempoempfinden (z. B. Auhagen, 2005; Bruhn, 1993a; 2000).74

74 Die z. T. sehr umfangreichen Forschungen können an dieser Stelle nicht ausführlicher darge-stellt werden. Sofern sie von Relevanz für die in der vorliegenden Arbeit durchgeführten Analysen

56

Zusammenfassend ist die Kompetenz des Wahrnehmens und Kontextualisierens

von Musik im Testkonstrukt mehrdimensional definiert. Sie wird als ein Zusam-

menspiel von Hörwahrnehmungsfähigkeit und dem reflektierten Einsatz musikbe-

zogener Wissensbestände verstanden. Durch musikpsychologische Befunde ist ei-

nerseits sichergestellt, dass das zu entwickelnde Modell bzw. Testinstrument dem

Entwicklungsstand der Schüler angepasst ist. Darüber hinaus kann das Verständ-

nis musikbezogener Wahrnehmung, wie sie im KoMus-Projekt modelliert wird,

auf Basis musikpsychologischer Grundlagenforschung konkretisiert werden.

Durch Curriculaanalysen ist das Testkonstrukt in der unterrichtlichen Praxis ver-

ankert, wodurch eine curricular-inhaltliche Validität des Modells und der darauf

bezogenen Testaufgaben angestrebt wird.

4.3 Design und Prozess der Aufgabenentwicklung

Aphorisms for a Questionnaire

Keep it simple,

One thing at a time.

Little words work best,

Two lines are too many,

Long is wrong

When in doubt, leave it out.

Reasons for asking aren’t reasons for answering,

Answers ask questions.

(Ben Wright)75

Der Aufgabenentwicklungsprozess, der die Grundlage für den empirischen Teil

der vorliegenden Arbeit darstellt, fand im Rahmen der zweiten Phase des KoMus-

Projekts statt (vgl. 2.2.3). Konzeption und organisatorische Durchführung lagen

dabei in der Verantwortung des Autors. Im Folgenden werden zunächst einige

grundlegende Informationen hinsichtlich der Aufgabenentwicklung gegeben, be-

sind, so erfolgt eine genauere Betrachtung in den entsprechenden Kapiteln (insbesondere im Rah-men der Identifikation der schwierigkeitsgenerierenden Aufgabenmerkmale in Kap. 7). 75 Entnommen aus: Rost, 2004, S. 57.

57

vor anschließend eine detaillierte Betrachtung der einzelnen Prozessphasen er-

folgt.

Dokumentenanalysen

Vorbereitend für den Aufgabenentwicklungsprozess wurden umfassende Doku-

mentenanalysen von Curricula76, didaktischen Materialien (v. a. Schulbücher),

Musiktests und Schulleistungsstudien durchgeführt (vgl. auch 3.2). Hiermit war

das Ziel verbunden, Aufgabeninhalte und -formate zu identifizieren, die für die

Operationalisierung des Modells adaptiert/modifiziert werden können. Die Analy-

sen waren diesbezüglich jedoch wenig ergiebig, denn nur eine sehr kleine Anzahl

der Aufgaben war inhaltlich mit dem theoretischen Kompetenzmodell in Verbin-

dung zu bringen und entsprach gleichzeitig den Anforderungen, die an Testaufga-

ben zu stellen sind (vgl. 3.1). Erwartungsgemäß erbrachte z. B. die Analyse der

gebräuchlichsten Schulbücher fast ausschließlich Lern-Aufgaben, die für ein

Kompetenzmessinstrument nicht geeignet schienen. Ähnliches gilt für Curricula,

die überhaupt nur in sehr seltenen Fällen Aufgaben enthalten. Vielversprechender

erschien die Aufarbeitung von Musiktests, wie sie vorwiegend in der Musikpsy-

chologie eingesetzt werden. Hier liegen zwar eine Reihe von Testaufgaben vor,

die auch in Bezug auf ihre psychometrischen Messeigenschaften gut abgesichert

sind, diese sind jedoch inhaltlich zu weit vom Kompetenzkonzept und von einer

möglichen Anbindung an die inhaltlichen Anforderungen deutscher Curricula ent-

fernt (vgl. 3.2.1). Die meisten Anregungen in Bezug auf die Aufgabenentwicklung

konnten der US-amerikanischen NAEP-Studie von 1997 entnommen werden (vgl.

3.2.2). Insgesamt betrachtet waren die Dokumentenanalysen hinsichtlich einer

konkreten Übernahme von Aufgaben wenig ertragreich. Trotzdem konnte zumin-

dest eine Reihe von Anregungen in Bezug auf die Gestaltung von Aufgabenfor-

maten und vor allem Aufgabenstämmen (Hörbeispiele, Notenbeispiele, Abbildun-

gen von Instrumenten etc.) für den Entwicklungsprozess gewonnen werden.

76 Interessant waren hierfür vor allem neuere, an Bildungsstandards orientierte Curricula, die teil-weise bereits Aufgabenstellungen enthalten (so z. B. die sogenannten „Niveaukonkretisierungen“ innerhalb des Bildungsplan 2004 des Landes Baden-Württemberg).

58

Richtlinien zur Aufgabenkonstruktion

Um eine möglichst effiziente und an den Testgütekriterien orientierte Aufgaben-

entwicklung sicherzustellen (vgl. 3.1), wurde ein Handbuch mit ausführlichen

Hinweisen und Richtlinien zur Aufgabenkonstruktion erstellt (Knigge, 2008)77.

Darin waren u. a. folgende Vorgaben festgelegt:

� Handlungsleitend für die jeweilige Aufgabenentwicklung sollte die vorab zu

treffende Entscheidung sein, welche der im theoretischen Kompetenzmodell

beschriebenen (Teil-)Kompetenzen mit einer Aufgabe erfasst werden soll. Je-

der Aufgabenentwurf war dementsprechend mit einer Beschreibung der inten-

dierten Kompetenzmessung (Dimension und Niveau) zu versehen.78

� Zwischen einzelnen Items durften keine Abhängigkeiten bestehen.79

� Items sollten die Testpersonen nicht aufgrund ihres Geschlechts, ihrer Her-

kunft, Religion oder Sozialschichtzugehörigkeit benachteiligen oder bevorzu-

gen (‚Itemfairness’).

� Es sollten ca. 25 % offene, 25 % halb-offene und 50 % geschlossene Items

verwendet werden, wobei halb-offene und insbesondere offene Items haupt-

sächlich für komplexere Anforderungen auf höheren Kompetenzniveaus vor-

gesehen waren.

� Aufgrund der hohen Ratewahrscheinlichkeit bei Richtig-Falsch-Items sollten

diese ‚blockweise’ verwendet und zusammengefasst werden.80

77 Das Handbuch ist eine weiterentwickelte und speziell auf KoMus abgestimmte Fassung von Köller et al., 2005. 78 Vor allem die A-priori-Beschreibung des anvisierten Schwierigkeitsniveaus ist von großer Be-deutung für die späteren Itemanalysen, innerhalb derer die angenommenen mit den empirisch ge-messenen Schwierigkeiten abzugleichen sind (vgl. 6.1 und 6.2.3). 79 Eine Abhängigkeit liegt beispielsweise vor, wenn ein Item für eine Testperson leichter zu bear-beiten ist, die ein vorangegangenes Item richtig gelöst hat bzw. schwieriger für eine Testperson, die das entsprechende Item nicht korrekt bearbeitet hat. Auch wenn bei einem Item eine Formulie-rung verwendet wird, die an anderer Stelle als Antwortalternative fungiert, besteht eine Item-Abhängigkeit. In diesem Fall würde zusätzlich zu den eigentlich anvisierten Kompetenzen auch die Fähigkeit der Testpersonen erfasst, sich an frühere Items zu erinnern oder Schlüsse zu ziehen. Außerdem muss es immer möglich sein, ein folgendes Item zu lösen, auch wenn ein vorangegan-genes nicht gelöst werden konnte. Items dürfen also inhaltlich nicht aufeinander aufbauen. 80 Damit ist gemeint, dass 5 bis 10 Einzelfragen oder -aussagen zu einem Item zusammengefasst werden und dieses Item nur dann als richtig gelöst gilt, wenn eine Mindestanzahl der Einzelfragen korrekt beantwortet wurde (z. B. 8 von 10). Alternativ können entsprechende Items auch als ‚par-tial-credit’ ausgewertet werden. Ein Item wird dann in Abhängigkeit der Anzahl der richtig bear-beiteten Einzelfragen z. B. als falsch (1-6 von 10), teilweise richtig (7-8 von 10) und vollständig gelöst (9-10 von 10) bewertet.

59

� Die Hörbeispiele sollten ein breites stilistisches Spektrum abdecken und mög-

lichst nicht länger als 20-30 Sekunden sein.81

� Für jede Aufgabe waren die Lösungen zu dokumentieren.82

� Insgesamt sollten mind. 120 Items entwickelt werden.83

Aufgabenentwicklungsprozess

Auf Basis der Dokumentenanalysen und der Richtlinien führte eine Entwick-

lungsgruppe, bestehend aus Kooperationslehrern und Wissenschaftlern des Ko-

Mus-Projekts, von Februar bis Dezember 2008 zehn Sitzungen zur Entwicklung

von Testaufgaben durch.

Abb. 5: Zirkulärer Aufgabenentwicklungsprozess

Die wichtigsten Phasen des zirkulär konzipierten Entwicklungsprozesses sind in

Abb. 5 dargestellt: (1) monatliche Sitzung der Entwicklungsgruppe zur Erstellung

81 Hintergrund für die geforderte stilistische Vielfalt ist einerseits die angestrebte curriculare Vali-dität des Kompetenztests bzw. -modells, andererseits soll hierdurch aber auch möglichen Präfe-renz- oder Gewohnheitseffekten entgegengewirkt werden, die im Sinne der ‚Itemfairness’ zu ver-meiden sind. 82 Besonders wichtig ist in diesem Zusammenhang die Erstellung von Kodieranweisungen für die Auswertung von offenen Items. Hierbei muss zunächst entschieden werden, ob eine dichotome oder mehrkategorielle Auswertung angemessen erscheint bzw. wie viele Kategorien für die Aus-wertung zur Anwendung kommen sollen (z. B. drei Kategorien: falsch/teilweise richtig/vollständig gelöst). Anschließend ist für jede Kategorie möglichst präzise zu formulieren, welche Antworten einer Auswertungskategorie zuzuordnen sind. 83 Zugrunde gelegt wurde hierbei die Struktur des theoretischen Modells von drei Kompetenzni-veaus je Modelldimension (vgl. 4.1). Die anvisierte Itemanzahl ergibt sich somit aus 10 Items pro Dimension und Niveau. So eine relativ große Anzahl von Items ist im Speziellen bei einer Neu-entwicklung eines Testinstruments vonnöten, da im Zuge der Itemselektion ein gewisser Teil der Items verworfen werden muss.

60

von Aufgaben; (2) Erprobung der entwickelten Aufgaben in den Klassen der Ko-

operationslehrer; (3) Auswertung der Tests (Itemanalysen); (4) Diskussion der

Analyseergebnisse, Überarbeitung problematischer Aufgaben und Erstellung neu-

er Aufgaben im Rahmen der nächsten Entwicklungssitzung.

Die einzelnen Phasen der Aufgabenentwicklung werden nun im Einzelnen erläu-

tert (vgl. Abb. 6):

Grundsätzlich ist zunächst festzuhalten, dass für einen vollständigen Durchlauf al-

ler vier Phasen vier bis sechs Wochen vorgesehen waren. In der Regel entfielen

hiervon ein bis zwei Wochen auf die Erstellung/Überarbeitung der einzelnen Auf-

gaben und das jeweils entsprechende Testheft, zwei Wochen waren für die Test-

durchführungen reserviert und weitere ein bis zwei Wochen wurden für die Ana-

lyse der Tests sowie die Vorbereitung der folgenden Sitzung der Entwicklungs-

gruppe benötigt.

Die in Abb. 6 grün gekennzeichneten Felder stellen Phasenabschnitte dar, die die

komplette Entwicklungsgruppe betreffen. Die grauen Phasenabschnitte wurden

hingegen von einer ‚Steuergruppe’ durchgeführt, der neben dem Autor der vorlie-

genden Arbeit auch zwei weitere Wissenschaftlerinnen des KoMus-Projekts an-

gehörten.84

Bei der Zusammenstellung der Entwicklungsgruppe wurde darauf geachtet, dass

Lehrer aus allen Schulformen vertreten waren. Es konnten hierfür sechs Musik-

lehrer aus Bremen, Hessen und Niedersachsen gewonnen werden, die an Gymna-

sien, Realschulen, Sekundarschulen, Gesamtschulen und Sonderschulen unterrich-

teten.85

84 Anne Niessen und Anne-Katrin Jordan. 85 Lediglich die Hauptschule war nicht durch einen Kooperationslehrer in der Entwicklungsgruppe vertreten. Für die Testdurchführungen konnten jedoch zwei Hauptschullehrer aus Niedersachsen gewonnen werden.

61

Abb. 6: Phasen der Aufgabenentwicklung

Phase 1: Die Aufgabenentwürfe wurden in der Regel von allen Mitgliedern der

Entwicklungsgruppe erstellt und jeweils eine Woche vor dem Sitzungstermin zu

einer ersten Durchsicht an die Steuergruppe übersendet. Somit konnten im Rah-

men der Entwicklungssitzung bereits erste Überarbeitungen gemeinsam diskutiert

werden. Um eine gleichmäßige Verteilung der Items über die gesamte Modell-

struktur hinweg zu gewährleisten, wurden jeweils die Dimensionen und Niveaus

des theoretischen Kompetenzmodells festgelegt, für die als nächstes Aufgaben

konstruiert werden sollten.

Phase 2: Im Zentrum der zweiten Phase standen die Testdurchführungen zur Er-

probung der entwickelten Aufgaben. Hierfür wurden zunächst alle Aufgaben mit

Hörbeispielen86 versehen und in ein einheitliches Layout gebracht. Die so aufbe-

reiteten Aufgaben konnten anschließend in ein standardisiertes Testheft übertra-

gen und zusammen mit einer Audio-CD sowie Anweisungen für die Testdurch-

führungen (Testleiter-Manual) an die Kooperationslehrer zur Erprobung mit ihren

Klassen versandt werden.87 Die bearbeiteten Testmaterialien wurden spätestens

eine Woche vor der nächsten Entwicklungssitzung zur Auswertung an die Steuer-

gruppe zurückgeschickt.

86 Nach Möglichkeit wurde für die Erstellung der Hörbeispiele auf bereits vorhandenes Material zurückgegriffen. Für ca. ein Fünftel der Items mussten jedoch vollständig neue Hörbeispiele in Ei-genproduktion erstellt werden. 87 Weitere Ausführungen zur Testdurchführung erfolgen in Abschnitt 5.3.2.

62

Phase 3: Auf Basis der so erhobenen Daten konnten relativ umfangreiche Analy-

sen durchgeführt werden. Die dabei verwendeten Methoden und insbesondere die

mehrschrittige Itemselektion sind ausführlich in den Kapiteln 5 und 6 beschrie-

ben. Die Analyseergebnisse bildeten jeweils die Grundlage für die folgende Sit-

zung der Entwicklungsgruppe.

Phase 4/1: Die aufgrund der Itemanalysen als kritisch klassifizierten Items konn-

ten im Rahmen der Sitzung überprüft und ggf. modifiziert oder eliminiert werden.

Außerdem wurden die wiederum eine Woche vor der Sitzung bereits erstellten

neuen Aufgabenentwürfe diskutiert. Sowohl die neu entwickelten als auch die ü-

berarbeiteten Items des letzten Testhefts wurden daraufhin erneut in einem Test-

heft zusammengefasst und innerhalb der folgenden Testdurchführung erprobt,

womit ein vollständiger Durchlauf der vier Phasen abgeschlossen ist.

Zusammenfassend kann festgehalten werden, dass sich das angewandte Design

zur Entwicklung von Testaufgaben bewährt hat. Es war so möglich, innerhalb

kurzer Zeit einen relativ großen Itempool zu generieren (vgl. 6.1.3), der durch die

beteiligten Kooperationslehrer sowohl in der schulischen Praxis verankert war als

auch während des gesamten Prozesses kontinuierlich empirisch überprüft, und

darauf basierend, optimiert werden konnte.

Die im Rahmen der Itementwicklung durchgeführten Analysen und dabei erziel-

ten Ergebnisse werden ausführlich in Kap. 6 und 7 beschrieben. Zuvor erfolgt je-

doch im nun folgenden Kapitel eine Darstellung der methodischen Grundlagen

der Test- und Itemanalyse.

63

5 Methoden

In folgendem Kapitel sind die statistischen Methoden beschrieben, die in der vor-

liegenden Arbeit zum Zwecke der Test- und Itemanalyse eingesetzt werden. Tra-

ditionell werden Tests und Items meist mittels Methoden der sogenannten ‚Klassi-

schen Testtheorie’ (KTT) entwickelt und analysiert. Im Zusammenhang mit der

Erfassung und Modellierung von Kompetenzen kommen in jüngster Zeit jedoch

zunehmend Methoden der ‚Probabilistischen Testtheorie’ (PTT) zum Einsatz. Da-

bei sind diese beiden testtheoretischen Ansätze nicht als konkurrierende Modelle

aufzufassen, sondern vielmehr komplementär und in Abhängigkeit des For-

schungsgegenstandes zu verwenden (z. B. Moosbrugger, 2007, S. 215; Rost,

1999; 2004, S. 12). Es verwundert daher nicht, dass bei Testkonstruktionen auf

Basis der PTT in aller Regel ergänzend auch klassische Methoden genutzt werden

(z. B. Ehmke, Leiß, Blum & Prenzel, 2006; vgl. auch Wu & Adams, 2007,

S. 64 ff.). Diesem Ansatz folgend werden in vorliegender Arbeit sowohl klassi-

sche als auch probabilistische Analyseverfahren eingesetzt.

Da probabilistische Methoden in musikpädagogischen Zusammenhängen bislang

noch kaum Verwendung fanden, erfolgt in einem ersten Abschnitt (5.1) eine kurze

Betrachtung des testtheoretischen Hintergrunds. Daran anschließend werden die

einzelnen Analyseverfahren dargestellt (5.2). Abschließend werden Stichprobe

und Datengrundlage beschrieben (5.3), auf die im dann folgenden Kapitel 6 die

dargestellten Analyseverfahren angewendet werden.

5.1 Testtheoretischer Hintergrund

Mithilfe eines Tests sollen bestimmte Eigenschaften einer Person erfasst werden.

Entsprechende Eigenschaften können beispielsweise Einstellungen oder Fähigkei-

ten sein und werden häufig als Personenmerkmale bezeichnet. „Testtheorien be-

fassen sich entweder mit dem Zusammenhang von Testverhalten und dem zu er-

fassenden psychischen Merkmal oder mit der Frage, in welche Bestandteile sich

Messwerte aufgliedern“ (Bühner, 2006, S. 20). Auf grundsätzlich konzeptueller

Ebene können die Klassische und die Probabilistische Testtheorie unterschieden

werden. Beide werden im Folgenden kurz skizziert, wobei ein Schwerpunkt auf

64

der PTT und im Speziellen deren Anwendungsmöglichkeiten im Kontext der

Kompetenzmodellierung liegt.

5.1.1 Klassische und Probabilistische Testtheorie

Die Klassische Testtheorie ist eine reine Messfehlertheorie, die sich mit den un-

terschiedlichen Bestandteilen von Messwerten befasst (wahrer Wert + Messfeh-

ler). Die Grundannahme ist hierbei, dass sich der beobachtete Messwert (X) einer

Person aus dem wahren Wert (T) einer Person und einem Messfehler (E) zusam-

mensetzt (z. B. Bühner, 2006, S. 27):

ETX ��

Wenngleich die KTT mathematisch durchaus befriedigend formuliert ist, so wer-

den in der Literatur doch einige ihrer Grundannahmen infrage gestellt (vgl. z. B.

Amelang & Schmidt-Atzert, 2006, S. 60). Ohne an dieser Stelle im Detail auf die

kritischen Punkte einzugehen, so ist doch zumindest eine zentrale Schwäche der

KTT zu nennen, die vor allem in Bezug auf die Erfassung von Kompetenzen von

Bedeutung ist: die KTT formuliert – im Gegensatz zur PTT (s. u.) – keine explizi-

ten Annahmen zwischen einem Personenmerkmal (z. B. Kompetenz) und der I-

tembeantwortung. Nichtsdestotrotz hat sich die KTT in vielen Bereichen der psy-

chologischen oder pädagogischen Forschung bewährt und dient nach wie vor ei-

nem Großteil der Testkonstruktionen als Basis.88

Im Gegensatz zur KTT formuliert die PTT Annahmen, inwiefern ein Personen-

merkmal (z. B. musikalische Kompetenz) das Testverhalten einer Person beein-

flusst (z. B. Antworten in einem Musik-Kompetenztest). Die Formulierung einer

Theorie bezüglich dieses Zusammenhangs ist nicht zuletzt deshalb von Bedeu-

tung, da bei der Auswertung eines Tests genau umgekehrt vorgegangen wird: Man

schließt von dem Antwortverhalten auf das Personenmerkmal (Rost, 2004, S. 21;

vgl. auch Abb. 7).

88 Laut Rost (1999, S. 140) erfolgen über 95 % der Testentwicklungen auf Basis der KTT.

65

Abb. 7: Zusammenhang von Personenmerkmal und Testverhalten (in

Anlehnung an: Rost, 2004, S. 21)

Die PTT geht dabei nicht von direkt messbaren Persönlichkeitsmerkmalen aus,

sondern von sogenannten ‚latenten’ Merkmalen, die nur indirekt über ‚manifeste’

Variablen (z. B. Antworten in einem Test) erschlossen werden können. Dahinter

steht die Annahme, dass ein latentes Merkmal „für das Zustandekommen der

Antworten bei bestimmten Items ‚verantwortlich’ ist und daher deren beobachtba-

re Zusammenhänge ‚produziert’“ (Bühner, 2006, S. 21). Auf den vorliegenden

Zusammenhang übertragen bedeutet dies, dass es sich bei der Kompetenz der

Wahrnehmung und Kontextualisierung von Musik um eine latente Variable (�)

handelt, die durch manifeste Variablen (Antworten auf die Items der KoMus-

Tests: X1, X2, …) beobachtet werden kann (vgl. Abb. 8).

Abb. 8: Latente Variable und manifeste Merkmalsausprägungen

Der Zusammenhang von latenter Variable und manifesten Variablen wird inner-

halb der PTT mittels verschiedener psychometrischer Testmodelle modelliert (im

Überblick z. B. Rost, 2004). Grafisch veranschaulicht beschreiben diese Modelle

den Zusammenhang (die Pfeile) zwischen der Kompetenz und den Itemantworten

(siehe Abb. 8). Wenn die Antwortmuster der Testpersonen zu den Annahmen ei-

66

nes Modells passen, so kann von der Gültigkeit des entsprechenden Modells aus-

gegangen werden; oder anders formuliert: das Testmodell sagt in solch einem Fall

die Itemantworten gut vorher. Die grundlegende und in probabilistischen Testmo-

dellen mathematisch ausformulierte Annahme ist dabei, dass mit steigender Per-

sonenfähigkeit die Wahrscheinlichkeit89 einer korrekten Itemlösung zunimmt

(Bühner, 2006, S. 33). Die Lösungswahrscheinlichkeit hängt neben der Fähigkeit

einer Person aber auch von der Schwierigkeit eines Items ab. In probabilistischen

Testmodellen werden daher (mindestens) zwei Parameter verwendet: Personenpa-

rameter �v (Fähigkeitsausprägung einer Person)90 und Itemparameter �i (I-

temschwierigkeit). Bei der getrennten Schätzung der Parameter wird so vorgegan-

gen, dass der Personenparameter aufgrund der Anzahl der Items, die eine Person

erfolgreich bearbeitet hat, geschätzt wird, während der Itemparameter auf der Lö-

sungshäufigkeit eines Items basiert.

Die steigende Popularität der PTT in der Bildungsforschung der letzten Jahre ist

vor allem dadurch zu erklären, dass sie verschiedene Vorzüge in Bezug auf Kom-

petenzmessung und -modellierung aufweist.91 Der entscheidende Vorteil von pro-

babilistischen Testmodellen besteht hierbei in der Möglichkeit, Itemschwierigkei-

ten und Personenparameter (Schülerfähigkeiten) auf einer gemeinsamen Skala ab-

zubilden. Dadurch wird es möglich, kriteriumsbezogene Aussagen zu machen,

was eine zentrale Anforderung an Kompetenztests darstellt (Hartig & Jude, 2007,

S. 24).92 Durch eine kriteriumsorientierte Interpretation von Schülertestwerten

kann beispielsweise bestimmt werden, über welche konkreten fachspezifischen

Kompetenzen verschiedene Schülergruppen verfügen und inwieweit bestimmte

89 Es handelt sich also um eine probabilistische Beziehung zwischen Personenfähigkeit und Item-lösungswahrscheinlichkeit, worauf auch der Terminus ‚probabilistische Testtheorie’ zurückzufüh-ren ist. 90 Der Personenparameter kennzeichnet den Wert einer Person auf der latenten Variablen (Bühner, 2006, S. 313). Wird als latente Variable z. B. ‚Intelligenz’ erfasst, so entspricht der Wert auf der latenten Variable der Intelligenz einer Testperson. Aus diesem Grund werden Personenfähigkeit und latente Variable gleich bezeichnet (�). 91 Im Speziellen auf dem Gebiet der empirischen Schulleistungsforschung hat sich die Probabilisti-sche Testtheorie mittlerweile durchgesetzt. So operieren alle größeren Schulleistungsstudien wie beispielsweise PISA, DESI, IGLU oder die US-amerikanischen NAEP-Studien durchweg auf Basis der PTT. 92 „Mit kriteriumsorientierter Testwertinterpretation ist im Unterschied zu einer Bezugsnormorien-tierung gemeint, dass ein Testergebnis dahingehend interpretiert wird, ob ein bestimmtes, vorher definiertes Kriterium erreicht wird. Ein derartiges Kriterium kann in der pädagogischen Diagnostik z. B. durch Bildungsstandards definiert werden. Die Einschätzung der Erreichung eines Kriteriums erfolgt unabhängig von Bezugsnormen, d. h. unabhängig davon, wie viele der anderen untersuch-ten Personen das Kriterium erreichen“ (Hartig & Jude, 2007, S. 24).

67

Anforderungen mit einer ausreichenden Sicherheit bewältigt werden können

(Rauch & Hartig, 2007, S. 242). Darüber hinaus ist die kriteriumsorientierte

Testwertinterpretation eine Voraussetzung für die Beschreibung und Bestimmung

von Kompetenzniveaus (Hartig & Jude, 2007, S. 24). An diesem Punkt wird deut-

lich, dass die psychometrischen Eigenschaften von PTT-Testmodellen zur Kon-

zeption von Kompetenzkonstrukten passen. Denn die möglichst präzise inhaltli-

che Beschreibung der Ausprägung der latenten Personenmerkmale

„[…] ist für Kompetenzen im Unterschied zu anderen Fähigkeits- oder Leistungskon-strukten besonders wichtig, da der enge Bezug zu konkreten Situationen und Hand-lungskontexten ein definierendes Merkmal von Kompetenzen darstellt. Ohne eine kri-teriumsorientierte Testwertinterpretation können z. B. keine substanziellen Aussagen über gesamte Populationen gemacht werden, wie sie für ein System-Monitoring not-wendig sind […].“ (Hartig & Jude, 2007, S. 24)

Wie konkret Itemschwierigkeit und Personenfähigkeit in einem Testmodell mit-

einander in Beziehung gesetzt werden, wird im Folgenden anhand des Rasch-

Modells verdeutlicht, das auch für die Skalierungen der Tests in vorliegender Ar-

beit zur Anwendung kommt.

5.1.2 Verwendete probabilistische Testmodelle: dichotomes und ordinales

Rasch-Modell

Das Rasch-Modell ist das bekannteste und zugleich einfachste probabilistische

Testmodell. Es gehört zur Gruppe der Latent-Trait-Modelle und geht von einer

quantitativen, kontinuierlichen latenten Variablen aus (Moosbrugger, 2007). In

Latent-Trait-Modellen wird der Zusammenhang von latenter Variable und mani-

festen Variablen als mathematische Funktion beschrieben, die sogenannte ‚Item-

charakteristische Funktion’ (IC-Funktion).93 Mittels der IC-Funktion kann für jede

Ausprägung der latenten Variablen eine Wahrscheinlichkeit p(Xvi = 1) bestimmt

werden, mit der ein Proband v ein bestimmtes Item i lösen wird.

Das dichotome Rasch-Modell

Als IC-Funktion des dichotomen Rasch-Modells wird eine logistische Funktion

verwendet, die auf folgender Modellgleichung basiert (Bühner, 2006, S. 318):

93 Im Englischen sowie in den meisten Softwareanwendungen wird der Terminus ‚Item Characte-ristic Curve’ (ICC) verwendet.

68

)exp(1))(exp()(

iv

ivvivi

xxXp�������

��

p(Xvi = x) = Wahrscheinlichkeit einer Person v, bei Item i die Antwortkategorie x zu wählen �v = Personenparameter für eine Person v �i = Itemparameter eines Items i exp = Exponentialfunktion (die Umkehrfunktion des Logarithmus) xvi = Wert einer Person v auf dem Item i (0 = falsch gelöst, 1 = richtig gelöst)

Aus der Modellgleichung ist ersichtlich, dass die Lösungswahrscheinlichkeit im

Rasch-Modell ausschließlich von zwei Modellparametern abhängt: Personenpa-

rameter (�v) und Itemparameter (�i). Abb. 9 zeigt den Verlauf der logistischen IC-

Funktion des Rasch-Modells in Abhängigkeit von �v und �i für die Lösungswahr-

scheinlichkeit p(xvi = 1).

Abb. 9: IC-Funktion des dichotomen Rasch-Modells für ein Item mit der Schwierig-

keit �i = 0 (entnommen aus: Rost, 2004, S. 120)

Der grafisch dargestellte Verlauf der IC-Funktion veranschaulicht, wie Ausprä-

gungen der Personenfähigkeit in Lösungswahrscheinlichkeiten für Items mit be-

stimmten Schwierigkeiten übertragen werden können. Hierfür ist im Rasch-

Modell die Itemschwierigkeit definiert als der Wendepunkt der IC-Funktion. An

diesem Punkt beträgt die Lösungswahrscheinlichkeit einer Person, deren Fähig-

keit �v genau der Itemschwierigkeit �i entspricht, 50 %. Sind Personen- und Item-

parameter bekannt, so kann aufgrund der Additivität der Parameter für jeden be-

liebigen Punkt der IC-Funktion die Lösungswahrscheinlichkeit berechnet werden

(z. B. Bühner, 2006, S. 314; vgl. hierzu auch den folgenden Abschnitt zur ‚Logit-

Skala’). Je größer die Fähigkeit �v einer Person im Vergleich zur Schwierigkeit �i

eines Items ist, desto größer wird die Lösungswahrscheinlichkeit p; oder einfacher

formuliert: bei ansteigender Fähigkeit wird es immer wahrscheinlicher, dass eine

69

Person ein entsprechendes Item löst. So hat beispielsweise eine Person mit der

Fähigkeitsausprägung � = 1 bei dem bereits aus Abb. 9 bekannten Item mit dem

Parameter � = 0 eine deutlich höhere Lösungswahrscheinlichkeit (vgl. Abb. 10).

Abb. 10: Lösungswahrscheinlichkeit für eine Person mit � = 1 bei einem Item mit � = 0

Wie aus den beiden vorangegangenen Abbildungen ersichtlich ist, sind Item- und

Personenparameter auf einer Skala mit einer bestimmten Einheit verortet. Es han-

delt sich hierbei um die sogenannte ‚Logit-Skala’, deren Einheit als ‚Logit der

Wahrscheinlichkeit’ bezeichnet wird und die durch die Umformung der Modell-

gleichung des Rasch-Modells hergeleitet werden kann.94 Der Wertebereich der

Logit-Skala liegt theoretisch zwischen plus und minus unendlich, wobei im Rah-

men von Testskalierungen die Item- und Personenparameter meist in einem Wer-

tebereich von -3 bis +3 liegen (Bühner, 2006, S. 314). Dem Nullpunkt der Skala

ist eine Lösungswahrscheinlichkeit von 50 % zugeordnet. Entsprechend sind

leichtere Items bzw. Personen mit geringerer Fähigkeit durch negative Logitwerte

gekennzeichnet und schwere Items bzw. Personen mit höherer Fähigkeit durch

positive Logitwerte. Durch die Verwendung der Logit-Skala können die Parame-

ter des Rasch-Modells additiv (bzw. subtraktiv) verknüpft werden. Der Logit der

Lösungswahrscheinlichkeit entspricht somit der Differenz zwischen Personen-

und Itemparameter (Bühner, 2006, S. 318). Veranschaulicht wird dies exempla-

risch für alle ganzzahligen Logitwerte im Bereich -4 bis +4 in Tab. 4. Wenn bei-

spielsweise der Personenparameter den Itemparameter um 4 logits übersteigt

(z. B. � = 2, � = -2), dann resultiert daraus eine Lösungswahrscheinlichkeit von

98 %. Auch für das Beispiel aus Abb. 10 kann so eine konkrete Lösungswahr-

94 Die sogenannte ‚Logit-Transformation’ ist z. B. bei Rost (2004, S. 116 ff.) beschrieben.

70

scheinlichkeit angegeben werden: Eine Person mit � = 1 hat bei einem Item mit

� = 0 eine Lösungswahrscheinlichkeit von 73 %, also 23 % höher als eine Person

mit � = 0 bei dem gleichen Item.

Tab. 4: Logitdifferenzen und Lösungs-wahrscheinlichkeiten im Rasch-Modell (in Anlehnung an: Wilson, 2005, S. 98)

�v - �i p(Xvi = 1) 4.00 0.98

3.00 0.95

2.00 0.88

1.00 0.73

0.00 0.50

-1.00 0.27

-2.00 0.12

-3.00 0.05

-4.00 0.02

Die Berechnung der Lösungswahrscheinlichkeit ist in gleicher Weise für jedes

Item mit beliebiger Schwierigkeit möglich. Aufgrund der Eigenschaften des

Rasch-Modells haben Itemfunktionen für unterschiedlich schwierige Items immer

den gleichen Anstieg und sind lediglich parallel bezüglich der X-Achse verscho-

ben (Rost, 2004, S. 120). Abb. 11 verdeutlicht dies anhand von drei Items mit un-

terschiedlicher Schwierigkeit.

Abb. 11: Itemfunktionen von drei Items mit den Parametern �1 = 0, �2 = 1 und �3 = 2

(entnommen aus: Rost, 2004, S. 120)

71

Das ordinale Rasch-Modell (Partial-Credit-Modell)

Der Großteil der KoMus-Items kann dichotom (richtig/falsch) ausgewertet und

entsprechend mit dem dichotomen Rasch-Modell skaliert werden. Darüber hinaus

gibt es aber auch eine Reihe (meist offener) Items, für die eine mehrkategorielle

Auswertung erfolgt. D. h., die entsprechenden Itemantworten werden nicht nur di-

chotom ausgewertet, sondern mittels einer sogenannten ‚partial-credit’-Bewertung

(z. B. falsch/teilweise richtig/vollständig richtig). Für die Skalierung solcher Items

steht das ordinale Rasch-Modell zur Verfügung, das auch als Partial-Credit-

Modell bezeichnet wird (z. B. Rost, 2004, S. 203 ff.).95 Grundsätzlich treffen die

bereits dargestellten Eigenschaften des dichotomen Rasch-Modells auch auf das

ordinale Modell zu.

Der entscheidende Unterschied besteht darin, dass es nun nicht mehr eine IC-

Funktion pro Item gibt, sondern so viele ‚Kategorienfunktionen’, wie ein Item

Antwortkategorien aufweist. Abb. 12 zeigt die Kategorienfunktionen für ein drei-

kategorielles Item (Kategorie 0: falsch, Kategorie 1: teilweise richtig, Kategorie 2:

vollständig richtig).

Abb. 12: Kategorienfunktionen eines dreikategoriellen Items (entnommen aus:

Rost, 2004, S. 203)

Geht man in Abb. 12 auf der x-Achse von links nach rechts, so ist zunächst die

Wahrscheinlichkeit am höchsten für eine falsche Antwort (Kategorie 0). Mit stei-

gender Personenfähigkeit �v sinkt diese Wahrscheinlichkeit jedoch ab, während

95 Es existieren verschiedene Untermodelle des ordinalen Rasch-Modells. In vorliegender Arbeit wird ausschließlich das Partial-Credit-Modell verwendet.

72

die Wahrscheinlichkeit für eine teilweise richtige Lösung (Kategorie 1) gleichzei-

tig ansteigt. Bei einer noch höheren Personenfähigkeit sinkt auch diese Wahr-

scheinlichkeit wieder ab, bei gleichzeitigem Anstieg der Wahrscheinlichkeit für

eine vollständig richtige Lösung (Kategorie 2). Man kann sich die mathematisch

formulierte Annahme der Kategorienfunktionen auch unter Zuhilfenahme von drei

unterschiedlich kompetenten Schülern verdeutlichen: Für einen wenig kompeten-

ten Schüler ist es sehr wahrscheinlich, dass er ein entsprechendes Item nicht löst.

Bei einem Schüler mit mittlerer Kompetenzausprägung überwiegt hingegen die

Wahrscheinlichkeit, dass er das Item zumindest teilweise löst, während für einen

sehr kompetenten Schüler sehr wahrscheinlich von einer vollständig richtigen Lö-

sung ausgegangen werden kann.

Die Parametrisierung des ordinalen Rasch-Modells erfolgt in Anlehnung an das

dichotome Modell. Dort wurde der Itemparameter definiert als der Abszissenwert

des Wendepunkts der logistischen Funktion (s. o.). Würde man im dichotomen

Rasch-Modell anstelle einer IC-Funktion zwei Kategorienfunktionen verwenden

(Kategorie 0: falsch, Kategorie 1: richtig), so zeigt sich, dass der Wendepunkt der

logistischen Funktion gleichzeitig auch Schnittpunkt beider Kategorienkurven ist

(Rost, 2004, S. 203). Demgemäß sind im ordinalen Rasch-Modell die Schnitt-

punkte der Kategorienfunktionen als Parameter definiert. Die Schnittpunkte wer-

den auch als ‚Schwellen’ bezeichnet, um zu verdeutlichen, dass an diesen Punkten

„der Übergang von einer Kategorie zur anderen stattfindet, d. h. die Wahrschein-

lichkeit, in der folgenden Kategorie zu antworten, von diesem Punkt an größer

wird als die Wahrscheinlichkeit, in der vorangegangenen Kategorie zu antworten“

(Rost, 2004, S. 205).96 Im Rahmen der Itemskalierungen erhält man daher für alle

mehrkategoriellen Items immer auch mehrere Schwellenparameter, und zwar für k

Kategorien stets k – 1 Schwellenparameter. Im Falle des in Abb. 12 dargestellten

Items wären dies zwei Schwellenparameter: ein Parameter für die Schwelle zwi-

schen Kategorie 0 und 1 und ein Parameter für die Schwelle zwischen Kategorie 1

und 2.

Für die konkreten Skalierungs- und Analysearbeiten (vgl. Kap. 6 und 7) ist es

nicht relevant, ob in einem Testheft nur Items mit dichotomen oder mehrkatego-

96 Auf einer Schwelle sind die Antwortwahrscheinlichkeiten für zwei benachbarte Kategorien je-doch gleich groß.

73

riellen Auswertungsformaten oder beide gleichzeitig auftreten. Die verwendete

Analysesoftware ConQuest (Wu, Adams & Wilson, 1998) nutzt ein generalisier-

tes Rasch-Modell, was sowohl dichotome als auch mehrkategorielle Formate in-

nerhalb desselben Tests modellieren kann.

In den vorangegangenen Ausführungen wurden einige zentrale Aspekte des di-

chotomen und ordinalen Rasch-Modells in aller Kürze und in ihrer Relevanz für

vorliegende Arbeit dargestellt. Darüber hinaus weist das Rasch-Modell noch eine

Reihe weiterer Eigenschaften auf, deren detaillierte Behandlung zum Verständnis

der Arbeit jedoch nicht notwendig ist und die daher abschließend lediglich zu-

sammenfassend aufgelistet werden. Sofern für einen Datensatz die Gültigkeit des

Rasch-Modells angenommen werden kann, treffen folgende Annahmen zu (Büh-

ner, 2006, S. 316):

� Die Summenwerte sind suffiziente oder erschöpfende Statistiken der Perso-

nenfähigkeit.

� Die Vergleiche zwischen Items und Personen sind spezifisch objektiv.

� Die Items sind eindimensional (die Forderung der lokalen stochastischen Un-

abhängigkeit der Items ist erfüllt).

5.2 Analyseverfahren

5.2.1 Itemschwierigkeit

Sowohl im Rahmen der Itemselektion (6.1), aber auch für die inhaltlichen Analy-

sen (6.2 und Kap. 7) ist die Schwierigkeit eines Items von zentraler Bedeutung.

Zunächst kann mit der Analyse der Itemschwierigkeit kontrolliert werden, dass in

den endgültigen Kompetenztest weder zu schwere noch zu leichte Items aufge-

nommen werden. Gleichzeitig ist es das Ziel des zu entwickelnden Kompetenz-

tests, ein möglichst breites Fähigkeitsspektrum zu erfassen. Deshalb muss sicher-

gestellt werden, dass die Itemschwierigkeiten über das gesamte Spektrum verteilt

sind. Darüber hinaus ist die Itemschwierigkeit ein wichtiges statistisches Kriteri-

um für die Überarbeitung der Items im Rahmen des Entwicklungsprozesses (vgl.

4.3): Items wurden dort in der Regel explizit für ein bestimmtes Schwierigkeitsni-

veau entwickelt. Die Analyse der Itemschwierigkeit dient daher dem Abgleich

zwischen anvisierter und empirischer Schwierigkeit. Nicht zuletzt spielt die I-

74

temschwierigkeit aber auch eine wichtige Rolle im Rahmen der Identifikation von

schwierigkeitsgenerierenden Aufgabenmerkmalen (Kap. 7).

Für alle genannten Bereiche kann die Itemschwierigkeit verwendet werden, wie

sie im Rasch-Modell formalisiert ist. Ergänzend wird jedoch auch die klassische

Itemschwierigkeit für den Prozess der Itemselektion herangezogen (vgl. 6.1.1).

Itemschwierigkeit im Rasch-Modell

Die Itemschwierigkeit entspricht im dichotomen Rasch-Modell dem Itemparame-

ter �i, der durch den Wendepunkt der IC-Funktion definiert ist.97 Wie bereits be-

kannt, beträgt die Lösungswahrscheinlichkeit einer Person, deren Fähigkeit �v ge-

nau der Itemschwierigkeit �i entspricht, an diesem Punkt 50 %.

Wu & Adams (2007, S. 41) weisen darauf hin, dass bei mehrkategoriellen Items

die Schwierigkeit einer Kategorie nicht auf Basis der Schwellenparameter beur-

teilt werden sollte.98 Sie schlagen hingegen die Verwendung von ‚Thurstonian

thresholds’ vor (Wu & Adams, 2007, S. 50). Der ‚Thurstonian threshold’ einer

Antwortkategorie markiert den Ort auf der Logit-Skala, an dem die Lösungswahr-

scheinlichkeit für die entsprechende Kategorie (oder eine höhere) 50 % beträgt.

Wichtig für die Analyse eines mehrkategoriellen Items ist die ordinale Abfolge

der ‚Thurstonian thresholds’ gemäß der Kategorienreihenfolge. D. h., eine als

schwerer angenommene Kategorie (z. B. vollständig gelöst) sollte immer auch ei-

ne höhere empirisch gemessene Schwierigkeit aufweisen als eine leichtere Kate-

gorie (z. B. teilweise gelöst).

Sowohl Itemparameter als auch Thurstonian thresholds werden in logits angege-

ben und variieren in der Regel zwischen -3 (sehr leichte Items bzw. Kategorien)

und +3 (sehr schwere Items bzw. Kategorien). Eine grafische Darstellung der I-

tem- und Kategorienschwierigkeiten eines gesamten Testhefts ist in Abb. 13 ge-

geben. In einer sogenannten ‚Wright map’99 werden Personenfähigkeit und I-

97 Vgl. auch die Ausführungen zu Rasch-Modell und Itemparameter in Abschnitt 5.1.2. 98 Die Interpretation der Schwellenparameter ist vor allem deshalb problematisch, da sie abhängig sind von der Anzahl der Testpersonen in den jeweiligen Kategorien (Wu & Adams, 2007, S. 45). 99 Diese Form der grafischen Darstellung wurde von Benjamin D. Wright (University of Chicago) entwickelt und ist daher nach ihm benannt; ausführlich ist die Konstruktion und Interpretation von Wright maps bei Wilson (2005, S. 90 ff.) dargestellt.

75

temschwierigkeit vertikal auf einer gemeinsamen Logit-Skala verortet. Die hier

verwendete Skala hat einen Bereich von ungefähr -3.5 bis 2.5 logits.

Abb. 13: Beispiel einer Wright map

76

Die Personenfähigkeit ist auf der linken Seite jeweils durch ein ‚X’ repräsentiert,

während die Itemparameter und thresholds auf der rechten Seite positioniert sind.

Die thresholds eines mehrkategoriellen Items werden jeweils nach dem Item be-

nannt und anschließend aufsteigend indiziert. Die Kategorie 1 des Items Nr. 9 ist

dementsprechend als ‚9.1’ gekennzeichnet und hat einen Wert von -2.83 logits.

Die vollständig richtige Lösung dieses Items (‚9.3’) ist mit einem Wert von 1.81

logits offensichtlich deutlich schwerer. Mittels einer Wright map kann auf diese

Art sowohl die Verteilung der Itemschwierigkeiten eines Testhefts als auch die

ordinale Abfolge der thresholds überprüft werden.

Klassische Itemschwierigkeit

Zur Berechnung der klassischen Itemschwierigkeit wird ein Schwierigkeitsindex

Pi verwendet, der sich aus dem Prozentsatz an Testpersonen zusammensetzt, die

ein Item richtig gelöst haben (Bühner, 2006, S. 83):

100��NNP R

i

NR = Anzahl der Testpersonen, die ein Item gelöst haben N = Anzahl aller Testpersonen Pi = Schwierigkeitsindex

Der Index nimmt folglich Werte zwischen 0 und 100 an und wird umso höher, je

leichter ein Item ist. Lösen beispielsweise bei einer Stichprobengröße von 200

Testpersonen nur 10 Personen ein Item, so ergibt sich ein Schwierigkeitsindex

von Pi = 5; das betreffende Item ist also sehr schwer. Lösen hingegen 190 Perso-

nen ein Item in demselben Test, so handelt es sich um ein sehr leichtes Item mit

einem Schwierigkeitsindex von Pi = 95.

Ergänzend sind für Schwierigkeitsindizes in der Literatur verschiedene Korrek-

turmaße zu finden (z. B. Bühner, 2006; Kelava & Moosbrugger, 2007), von denen

die Zufallskorrektur und die Inangriffnahmekorrektur für vorliegende Arbeit ver-

wendet werden.

Die Inangriffnahmekorrektur des Schwierigkeitsindex (PIK) ist deshalb notwendig,

da die Testdurchführungen zeitlich begrenzt waren; pro Testheft stand jeweils ei-

ne Schulstunde (45 Min.) zur Verfügung. In einigen Klassen kam es daher vor,

dass die Testhefte nicht vollständig bearbeitet werden konnten, d. h. für die Items

am Ende eines Testhefts liegen in diesem Fall keine Antworten vor. Um die

77

Schwierigkeit der entsprechenden Items nicht zu überschätzen, werden durch die

Inangriffnahmekorrektur nur Testpersonen berücksichtigt, die die Items bearbeitet

haben. Entsprechend wird der Schwierigkeitsindex für diese Items nicht mittels

der gesamten Stichprobe (N) berechnet, sondern nur auf Basis der Teilstichprobe

(NB), die das jeweilige Item bearbeitet hat (Kelava & Moosbrugger, 2007,

S. 75 ff.):100

100��B

RIK N

NP

Der größte Teil der KoMus-Items sind geschlossene Formate, bei denen die Ant-

worten vorgegeben sind (z. B. Multiple-Choice-Items). Bei diesen Items kann ei-

ne richtige Lösung auch durch Raten erzielt werden. Dies ist einerseits problema-

tisch, da in den Tests sowohl Items mit einer unterschiedlichen Anzahl von Ant-

wortalternativen eingesetzt werden als auch Items, bei denen nicht geraten werden

kann (halb-offene und offene Formate); in Abhängigkeit des Itemformats ergeben

sich folglich jeweils spezifische Lösungswahrscheinlichkeiten durch Raten. Ande-

rerseits ist die Verfälschung der Testergebnisse durch Raten nicht bei allen Test-

personen konstant, da der prozentuale Anteil der durch Raten richtig beantworte-

ten Items mit abnehmender Fähigkeit der Untersuchungsteilnehmer zunimmt

(Bortz & Döring, 2006, S. 216). Um diesen Problemen zu begegnen, berücksich-

tigt die Zufallskorrektur sowohl die Anzahl der Testpersonen, die ein Item nicht

lösen, als auch die Anzahl der Antwortalternativen (Bühner, 2006, S. 83 ff.):101

1001 ���

�N

mNN

PF

R

ZK

NF = Anzahl der Testpersonen, die ein Item falsch gelöst haben m = Anzahl der Antwortalternativen PZK = Schwierigkeitsindex mit Zufallskorrektur

Die Zufallskorrektur kann auch leicht mit der Inangriffnahmekorrektur kombiniert

werden, indem anstelle der gesamten Stichprobe nur die Teilstichprobe NB für die

100 Die Inangriffnahmekorrektur kommt jedoch nicht zum Einsatz, wenn Items innerhalb eines Testhefts ausgelassen wurden, wenn also nach einer fehlenden Antwort ein folgendes Item bear-beitet wurde. Solche ausgelassenen Items werden als falsch gewertet. 101 Genauer gesagt werden nur die falschen Antwortalternativen (Distraktoren) berücksichtigt (da-her: m – 1). Dies basiert darauf, dass als Schätzer für das Ausmaß, in dem ein Item durch Raten beeinflusst wird, die Anzahl aller Falschantworten verwendet wird (Bühner, 2006, S. 84).

78

Berechnung des Schwierigkeitsindex mit Zufallskorrektur verwendet wird (Büh-

ner, 2006, S. 86).

5.2.2 Trennschärfe

Die Trennschärfe (rit) im Sinne der klassischen Testtheorie drückt aus, wie groß

der korrelative Zusammenhang der einzelnen Itemwerte mit dem Gesamttestwert

ist (Kelava & Moosbrugger, 2007, S. 82). Die Trennschärfe ist somit ein Maß da-

für, wie gut ein Item den gesamten Test repräsentiert und zur Messqualität des

Tests beiträgt. An einem trennscharfen Item lässt sich ablesen, welche Personen

bezüglich des betrachteten Konstrukts hohe oder niedrige Ausprägungen besitzen.

Beide Gruppen werden durch entsprechende Items also gut voneinander ‚getrennt’

(Bortz & Döring, 2006, S. 219). Eine niedrige Trennschärfe deutet darauf hin,

dass ein Item etwas anderes misst als der Gesamttest und folglich ein schlechter

Indikator für das anvisierte Konstrukt ist.

Berechnet wird die Trennschärfe für jedes Item bzw. jede Antwortkategorie als

punktbiseriale Korrelation zwischen Item/Antwortkategorie und Testwert, wobei

das entsprechende Item nicht für die Bildung des Testwerts berücksichtigt wird,

da sonst die Trennschärfe überschätzt würde (sogenannte ‚part-whole-Korrektur’;

z. B. Bühner, 2006, S. 95). Die Trennschärfe hat einen korrelationstypischen Wer-

tebereich von -1 bis +1, wobei positive Werte zwischen 0.3 und 0.5 als mittelmä-

ßig und Werte größer als 0.5 als hoch gelten (Bortz & Döring, 2006, S. 220). I-

tems, die negativ mit dem Gesamttestwert korreliert sind, sowie Items mit einer

Trennschärfe rit < 0.25 sollten aus einem Test entfernt werden (Kelava & Moos-

brugger, 2007, S. 84; OECD, 2005, S. 123). Bei mehrkategoriellen Items ist es

darüber hinaus wichtig, dass die Trennschärfen der Kategorien aufsteigend geord-

net sind (OECD, 2005, S. 123). Z. B. sollte bei einem dreikategoriellen Item die

höchste Kategorie (vollständig gelöst) immer auch die höchste Trennschärfe auf-

weisen, ebenso wie die Trennschärfe der mittleren Kategorie (teilweise gelöst) die

der niedrigsten Kategorie (nicht gelöst) übersteigen sollte.

In Bezug auf die Trennschärfe eines Items ist außerdem zu beachten, dass diese

vom Schwierigkeitsindex abhängt: je extremer die Schwierigkeit eines Items, des-

to geringer die Trennschärfe (Bortz & Döring, 2006, S. 220). D. h., bei einem

Test, der auch in den Randbereichen des untersuchten Konstrukts möglichst gut

differenzieren soll, sind Einbußen bei den Trennschärfen unvermeidlich (vgl.

79

Amelang & Schmidt-Atzert, 2006, S. 120). Sofern die Trennschärfe – wie in der

vorliegenden Arbeit (vgl. 6.1.1) – als Kriterium für die Itemselektion verwendet

wird, besteht damit die Gefahr, Items mit extrem hoher oder niedriger Schwierig-

keit überproportional häufig zu eliminieren. Bühner schlägt daher die Verwen-

dung eines Selektionskennwerts (SK) vor, der die Trennschärfe von Items mit ex-

tremer Schwierigkeit nach oben korrigiert (Bühner, 2006, S. 99):

i

it

SrSK�

�2

rit = Korrelation des Items i mit der Skala t (Gesamttestwert) Si = Standardabweichung des Items i

Der Selektionskennwert ist dabei so konzipiert, dass die Korrektur umso stärker

ausfällt, je weiter sich der Schwierigkeitsindex eines Items den Randbereichen 0

und 100 nähert (Bühner, 2006, S. 100). Die Anwendung des Selektionskennwerts

führt daher dazu, dass sehr leichte und sehr schwere Items im Rahmen der Itemse-

lektion nicht zu häufig aufgrund einer niedrigen Trennschärfe entfernt werden

(vgl. auch 6.1.1).

5.2.3 Distraktorenanalyse

Die Entwicklung und Analyse von Distraktoren (falsche Antwortalternativen; vgl.

3.1) ist von großer Bedeutung für die Qualität geschlossener Itemformate. So

kann der Schwierigkeits- und Komplexitätsgrad eines Items entscheidend durch

die Wahl der Distraktoren gesteuert werden (z. B. Rost, 2004, S. 62 f.). Ebenso ist

die Ratewahrscheinlichkeit bei geschlossenen Items abhängig von den Distrakto-

ren (z. B. Bortz & Döring, 2006, S. 214). Die Qualität der Distraktoren kann

durch eine Kombination inhaltlicher und statistischer Analysen sichergestellt wer-

den (vgl. 6.2.1).

Das statistische Vorgehen besteht hierbei aus zwei Schritten (Lienert & Raatz,

1994, S. 124 f.): Zunächst wird für jede Antwortalternative die prozentuale Häu-

figkeit berechnet, mit der die entsprechende Antwortalternative gewählt wurde,

wobei im optimalen Fall für alle Distraktoren eine ungefähr gleiche Häufigkeit

vorliegt. Es handelt sich hierbei also um die Berechnung der Schwierigkeitsindi-

zes Pi für die richtige Antwortalternative und Pd für alle Distraktoren. Außerdem

erfolgt eine Analyse der Trennschärfe, die für die richtige Antwortalternative ei-

80

nen Wert rit > 0.25 und für alle Distraktoren eine negative Korrelation (rd) erge-

ben sollte. Bei einem MC-Item mit vier Antwortalternativen könnte eine Distrak-

torenanalyse beispielsweise folgendermaßen aussehen:

Tab. 5: Beispiel einer Distraktorenanalyse

Beispielitem (NB = 171) Häufigkeit Pi, Pd rit, rd

Antwortalternative 1 (richtige Antwort) 52 30.40 0.36

Antwortalternative 2 (Distraktor 1) 59 34.50 -0.16

Antwortalternative 3 (Distraktor 2) 56 32.74 -0.17

Antwortalternative 4 (Distraktor 3) 4 2.33 -0.04

Die Analyse der Trennschärfen ergibt das erwartete Ergebnis: Die Korrelation der

richtigen Antwortalternative mit dem Gesamttestwert, welche der Trennschärfe rit

des Items entspricht (vgl. 5.2.2), ist > 0.25, während alle Distraktoren negativ mit

dem Gesamttestwert korrelieren. Die Durchsicht der Häufigkeitsverteilung zeigt

zunächst, dass alle Distraktoren gewählt wurden. Darüber hinaus wird jedoch

deutlich, dass die Distraktoren eins und zwei besonders ‚attraktiv’ sind für Perso-

nen, die die richtige Antwort nicht kennen, während Distraktor drei nur von sehr

wenigen Testpersonen gewählt wird. Solch ein Distraktor ist aus statistischer

Sicht sehr ungünstig, denn es scheint für nahezu alle Testpersonen offensichtlich

zu sein, dass diese Antwortalternative nicht als Aufgabenlösung infrage kommt.

Entsprechend erhöht sich die Ratewahrscheinlichkeit auf 33.33 %, da statistisch

betrachtet bei diesem Item nur noch von drei Antwortalternativen bzw. zwei ‚ech-

ten’ Distraktoren ausgegangen werden kann. Im Zuge der Analyse und Überarbei-

tung eines entsprechenden Items müsste nun der dritte Distraktor näher betrachtet

und evtl. modifiziert werden (vgl. 6.2.1).

5.2.4 Itemfit

Der Itemfit ist ein entscheidender Kennwert, anhand dessen die Qualität eines ein-

zelnen Items beurteilt werden kann. In ihm drückt sich aus, ob ein Item zu den

Annahmen des Rasch-Modells passt, also überhaupt raschskalierbar ist.

Für die Berechnung des Itemfit stehen verschiedene statistische Ansätze zur Ver-

fügung (vgl. Rost, 2004, S. 371 ff.). In der für die vorliegende Arbeit genutzten

Software ConQuest (Wu et al., 1998) werden residuen-basierte Fit-Maße verwen-

81

det. Als Residuen werden die Abweichungen von beobachteten und theoretisch

erwarteten Werten bezeichnet. Bei der Analyse des Itemfit geht es also darum,

wie stark die empirisch beobachteten Itemantworten von den aufgrund des Rasch-

Modells erwarteten Itemantworten abweichen. Zur Beurteilung des Itemfit werden

Fit-Statistiken berechnet, auf deren Basis die Modellverträglichkeit der Items ein-

geschätzt werden kann.

Das in ConQuest verwendete Itemfit-Maß ist der sogenannte ‚weighted mean

square’ (MNSQ), der einen Erwartungswert von 1 hat. Werte nahe 1 deuten somit

auf eine geringe Abweichung von empirischen und erwarteten Werten hin; für

entsprechende Items kann von einem guten Itemfit gesprochen werden. Abb. 14

zeigt die IC-Funktion eines Items mit nahezu exaktem Itemfit (MNSQ = 0.99).

Grafisch wird dies dadurch deutlich, dass die empirischen Werte (Punkte bzw. ge-

strichelte Linie) kaum von den durch das Rasch-Modell angenommenen Werten

(durchgezogene Linie) abweichen.

Abb. 14: Beobachtetes Antwortverhalten und theoretische IC-Funktion eines Items mit gutem Itemfit

Viel diskutiert wird in der Literatur, welche Abweichung vom Erwartungswert to-

lerierbar ist (z. B. Bond & Fox, 2007, S. 235 ff.). Werte < 1 werden im Allgemei-

nen als unproblematisch angesehen, da es sich hierbei um einen ‚Overfit’ handelt;

d. h., entsprechende Items passen ‚zu gut’ zum Modell. Rost erklärt diesen zu-

nächst etwas seltsam anmutenden Fall so, dass in den Daten zu wenig Probabi-

listik ist, d. h., „dass jede Person exakt die Antwortkategorie auswählt, die ihrer

82

Eigenschaftsausprägung entspricht“ (Rost, 2004, S. 374). Problematischer ist hin-

gegen ein ‚Underfit’. Bei Items mit MNSQ-Werten > 1 liegt eine zu geringe Ab-

hängigkeit der Itemantwort von der Eigenschaftsausprägung vor, die Antwortmus-

ter weichen also zu stark von den durch das Rasch-Modell vorhergesagten ab.

Abb. 15 zeigt ein entsprechendes Item mit Underfit.

Abb. 15: Beobachtetes Antwortverhalten und theoretische IC-Funktion eines Items mit schlechtem Itemfit

Konkret schlagen Bond & Fox (2007, S. 243) für Schulleistungsstudien den Wer-

tebereich von 0.8 bis 1.2 als tolerierbare MNSQ-Werte vor. Dieser Wertebereich

wird beispielsweise für die PISA-Studien verwendet (Adams, 2002, S. 105) und

liegt auch der Itemselektion in vorliegender Arbeit zugrunde (vgl. 6.1.1).

Der Itemfit kann außerdem inferenzstatistisch überprüft werden. Hierfür wird der

MNSQ in standard-normalverteilte Maße transformiert, die in ConQuest mit t be-

zeichnet werden (Wu & Adams, 2007, S. 75). Überprüft man mit 5 %iger Irr-

tumswahrscheinlichkeit den Itemfit inferenzstatistisch, so weisen t-Werte außer-

halb des Intervalls [–1.96, 1.96] auf signifikante Abweichungen des MNSQ hin

(Wu & Adams, 2007, S. 82).

83

5.2.5 Globaler Modelltest: Geltung des Rasch-Modells

„Jede Testauswertung beruht auf einem Modell über das Antwortverhalten der Perso-nen in diesem Test. Ob die Testergebnisse etwas über die getesteten Personen aussa-gen und was sie bestenfalls aussagen können, hängt davon ab, ob das bei der Auswer-tung angewendete Testmodell überhaupt auf die erhobenen Daten passt. Dies ist die Frage nach der Modellgültigkeit, die mithilfe von […] Modellgeltungstests zu beant-worten ist.“ (Rost, 2004, S. 330; Hervorhebungen im Original)

Rost weist in diesem Zitat auf einen testtheoretisch entscheidenden Punkt hin: Die

mit einem bestimmten Testmodell ausgewerteten Daten können erst dann sinnvoll

analysiert und interpretiert werden, wenn sichergestellt ist, dass das verwendete

Testmodell tatsächlich auf die Daten passt.

Dem KoMus-Projekt liegt die Annahme zugrunde, dass die Kompetenz ‚Musik

wahrnehmen und kontextualisieren’ als kontinuierliche latente Variable modelliert

werden kann, wobei mit steigender Personenfähigkeit die Wahrscheinlichkeit ei-

ner korrekten Itembearbeitung zunimmt. Entsprechend wurde für die Testauswer-

tung ein passendes probabilistisches Testmodell gewählt. Es ist somit einerseits

von grundlegendem Interesse, ob die theoretischen Annahmen in Bezug auf das

Kompetenzkonstrukt zutreffen und das entsprechend gewählte Rasch-Modell tat-

sächlich ein für die Testauswertung sinnvoll anzuwendendes Testmodell darstellt.

Andererseits ist die Kontrolle der Modellgeltung auch deshalb wichtig, weil eini-

ge der weiteren Analyse- und Interpretationsschritte nur dann sinnvoll durchzu-

führen sind, wenn die Gültigkeit des Rasch-Modells für die Daten sichergestellt

ist. Dies betrifft z. B. die DIF-Analysen (5.2.6) und vor allem die Analysen im

Rahmen der Identifikation von schwierigkeitsgenerierenden Aufgabenmerkmalen

(Kap. 7).

Zur Prüfung der Modellgeltung gibt es verschiedene Verfahren (im Überblick:

Rost, 2004, S. 330 ff.). Die Wahl eines Verfahrens ist primär von der Datenlage

und dem Erkenntnissinteresse abhängig. Soll z. B. entschieden werden, ob ein

Testmodell besser als ein anderes passt, so werden sogenannte ‚informationstheo-

retische Maße’ verwendet. Für die vorliegende Arbeit ist es jedoch von Interesse,

ob das Rasch-Modell ganz grundsätzlich auf die Daten passt. Hierfür kommen

globale Modelltests zum Einsatz, die eine inferenzstatistische Entscheidung hin-

sichtlich der Geltung eines Modells ermöglichen. Die in diesem Zusammenhang

eingesetzten Prüfgrößen sind der Likelihoodquotient und die �2-Statistik, die je-

doch annähernd äquivalent sind und in der Regel zu den gleichen Resultaten füh-

84

ren (Rost, 2004, S. 336). Ein Problem beider Prüfstatistiken ist es, dass die Vor-

aussetzungen für diese statistischen Verfahren nur sehr selten erfüllt sind, insbe-

sondere bei Tests mit einer größeren Anzahl an Items (ebd.). Daher können beide

Verfahren nicht für vorliegende Arbeit verwendet werden. Rost (2004, S. 336 ff.)

verweist jedoch auf eine mögliche Alternative, das sogenannte ‚bootstrap’-

Verfahren.

Beim ‚bootstrapping’ geht es darum, die Prüfverteilung über computersimulierte

Daten zu ermitteln.102 Hierfür verwendet man zunächst einen ‚echten’ Datensatz,

für den die Parameter auf Basis des Rasch-Modells geschätzt wurden. Mit diesen

Paramterschätzungen werden anschließend neue Daten simuliert, von denen man

weiß, dass sie zu dem gewählten Testmodell passen, also in vorliegendem Fall

Rasch-konform sind. Auf diese Weise werden eine größere Anzahl Datensätze

simuliert (in der Regel genügen 100), für die dann jeweils eine �2-Prüfgröße be-

rechnet wird.103 Die so simulierte Prüfverteilung besteht folglich ausschließlich

aus Werten, die durch Rasch-konforme Datensätze generiert wurden und mit de-

nen der �2-Wert der ‚echten’ Daten verglichen werden kann. Zur Beurteilung, ob

das Rasch-Modell auf die empirischen Daten passt oder nicht, wird folgenderma-

ßen vorgegangen: Wenn der �2-Wert der empirischen Daten zu den 5 % höchsten

�2-Werten der simulierten Verteilung gehört, so wird die Gültigkeit des Rasch-

Modells für diesen Datensatz abgelehnt.

Das vollständige bootstrap-Verfahren – sowohl die Simulation der Daten als auch

die Berechnung der Prüfgrößen – ist in WINMIRA (Von Davier, 2001) implemen-

tiert und wurde mithilfe dieser Statistiksoftware für alle Datensätze der neun

Testhefte durchgeführt (vgl. 6.1).

102 Im Folgenden wird das Vorgehen stark zusammengefasst dargestellt. Eine detaillierte Be-schreibung findet sich z. B. bei Bühner (2006, S. 347) und Rost (2004, S. 336 ff.). 103 Von Davier (1997) schlägt darüber hinaus die Verwendung der Cressie-Read-Statistik vor, die eine Abwandlung der �2-Prüfgröße darstellt (vgl. Bühner, 2006, S. 346 f.). Konzeptuell sind die beiden Verfahren vergleichbar, sodass an dieser Stelle keine gesonderte Behandlung der Cressie-Read-Statistik erfolgt. Beide Prüfstatistiken werden standardmäßig von WINMIRA (von Davier, 2001), dem für die Modelltests eingesetzten Programm, ausgegeben und können für vorliegende Arbeit verwendet werden.

85

5.2.6 Differential Item Functioning (DIF)

Wie jedes Testinstrument, so sollte auch ein Kompetenztest valide Messungen für

alle Subgruppen einer Testpopulation ermöglichen (Wu & Adamas, 2007, S. 69).

Daher wird im Rahmen von Rasch-basierten DIF-Analysen untersucht, ob Items

für unterschiedliche Gruppen unterschiedlich gut ‚funktionieren’.104 Die Gruppen

können dabei z. B. in Abhängigkeit von Variablen wie Geschlecht, Migrationshin-

tergrund oder außerschulischem Musikunterricht definiert sein. Bei einem Item

liegt DIF vor, wenn die Lösungswahrscheinlichkeiten des betreffenden Items

nicht vollständig aufgrund von Personenfähigkeit und Itemschwierigkeit erklärt

werden können (Adams & Carstensen, 2002, S. 154). Dies führt dazu, dass Test-

personen mit gleicher Fähigkeit bei DIF-Items unterschiedliche Lösungswahr-

scheinlichkeiten haben. Es geht also bei DIF-Analysen nicht um Gruppenmittel-

wertsunterschiede bezüglich der Personenfähigkeit, sondern darum, dass Items für

verschiedene Gruppen nach der Kontrolle von Gruppenmittelwerten unterschied-

lich schwer oder leicht sind (ebd.). DIF kann z. B. auftreten, wenn ein Item so

formuliert wurde, dass bestimmte Personengruppen besonders benachteiligt oder

übervorteilt sind, da nur ihnen ein zur Aufgabenlösung notwendiges Kontextwis-

sen zur Verfügung steht bzw. fehlt. In diesem Fall spricht man auch von ‚biased’

Items (Ayala, 2009, S. 324 ff.). DIF deutet also auf problematische, ‚unfaire’ I-

tems hin, die daraufhin inhaltlich untersucht werden müssen.

Aus methodischer Sicht basiert eine DIF-Analyse zunächst auf der getrennten

Raschskalierung eines Tests für die interessierenden Subgruppen (z. B. Jungen

und Mädchen).105 Dadurch erhält man für jedes Item eines Tests jeweils zwei (o-

der in Abhängigkeit von der Gruppenvariable auch mehrere) getrennt geschätzte

Itemparameter. Der anschließend durchzuführende Vergleich der resultierenden

Itemparameter kann grafisch in einem Streudiagramm veranschaulicht werden

(vgl. Abb. 16). Man trägt hierbei die Itemparameter der beiden Gruppen gegen-

einander auf, wodurch pro Item ein Punkt entsteht, der idealerweise auf der Gera-

104 Im Folgenden werden die konzeptuellen Grundlagen des ‚Differential Item Functioning’ zu-sammenfassend dargestellt. Eine ausführliche Behandlung der Thematik findet sich z. B. bei Ayala (2009, S. 323); die statistischen Grundlagen sind z. B. bei Lind & Knoche (2004, S. 63 ff.) be-schrieben. 105 In ConQuest wird dies jedoch im Rahmen einer Skalierung durch ein sogenanntes ‚multi-faceted modelling’ durchgeführt (vgl. Wu, Adams & Wilson, 1998). Es wird hierfür ein ‚item-by-facet interaction term’ in das Standardmodell eingefügt, wobei als ‚facet’ die jeweilige Gruppenva-riable fungiert.

86

den (oder zumindest sehr nahe an dieser) liegen sollte. In diesem Fall sind die Pa-

rameterwerte für beide Gruppen (annähernd) gleich. Je weiter ein Punkt jedoch

von der Diagonalen entfernt liegt, desto größer ist die Differenz der Itemparame-

ter und entsprechend groß der DIF-Wert. Abb. 16 veranschaulicht, dass auf diese

Weise Items mit hohen DIF-Werten einfach identifiziert werden können.

-3

-2

-1

0

1

2

3

-3 -2 -1 0 1 2 3

Itemparameter (M)

Item

para

met

er (J

)

Abb. 16: Beispiel für eine grafische Kontrolle auf DIF; Vergleich

der Itemschwierigkeiten für Jungen (J) und Mädchen (M)

Auf Itemebene kann die Kontrolle des DIF auch über die IC-Funktionen erfolgen.

Abb. 17 zeigt ein Item mit sehr hohem DIF. Die Logit-Differenz der Itemparame-

ter beträgt hierbei 0.9. Außerdem ist das Item offensichtlich für Mädchen (obere

IC-Funktion) deutlich einfacher als für Jungen (untere IC-Funktion). Die Inspek-

tion der IC-Funktionen ist auch deshalb aufschlussreich, da u. U. der DIF nicht

über die ganze latente Dimension gleich verläuft (wie in Abb. 17). Möglich ist

auch der Fall, dass beispielsweise ein Item nur für Testpersonen mit niedriger Fä-

higkeitsausprägung DIF aufweist (vgl. Bond & Fox, 2007, S. 93).

87

Abb. 17: Beispiel-Item mit starkem DIF

Der eigentlich wünschenswerte Fall ist in Abb. 18 dargestellt. Hier liegen die IC-

Funktionen für beide Gruppen übereinander; das Item weist also keinen DIF auf.

Abb. 18: Beispiel-Item ohne DIF

Wenngleich grafische DIF-Analysen sehr anschaulich sind, so ist es doch schwie-

rig auf dieser Grundlage zu entscheiden, ob ein ‚substantieller’ DIF vorliegt. Dies

ist vor allem deshalb schwer, da in der Testpraxis fast jedes Item einen gewissen

Grad an DIF aufweisen wird (Wu & Adams, 2007, S. 71). Für die Entscheidung,

ob ein Item ‚substantiellen’ DIF aufweist und evtl. überarbeitet oder aus einem

88

Test eliminiert werden muss, kann einerseits die Größe der Differenz der I-

temschwierigkeiten festgelegt werden, ab der für ein Item von DIF ausgegangen

wird. Andererseits ermöglicht ConQuest einen Signifikanztest des DIF (vgl. Wu

et al., 1998). Nach Wang (2000) ist dann von einem ‚substantiellen’ DIF bezüg-

lich zweier Teilpopulationen auszugehen, wenn die Differenz der Itemschwierig-

keiten signifikant ist und mindestens 0.50 logits beträgt.

5.3 Durchführung der Erhebungen

Ziel des KoMus-Projekts ist die Entwicklung und Validierung eines Kompetenz-

modells und eines darauf basierenden Kompetenztests. Entsprechend wurde im

Rahmen des modellbasierten Aufgabenentwicklungsprozesses ein Itempool gene-

riert (vgl. 4.3). Die entwickelten Items wurden während des gesamten Prozesses

kontinuierlich in Feldtests erprobt und analysiert. Durchgeführt wurden die Tests

mit der in Abschnitt 5.3.1 beschriebenen Stichprobe. Der konkrete Testablauf ist

daran anschließend in Abschnitt 5.3.2 dargestellt.

5.3.1 Stichprobe

Das KoMus-Kompetenzmodell und der darauf basierende Kompetenztest werden

für Schüler der Klassenstufe sechs entwickelt (vgl. 2.2.3). Entsprechend wurde

auch für die Testdurchführungen im Rahmen der Aufgabenentwicklung eine

Stichprobe primär bestehend aus Sechstklässern rekrutiert. Vereinzelt nahmen je-

doch auch Schüler aus fünften und siebten Klassen an den Tests teil. Der Haupt-

teil der Stichprobe bestand aus Klassen der an dem Aufgabenentwicklungsprozess

beteiligten Kooperationslehrer. Darüber hinaus konnten auch einige Parallelklas-

sen an den entsprechenden Schulen gewonnen werden. Insgesamt wurden von

März 2008 bis Februar 2009 alle entwickelten Items im Rahmen von neun Tests

bzw. Testheften erprobt. Beteiligt waren an den Tests jeweils zwei Schulen aus

Bremen (Gymnasium und Sekundarschule/Gymnasium), vier niedersächsische

Schulen (Gymnasium, Realschule, Hauptschule, Gesamtschule) und eine Schule

aus Hessen (Gymnasium). Durchschnittlich nahmen 215 Schüler pro Test teil.

Tab. 6 gibt einen Überblick über die Stichprobenzusammensetzung für jedes

Testheft.

89

Tab. 6: Stichprobengröße und Geschlechtsverhältnis nach Schulart für die realisierte Stichprobe

Testheft 1 (März 2008)

Gym RS HS GS SekS Gesamt

N 58 21 39 - - 118

Testheft 2 (April 2008)

Gym RS HS GS SekS Gesamt

N 109106 21 18 26 - 174

Testheft 3 (Mai 2008)

Gym RS HS GS SekS Gesamt

N 88 25 - 25 14 152

Testheft 4 (Juni 2008)

Gym RS HS GS SekS Gesamt

N 170107 24 21 27108 - 242

Männlich (%)109 48.2 50.0 57.1 26.9 - 47.3

Testheft 5 (Juli 2008)

Gym RS HS GS SekS Gesamt

N 145 40 27 29110 - 241

Männlich (%) 53.8 38.5 58.3 37.0 - 50.6

Testheft 6 (Sep/Okt 2008)

Gym RS HS GS SekS Gesamt

N 120 22 29 54111 - 225

Männlich (%) 53.3 25.0 59.3 41.5 - 50.2

Testheft 7 (Nov 2008)

Gym RS HS GS SekS Gesamt

N 207 27112 29 24 - 287

Männlich (%) 45.9 44.4 60.9 54.5 - 48.4

106 Unter den Gymnasialklassen ist eine fünfte (19 Schüler) und eine siebte Klasse (26 Schüler). 107 Unter den Gymnasialklassen ist eine fünfte Klasse (31 Schüler). 108 Siebte Klasse. 109 Die Variable ‚Geschlecht’ wurde in den Testheften 1-3 noch nicht erhoben. 110 Siebte Klasse. 111 Unter den Gesamtschulklassen ist eine fünfte Klasse (25 Schüler). 112 Es handelt sich um eine siebte Klasse.

90

Testheft 8 (Jan 2009)

Gym RS HS GS SekS Gesamt

N 143 47 27113 25 - 242

Männlich (%) 44.8 33.3 56.5 56.0 - 46.5

Testheft 9 (Feb 2009)

Gym RS HS GS SekS Gesamt

N 173 - 25 29 24 251

Männlich (%) 41.0 - 52.6 48.3 37.5 43.7

Gym = Gymnasium, RS = Realschule, HS = Hauptschule, GS = Gesamtschule, SekS = Sekundarschule114

5.3.2 Testdurchführung

Für die Testdurchführungen wurden die entwickelten Items jeweils im Anschluss

an die Entwicklungssitzungen in ein standardisiertes Testheft übertragen und zu-

sammen mit einer Audio-CD und Anweisungen (Testleiter-Manual) an die Ko-

operationslehrer zur Erprobung mit ihren Klassen bzw. mit Klassen von Kollegen

versandt. Die Testdurchführung erfolgte als Gruppentestung, wobei die Hörbei-

spiele über eine zentrale Klangquelle abgespielt wurden. Für die Bearbeitung der

Tests stand eine Stunde des Musikunterrichts (45 Min.) zur Verfügung.115 Zusätz-

lich zu den Testheften erhielt jeder Schüler und Lehrer einen Rückmeldebogen

(Anhang B und C), sodass Verständnisschwierigkeiten und sonstige Probleme bei

der Testdurchführung sofort festgehalten werden konnten. Die bearbeiteten Test-

113 Es handelt sich um eine siebte Klasse. 114 Die Sekundarschule ist eine Schulart des Landes Bremen. Sie wird von Schülern besucht, die früher in der Haupt- und Realschule unterrichtet wurden. Bis Jahrgangsstufe 8 werden alle Schüler gemeinsam unterrichtet (Ausnahme: Englisch, Mathematik und Deutsch). Am Ende der Jahr-gangsstufe 8 erfolgt aufgrund des Leistungsstandes eine Zuordnung zu dem Schwerpunkt zur Er-langung der Berufsbildungsreife oder dem Schwerpunkt zur Erlangung des Mittleren Schulab-schlusses (vgl. Senatorin für Bildung und Wissenschaft Bremen, 2009). 115 In der Literatur werden zeitlich begrenzte Tests auch als ‚Speedtests’ bezeichnet (vgl. z. B. Amelang & Schmidt-Atzert, 2006, S. 112). Grundsätzlich waren die Testhefte jedoch als ‚Niveau-tests’ konzipiert (ebd.): Alle Items sollten also von den Testpersonen innerhalb einer Schulstunde bearbeitet werden können. Vereinzelt kam es jedoch vor, dass Klassen den Test nicht innerhalb der 45 Minuten beenden konnten (z. B. aufgrund eines verzögerten Testbeginns). Die dadurch nicht bearbeiteten Items wurden von den Lehrern markiert und im Rahmen der Auswertung als ‚nicht bearbeitet’ (= fehlende Werte, die nicht als falsche Itembearbeitung gewertet werden) behandelt. Dies ist im Rahmen des Rasch-Modells und insbesondere unter Verwendung der Software Con-Quest unproblematisch, da trotz einer gewissen Anzahl an fehlenden Werten alle Item- und Perso-nenparameter geschätzt werden können.

91

materialien wurden spätestens eine Woche vor der nächsten Entwicklungssitzung

zur Auswertung an den Autor zurückgeschickt und bilden somit die Datengrund-

lage für die in den folgenden Kapiteln dargestellten Itemanalysen.

92

6 Itemanalysen und -selektion

Ein zentrales Ziel der vorliegenden Arbeit ist die Entwicklung eines Itempools,

der in psychometrischer Hinsicht soweit abgesichert ist, dass die Items für die Va-

lidierung des Kompetenzmodells im Rahmen der Pilotierungsstudie verwendet

werden können. Um dies zu gewährleisten, werden die in Kapitel 5 beschriebenen

methodischen Verfahren für die sogenannte ‚Itemselektion’ eingesetzt.

Des Weiteren ist die Itemselektion aber auch eine wichtige Voraussetzung für ein

weiteres Ziel der Arbeit, die Identifikation schwierigkeitsgenerierender Aufga-

benmerkmale (vgl. Kap. 7). Die in diesem Rahmen notwendigen vertiefenden und

vergleichenden Analysen können nur dann sinnvoll durchgeführt werden, wenn

die psychometrische Qualität der Items sichergestellt ist. Dies gilt insbesondere

für die empirischen Analysen zur Überprüfung der identifizierten Aufgaben-

merkmale (vgl. 7.6).

6.1 Statistische Überprüfung der Items und Tests

Die Itemselektion ist ein mehrschrittiges Verfahren, bestehend aus verschiedenen

Analysemethoden (vgl. 5.2). Angewandt wurde das Selektionsverfahren auf jedes

Testheft direkt im Anschluss an die Testdurchführungen. Im Rahmen der Selekti-

on wurden die Items eines Testhefts in drei Kategorien eingeteilt: (1) selektierte

Items, die in den Itempool übernommen werden können, (2) zu überarbeitende

und (3) zu eliminierende Items. Die für eine Überarbeitung vorgesehenen Items

konnten dann in modifizierter Fassung in eines der folgenden Testhefte aufge-

nommen und erneut empirisch überprüft werden. Dadurch ergab sich ein zirkulä-

rer Prozess der Überprüfung und Überarbeitung mit dem Ziel der Selektion von

möglichst hochwertigen Items für den Itempool.

Im folgenden Abschnitt (6.1.1) werden zunächst die Selektionskriterien darge-

stellt. Abschnitt 6.1.2 verdeutlicht den Selektionsprozess exemplarisch anhand ei-

nes Testhefts. Die Ergebnisse der Itemselektion sind abschließend in Abschnitt

6.1.3 (bzw. Anhang A) zusammengefasst.

93

6.1.1 Kriterien der Itemselektion

Im Zusammenhang mit der Darstellung der Analyseverfahren (5.2) wurden bereits

eine Reihe der verwendeten Selektionskriterien erwähnt. Diese werden an dieser

Stelle nochmals zusammengefasst und teilweise ergänzt. Es erfolgt hierfür eine

Unterteilung in ‚Beachtungs-’ und ‚Ausschlusskriterien’. Liegt für ein Item ein

Ausschlusskriterium vor, so kann es nicht direkt in den Itempool übernommen

werden, sondern muss entweder überarbeitet (und erneut erprobt) oder eliminiert

werden. Aufgrund von Beachtungskriterien wird ein Item als ‚auffällig’ eingestuft

und muss inhaltlich nochmals genauer analysiert werden. Die verschiedenen Kri-

terien werden im Folgenden genauer dargestellt.

Ausschlusskriterien

Klassische Itemschwierigkeit

Die Berechnung der klassischen Itemschwierigkeit erfolgt mittels der Schwierig-

keitsindizes Pi, PIK und PZK (vgl. 5.2.1). In der Regel werden für Testkonstruktio-

nen Itemschwierigkeiten in einem mittleren Bereich (P zwischen 20 und 80) an-

gestrebt (z. B. Bortz & Döring, 2006, S. 219). Im Rahmen des KoMus-Projekts

sollen jedoch ein Kompetenztest und -modell entwickelt werden, die eine Diffe-

renzierung möglichst über das gesamte Fähigkeitsspektrum gewährleisten.116

Wenn also auch in den Randbereichen einer Merkmalsverteilung differenziert

werden soll, schlagen Amelang & Schmidt-Atzert (2006, S. 120) die Verwendung

eines weiter ausgedehnten Bereichs vor (P zwischen 5 und 95). Entsprechend

werden in der vorliegenden Arbeit Items mit einem Schwierigkeitsindex

95 > P > 5 selektiert bzw. Items überarbeitet/eliminiert, die von weniger als 5 %

oder mehr als 95 % der Testpersonen gelöst werden.

Itemschwierigkeit (Rasch-Modell)

Die Schwierigkeit eines Items ist im Rasch-Modell durch den Itemparameter defi-

niert (vgl. 5.2.1). Die Itemparameter sind von großer Bedeutung für den Vergleich

116 Diese Anforderung liegt einerseits darin begründet, dass Test und Modell für alle Schularten einsetzbar sein sollen, weshalb eine große Leistungsheterogenität und -breite antizipiert wird. An-dererseits kann dadurch u. U. leichter eine Anschlussfähigkeit für spätere Weiterentwicklungen er-zielt werden, wenn z. B. der Test für Schüler einer höheren Jahrgangsstufe eingesetzt bzw. modifi-ziert werden soll.

94

von Itemschwierigkeiten (vgl. Kap. 7), sowie für den Abgleich von erwarteter (auf

Basis des theoretischen Modells) und empirisch gemessener Schwierigkeit. Items

werden selektiert, wenn die Itemparameter einen Wert aufweisen, der theoretisch

plausibel ist. Weicht ein Item jedoch extrem von der anvisierten Schwierigkeit ab,

so muss es überarbeitet oder ggf. eliminiert werden.117

Bei mehrkategoriellen Items ist im Rahmen der Itemselektion die ordinale Abfol-

ge der Thurstonian thresholds gemäß der Kategorienreihenfolge zu kontrollieren.

Items werden selektiert, wenn die als jeweils schwerer angenommenen Kategorien

auch eine höhere empirisch gemessene Schwierigkeit aufweisen.

Trennschärfe

Die Itemtrennschärfe wurde ausführlich in Abschnitt 5.2.2 behandelt. Das Selek-

tionskriterium für ein Item ist eine Trennschärfe von rit > .25 (OECD, 2005,

S. 123). Bei Items mit extremen Schwierigkeitsindizes wird außerdem der Selek-

tionskennwert (SK) angewendet (vgl. Bühner, 2006, S. 99), für den ebenfalls ein

Wert von SK > .25 als Selektionskriterium erforderlich ist.

Außerdem sollten falsche Antwortalternativen eine negative Trennschärfe aufwei-

sen. Im Anschluss an die PISA-Studien gilt auch für vorliegende Arbeit die

Trennschärfe einer falschen Antwortalternative bis zu einem Wert von .05 als to-

lerierbar, wenn mindestens 10 Testpersonen die entsprechende Kategorie ausge-

wählt haben (OECD, 2005, S. 127).118

Bei mehrkategoriellen Items ist darüber hinaus zu kontrollieren, dass die Trenn-

schärfen der Kategorien aufsteigend geordnet sind (OECD, 2005, S. 123).

Distraktoren

Ein weiteres Selektionskriterium für geschlossene Itemformate ist die Qualität der

Distraktoren (vgl. 5.2.3). Selektiert werden Items, deren Distraktoren einen unge-

117 So z. B. wenn ein Item explizit für die Erfassung von basalen Kompetenzen konstruiert ist, sich aber empirisch eine sehr hohe Itemschwierigkeit ergibt (z. B. �i = 3.5 logits); vgl. hierzu auch die Ausführungen in Abschnitt 6.2.3. 118 Falls eine Antwortalternative von weniger als 10 Personen gewählt wurde, wird die Trenn-schärfe nicht beachtet.

95

fähr gleichen Schwierigkeitsindex und gleichzeitig eine negative Trennschärfe

aufweisen.119

Itemfit (MNSQ)

Der Itemfit wird mit der Software ConQuest in Form des residuen-basierten

‚weighted mean square’ (MNSQ) berechnet.

Der in der Literatur häufig vorgeschlagene (z. B. Bond & Fox, 2007, S. 243) und

vor allem bei Schulleistungsstudien (z. B. Adams, 2002, S. 105) verwendete Be-

reich des MNSQ von 0.8 bis 1.2 wird auch für die vorliegende Arbeit als Selekti-

onskriterium festgelegt. Items innerhalb dieses Bereiches werden selektiert, wäh-

rend Items mit signifikanten Werten < 0.8 oder > 1.2 überarbeitet oder ggf. aus

dem Itempool eliminiert werden.

Globaler Modelltest

Der methodische Hintergrund globaler Modelltests ist in Abschnitt 5.2.5 be-

schrieben. Ein entsprechender Modelltest wird für die selektierten Items jedes

Testhefts durchgeführt. Zum Einsatz kommt hierbei das Statistikprogramm WIN-

MIRA (von Davier, 2001), das die Berechnung der �2- und Cressie-Read-

Prüfgröße mittels bootstrap-Verfahren ermöglicht. Die Modellgeltung wird im

Rasch-Modell als Nullhypothese spezifiziert, sodass ein signifikanter Modelltest

zur Ablehnung der Gültigkeit des Rasch-Modells führt (Bühner, 2006, S. 342).

Auf Basis eines Signifikanzniveaus von � = .05 bestätigen folglich Werte der

Prüfgrößen von p > .05 die Gültigkeit des Rasch-Modells für die verwendeten I-

tems.

Die globale Modelltestung wird jeweils als abschließender Schritt der Itemselek-

tion durchgeführt, d. h. die bis zu diesem Zeitpunkt selektierten Items weisen in

aller Regel bereits eine relativ hohe psychometrische Qualität auf. Dementspre-

chend führt die Modelltestung in den meisten Fällen zu einer Annahme des

Rasch-Modells. Führt ein Modelltest jedoch zur Ablehnung des Rasch-Modells,

so stellt WINMIRA ein weiteres Fit-Maß (vgl. 5.2.4) zur Verfügung, sogenannte

Q-Indizes (vgl. Bühner, 2006, S. 365 f.; Rost, 2004, S. 371 ff.). Der Q-Index ist

119 Es gilt auch in Bezug auf die Trennschärfe der Distraktoren die in vorangegangenem Abschnitt formulierte Toleranzgrenze.

96

konzeptuell dem MNSQ vergleichbar. Aus statistischer Sicht handelt es sich je-

doch nicht um ein residuen-basiertes, sondern um ein likelihood-basiertes Fit-

Maß. Ein Q-Index > .30 deutet auf ein problematisches Item hin, das für einen er-

neuten Modelltest eliminiert werden sollte. Dadurch kann es vorkommen, dass

vereinzelte Items auch noch im Rahmen der Überprüfung der Modellgültigkeit

aus einem Testheft entfernt werden müssen bzw. der Überarbeitung bedürfen.

Beachtungskriterien

Ergänzend zu den Ausschlusskriterien wurden auch Beachtungskriterien für die

Itemanalyse und -selektion verwendet. Wie bereits erwähnt führen diese nicht

zwangsläufig zu einer Überarbeitung bzw. Elimination der betreffenden Items.

Sofern für ein Item ein Beachtungskriterium vorliegt, muss jedoch eine genauere

inhaltliche Analyse vorgenommen werden, was in der Regel im gemeinsamen

Diskurs im Rahmen der Sitzungen des Entwicklungsteams erfolgte.

Differential Item Functioning (DIF)

Aufgrund der Stichprobengröße und -beschaffenheit kommen DIF-Analysen (vgl.

5.2.6) nur in sehr begrenztem Umfang zum Einsatz. Bei einer Unterteilung der

Stichprobe in verschiedene Subgruppen (z. B. Schüler mit/ohne Migrationshin-

tergrund, Schüler mit/ohne außerschulischem Musikunterricht) ergeben sich z. T.

so kleine Teilstichproben, dass DIF-Analysen in Bezug auf diese Subgruppen aus

statistischer Sicht nicht sinnvoll durchgeführt werden können.120

Aufgrund der Datenlage erfolgen DIF-Analysen lediglich für die Gender-Variable

(Jungen/Mädchen). Ein substantieller DIF wird dabei als Beachtungskriterium

eingestuft, sodass entsprechende Items zwar nicht direkt eliminiert werden, jedoch

speziell inspiziert und evtl. überarbeitet werden müssen. Ein besonderes Augen-

merk liegt dabei darauf, ob es sich bei den Items mit substantiellen DIF-Werten

um ‚biased’ Items handelt (vgl. Ayala, 2009, S. 324 ff.), d. h. in diesem Fall, dass

der DIF in irgendeiner Form inhaltlich mit dem Geschlecht der Testpersonen in

Verbindung gebracht werden kann.

120 Außerdem wurden die entsprechenden Hintergrundvariablen nicht über alle Testhefte hinweg erhoben, da das Instrumentarium erst im Laufe der Tests entwickelt und teilweise modifiziert wur-de.

97

Fehlende Werte

Ein weiteres Beachtungskriterium ist die Analyse fehlender Werte. Grundsätzlich

wurde in den Testinstruktionen darauf hingewiesen, dass jedes Item beantwortet

werden soll. Sofern eine Testperson unsicher bezüglich einer Antwort war, so

sollte sie diejenige wählen, die ihrer Meinung nach am besten passt. Trotzdem

zeigt sich bei der Testauswertung, dass für verschiedene Items eine relativ hohe

Anzahl an fehlenden Werten vorliegt. Dies betrifft in besonderem Maße offene I-

tems, da hier keine Antwortalternativen vorgegeben sind. Eine Häufung fehlender

Werte kann prinzipiell zweierlei bedeuten: (1) Ein entsprechendes Item ist sehr

schwer, sodass es vielen Testpersonen nicht möglich ist, eine adäquate Antwort zu

formulieren bzw. auszuwählen. In diesem Fall stellen fehlende Werte kein Prob-

lem dar, sie können einfach als falsche Itembearbeitungen gewertet werden. (2)

Fehlende Werte sind aufgrund von nicht adäquaten Aufgabenstellungen zustande

gekommen. Dies ist problematisch und kann z. B. der Fall sein, wenn die Aufga-

benstellung unklar formuliert ist, das Itemformat hinsichtlich seiner technischen

Bearbeitung zu komplex ist oder der Itemstamm eine große Textmenge enthält,

sodass leseschwache Schüler benachteiligt sind und evtl. die Aufgabe aufgrund

des hohen Leseaufwands nicht bearbeiten.121 In den genannten Fällen deuten feh-

lende Werte weniger auf eine mangelnde musikspezifische Kompetenz hin denn

vielmehr auf Probleme im Umgang mit der Aufgabenstellung oder Defizite in

nicht-musikspezifischen Kompetenzen (z. B. Lesekompetenz).

Als Beachtungskriterium werden 10 % fehlende Werte festgelegt. Ein Item ist

dementsprechend genauer zu analysieren, wenn mehr als 10 % der Testpersonen

auf ein entsprechendes Item nicht antworten.

Zusammenfassung

Tab. 7 fasst die in den vorangegangenen Abschnitten dargestellten Ausschluss-

und Beachtungskriterien noch einmal zusammen.

121 Der letztgenannte Fall ist vor allem deshalb problematisch, da mit den Items musikspezifische Kompetenzen erfasst werden sollen. Können nun aber Items aufgrund ihrer sprachlichen Anforde-rungen von einigen Schülern nicht korrekt bearbeitet werden, so wird durch die entsprechenden I-tems eben nicht die anvisierte Kompetenz erfasst. Es muss in solch einem Fall offen bleiben, ob die Schüler über die durch ein Item eigentlich geforderte musikspezifische Kompetenz verfügen und diese evtl. ‚zeigen’ könnten, falls das Item anders konstruiert wäre.

98

Tab. 7: Zusammenfassung der psychometrischen Kriterien der Itemselektion

Analyse Ausschlusskriterien

Klassische Itemschwierigkeit � Pi, PIK oder PZK liegen außerhalb des Intervalls [5, 95].

Itemschwierigkeit (Rasch-Modell)

� Starke Abweichung von theoretischer und empirischer Itemschwierigkeit.

� Thurstonian thresholds sind nicht gemäß der Kategorienrei-henfolge geordnet.

Trennschärfe � Itemtrennschärfe rit ist kleiner als 0.25 (bzw. SK kleiner als 0.25).

� Trennschärfe von falschen Antwortalternativen/-kategorien ist größer als 0.05.

� Bei mehrkategoriellen Items sind die Trennschärfen nicht gemäß der Kategorienreihenfolge geordnet.

Distraktoren � Schwierigkeitsindizes der Distraktoren weichen stark von-einander ab.

� Trennschärfe eines Distraktors ist größer als 0.05.

Itemfit � MNSQ liegt außerhalb des Intervalls [0.80, 1.20] und der da-zugehörige t-Wert außerhalb des Intervalls [-1.96, 1.96].

Globaler Modelltest � Signifikanter Modelltest (�2- und Cressie-Read-Prüfgröße: p � .05).

Analyse Beachtungskriterien

Differential Item Functioning � Ein signifikanter DIF ist größer als 0.50 logits.

Fehlende Werte � Bei einem Item liegen mehr als 10 % fehlende Werte vor.

Items wurden jedoch nicht nur hinsichtlich psychometrischer Kriterien analysiert

und selektiert. Überaus hilfreich für die Analyse und Optimierung der Items waren

auch die Rückmeldebögen von Schülern und Lehrern (Anhang B und C). Tauch-

ten hierbei mehrfach Verständnisschwierigkeiten oder anderweitige Probleme bei

der Bearbeitung bestimmter Items auf, so wurde ein Item zur Überarbeitung vor-

gesehen, auch wenn die psychometrischen Kriterien erfüllt waren. Darüber hinaus

wurden alle (psychometrisch) selektierten Items auch aus fachdidaktischer Per-

spektive nochmals hinsichtlich ihrer Eignung bewertet, was in der Regel im Rah-

men der Entwicklungssitzungen geschah. Somit erfolgte der Entwicklungs- und

Analyseprozess einerseits auf Basis psychometrischer Kriterien, konnte aber auch

durchgängig von einer fachdidaktischen und schulpraktischen Diskussion der I-

tems begleitet werden. Diese fachdidaktische und schulische Verankerung der

99

Aufgabenentwicklung führte immer wieder dazu, dass aus psychometrischer Sicht

bereits akzeptierte Items überarbeitet oder auch eliminiert werden mussten.122

6.1.2 Exemplarische Darstellung des Selektionsprozesses

Angesichts der großen Anzahl an Items und Testheften gestaltet sich der Selekti-

onsprozess relativ umfangreich. Eine detaillierte Darstellung der einzelnen Analy-

seschritte kann daher an dieser Stelle nicht für alle Items erfolgen. Exemplarisch

wird der Selektionsprozess im Folgenden zuerst anhand von Testheft Nr. 7 und

anschließend Testheft Nr. 4 verdeutlicht.

Die Itemselektion ist ein sequentielles Verfahren mit dem Ziel, innerhalb mehrerer

Analyseschritte die Items zu identifizieren, die den vorab festgelegten psychomet-

rischen Kriterien genügen. In der Regel sind hierfür mindestens zwei und maxi-

mal vier Analysedurchgänge notwendig, wobei innerhalb jedes Durchgangs eine

erneute Raschskalierung der zu diesem Zeitpunkt selektierten Items durchgeführt

wird. Tab. 8 - Tab. 11 zeigen die vier Analysedurchgänge für Testheft 7. Sofern für

ein Item ein Ausschlusskriterium vorliegt, ist das entsprechende Tabellenfeld o-

range hinterlegt; Beachtungskriterien sind gelb hinterlegt. Weitere auffällige Item-

kennwerte sind grün gekennzeichnet.

Selektionsprozess Testheft Nr. 7

Analyse 1 (Tab. 8)

Vor der eigentlichen Analyse bedarf es noch einer kurzen Vorbemerkung zu Rich-

tig-Falsch-Aufgaben bzw. -Items: Aufgrund der hohen Ratewahrscheinlichkeit

wurden Richtig-Falsch-Aufgaben prinzipiell als ein Block, bestehend aus mehre-

ren einzelnen Richtig-Falsch-Items, konstruiert (vgl. 4.3). Wenngleich Richtig-

Falsch-Aufgaben letztendlich immer ‚als Ganzes’ ausgewertet und analysiert wer-

den,123 so ist es für eine erste Analyse oft hilfreich, die Einzelitems separat zu be-

handeln. Für jedes dieser separaten Items kann somit bestimmt werden, ob es

sinnvollerweise in die gesamte Richtig-Falsch-Aufgabe zu integrieren ist oder ob

eine Überarbeitung/Eliminierung einzelner Items notwendig erscheint. In Test-

122 Ein Beispiel für ein entsprechendes Item ist in Abschnitt 6.2.3 dargestellt. 123 Beispiel: Eine Richtig-Falsch-Aufgabe, die aus sechs Einzelfragen besteht, könnte als richtig gewertet werden, wenn von einer Testperson mindestens fünf der sechs Fragen gelöst wurden.

100

heft 7 ist eine Richtig-Falsch-Aufgabe (D3-4a-I) – bestehend aus insgesamt neun

Items – enthalten, die im Folgenden noch näher betrachtet wird.

Im Rahmen des ersten Analysedurchgangs werden zunächst die Itemkennwerte

für alle Items eines Testhefts berechnet. Tab. 8 enthält die resultierenden Werte.

Die Item-ID gibt hierbei einerseits Aufschluss über die Zuordnung eines Items zu

den Dimensionen des theoretischen Modells (D1 = Dimension 1, D2 = Dimensi-

on 2 etc.) und andererseits hinsichtlich des Überarbeitungsstatus. Handelt es sich

um ein neu entwickeltes Item, so enthält die ID am Ende eine ‚I’. Wurde das Item

hingegen bereits einmal überarbeitet, so wird eine ‚II’ angehängt usw. Ein einge-

klammertes ‚f’ am Ende der ID steht für ‚final’ und markiert die Endfassung eines

Items. In dieser Fassung wird ein Item entweder eliminiert oder selektiert, es wer-

den jedoch keine weiteren Änderungen mehr vorgenommen.

Die Analyse der klassischen Schwierigkeitsindizes zeigt zunächst, dass sich fast

alle Items in dem geforderten Schwierigkeitsbereich (P zwischen 5 und 95) befin-

den. Bei Betrachtung des zufallskorrigierten Index (PZK) fallen jedoch einige I-

tems mit negativen Werten auf (D4-3b-1/5-I und die drei einzelnen Items D3-4a-

4-I, D3-4a-5-I, D3-4a-9-I des Richtig-Falsch-Items). Der Schwierigkeitsindex mit

Zufallskorrektur kann negative Werte annehmen, wenn sehr viele falsche Antwor-

ten und eine geringe Anzahl an Auswahlmöglichkeiten vorliegen. Dies ist proble-

matisch, da ein negativer Schwierigkeitsindex nicht definiert ist und daher nicht

interpretiert werden kann; „in einem solchen Fall wird die Ratewahrscheinlichkeit

schlicht überschätzt“ (Bühner, 2006, S. 85). Nichtsdestotrotz kann ein negativer

Schwierigkeitsindex auf potentiell problematische Items hindeuten, die daraufhin

genauer zu untersuchen sind (vgl. auch Lienert & Raatz, 1994). Die Items D4-3b-

1/5-I und D3-4a-9-I weisen außer dem negativen Schwierigkeitsindex keine wei-

teren psychometrischen Auffälligkeiten auf.124 Auch aus inhaltlicher Sicht er-

scheinen diese beiden Items unproblematisch und werden daher in die nachfol-

gende Analyse übernommen. Anders stellt sich die Situation in Bezug auf die I-

tems D3-4a-4-I und D3-4a-5-I dar: Beide Items weisen eine zu niedrige Trenn-

schärfe auf. Darüber hinaus sind aber auch beide Items häufig in den Rückmelde-

bögen vermerkt. Sowohl Lehrer als auch Schüler beanstanden Verständnisschwie-

rigkeiten in Bezug auf die Frageformulierung. Vor diesem Hintergrund werden

124 Die hohe Anzahl an fehlenden Werten bei D3-4a-9-I wird weiter unten behandelt.

101

beide Items in der zweiten Analyse nicht berücksichtigt: D3-4a-4-I wird aus dem

Itempool eliminiert, während D3-4a-5-I überarbeitet und erneut erprobt werden

muss.125

In Bezug auf die Itemschwierigkeit (Rasch-Modell) gilt es zunächst die theore-

tisch erwartete mit der empirisch gemessenen Schwierigkeit abzugleichen. Die I-

tems wurden in aller Regel für ein bestimmtes Schwierigkeitsniveau des theoreti-

schen Modells entwickelt (vgl. 2.2.3). Beim Abgleich der Schwierigkeiten ist

dementsprechend zu kontrollieren, ob die Items tatsächlich eine niedrige (ca. -3

bis -1 logits), mittlere (ca. -1 bis 1 logits) oder hohe Schwierigkeit (ca. 1 bis 3 lo-

gits) aufweisen, da das Modell drei Niveaus unterscheidet. Bei deutlichen Abwei-

chungen müssen Items überarbeitet oder eliminiert werden, was in Testheft 7 je-

doch nicht der Fall ist: Alle Itemschwierigkeiten befinden sich ungefähr in den

anvisierten Bereichen.

In Testheft 7 sind vier mehrkategorielle Items vorhanden: D3-9a-I, D3-9b-I, D3-

9c-I und D2-7c-I. Für diese Items ist zu überprüfen, ob die Thurstonian thresholds

der Kategorienreihenfolge entsprechen. Die Kennwerte in Tab. 8 bestätigen dies:

Eine als schwerer angenommene Kategorie weist auch jeweils eine höhere empiri-

sche Schwierigkeit auf (Beispiel D2-7c-I: Kategorie 1 = -0.90 logits, Kategorie

2 = -0.01 logits, Kategorie 3 = 1.81 logits).

Die Itemtrennschärfe wurde bereits kurz im Zusammenhang mit den beiden Items

D3-4a-4-I und D3-4a-5-I erwähnt. Betrachtet man auch alle übrigen Items hin-

sichtlich ihrer Trennschärfe, so fallen noch weitere Items mit einem Wert < .25

auf: D4-3a-1/3-I, D4-3a-3/3-I, D4-3b-3/5-I und D2-7b-I. Bei den beiden zuerst

genannten erbringt auch die Korrektur durch den Selektionskennwert (SK) keine

entscheidende Verbesserung, sodass beide Items überarbeitet werden müssen. I-

tem D2-7b-I weist hingegen einen extremen Schwierigkeitsindex auf (13.24), so-

dass sich ein Selektionskennwert von 0.32 ergibt und das Item in die folgende

Analyse übernommen werden kann. Item D4-3b-3/5-I verfehlt mit 0.24 den ak-

zeptablen Trennschärfebereich nur äußerst knapp. Innerhalb der ersten Analyse-

phase wurde in solch einem Fall zumeist so verfahren, dass ein entsprechendes I-

125 Im Rahmen der Itementwicklung standen aus zeitlichen Gründen nur neun Testungen zur Ver-fügung. Daher konnten nicht alle der zu überarbeitenden Items erneut vorerprobt werden. Entspre-chende Items (wie z. B. D3-4a-5-I) wurden innerhalb der ersten Stufe der Pilotierungsstudie er-probt (in den Tabellen sind die betreffenden Items mit Ü* gekennzeichnet).

102

tem unter Vorbehalt im Analyseprozess verblieb. Da die Trennschärfe eines Items

mit den Trennschärfen aller Items eines Tests zusammenhängt, ändert sich diese

in Abhängigkeit der selektierten und eliminierten Items. Da in der folgenden Ana-

lyse einige Items bereits eliminiert sind, ist es denkbar, dass sich die Trennschärfe

der verbliebenen Items erhöht. Tab. 9, Tab. 10 und Tab. 11 bestätigen dies, insbe-

sondere auch für Item D4-3b-3/5-I, das dort Trennschärfewerte zwischen 0.25 und

0.28 erhält.126

Das Testheft enthält eine Reihe von Multiple-Choice-Items: D4-3b-1/5-I, D4-3b-

2/5-I, D4-3b-3/5-I, D4-3b-4/5-I, D4-3b-5/5-I, D3-4b-I und D1-7-I. Die Distrakto-

renanalysen ergeben hierbei durchgängig zufriedenstellende Ergebnisse: Die Dis-

traktoren weisen jeweils einen ungefähr gleichen Schwierigkeitsindex und gleich-

zeitig eine negative Trennschärfe auf.127 Dies ist jedoch eher als Ausnahme zu be-

trachten. In der Regel waren in einem Testheft immer auch Items – insbesondere

bei der ersten Erprobung von neu entwickelten Items –, bei denen zumindest ein

Distraktor schlechte Werte aufwies (vgl. auch Analyse Testheft 4).

Die Betrachtung des Itemfit zeigt, dass keines der Items das Ausschlusskriterium

erreicht: der MNSQ liegt für alle Items innerhalb des geforderten Intervalls von

[0.80, 1.20]. Ein Großteil der Items weist sogar einen sehr guten Itemfit auf mit

MNSQ-Werten nahe 1.

In Bezug auf das Beachtungskriterium der fehlenden Werte ergeben sich für sechs

der neun Einzelitems des Richtig-Falsch-Items D3-4a-I kritische Werte. Für alle

anderen Items des Testhefts liegen die fehlenden Werte durchweg unter 10 %. Die

beiden Einzelitems D3-4a-4-I und D3-4a-5-I wurden bereits ausgeschlossen

(s. o.), sodass für die verbleibenden vier Items nach möglichen Gründen für die

fehlenden Werte zu fragen ist. Nach Rücksprache mit den Kooperationslehrern

scheint dies hauptsächlich in der Schwierigkeit der Aufgabe begründet zu liegen.

126 Die weiteren Ausschlusskriterien in Bezug auf die Trennschärfe (Trennschärfe > .05 von fal-schen Antwortalternativen/-kategorien, nicht geordnete Trennschärfe bei mehrkategoriellen Items; vgl. 6.1.1) konnten im Verlaufe des gesamten Selektionsprozesses nur höchst selten festgestellt werden (in Testheft 7 liegt z. B. für keines der Items ein betreffendes Ausschlusskriterium vor). Es wurde daher für diese Kriterien auf eine separate Spalte in der Tabellendarstellung verzichtet. In den erwähnten seltenen Fällen wurde das Vorliegen eines entsprechenden Ausschlusskriteriums in der letzten Spalte (Anmerkungen) vermerkt. 127 Aus Gründen der Übersichtlichkeit sind die einzelnen Werte hierbei nicht für jeden Distraktor in Tab. 8 angegeben. Im Falle eines schlechten Distraktors wären jedoch die Nummer des Distrak-tors und der Wert des Ausschlusskriteriums angegeben.

103

Es handelt sich hierbei um eine sehr komplexe Aufgabe, die hohe Anforderungen

an das musiktheoretische Wissen und die Notenlesefähigkeiten der Testpersonen

stellt. Gemäß der Lehrerrückmeldungen war diese Aufgabe für einen gewissen

Teil der Schüler schlicht zu schwer, sodass viele Schüler die Aufgabe im An-

schluss an den Itemstamm nicht mehr weiterbearbeiteten. Dies ist insofern un-

problematisch, da die betreffende Aufgabe explizit für sehr leistungsstarke Schü-

ler bzw. für die Erfassung des höchsten Kompetenzniveaus konstruiert ist. Es er-

scheint daher gerechtfertigt, die fehlenden Werte als falsche Aufgabenbearbeitun-

gen zu werten und die betreffenden Items in die folgende Analyse zu übernehmen.

Zusammenfassung: Der erste Analysedurchgang ergibt für den überwiegenden

Teil der Items akzeptable Werte. Lediglich die Items D4-3a-1/3-I und D4-3a-3/3-I

werden nicht in die nachfolgende Analyse übernommen. Darüber hinaus werden

D3-4a-4-I und D3-4a-5-I für die Auswertung des Richtig-Falsch-Items nicht be-

rücksichtigt.

104

Tab.

8:

Item

sele

ktio

n Te

sthe

ft 7

– A

naly

se 1

(alle

Item

s des

Tes

thef

ts)

Item

-ID

K

urzb

esch

reib

ung

P i /P

IK

P ZK

Item

schw

ieri

g-ke

it (R

asch

) M

NSQ

r it

SK

Fe

hlen

de

Wer

te (%

) D

istra

kt.

Anm

. S/

Ü/E

D1-

6-I

Mot

ivis

che

Ver

ände

rung

: fra

nz.

Hym

ne -

Tcha

ikov

sky

45.9

9 -

-0.0

3 0.

98

0.38

-

0.35

-

- -

D4-

3a-1

/3-I

K

ultu

relle

r Kon

text

: tür

kisc

he

Mus

ik

75.6

1 -

-1.4

1 1.

09

0.16

0.

19

- -

- Ü

*

D4-

3a-2

/3-I

K

ultu

relle

r Kon

text

: bay

eris

che

Bla

smus

ik

60.6

3 -

-0.6

7 1.

03

0.26

-

- -

- -

D4-

3a-3

/3-I

K

ultu

relle

r Kon

text

: grie

chis

che

Mus

ik

44.2

5 -

0.04

1.

08

0.13

0.

13

- -

- Ü

*

D4-

3b-1

/5-I

K

ultu

relle

r Kon

text

: Süd

amer

ika

11.1

5 -6

.62

1.98

0.

95

0.28

-

1.05

-

-

D4-

3b-2

/5-I

K

ultu

relle

r Kon

text

: Aus

tralie

n 39

.72

27.6

6 0.

24

0.99

0.

30

- 9.

06

- -

D4-

3b-3

/5-I

K

ultu

relle

r Kon

text

: Eur

opa

52.2

6 42

.71

-0.3

0 1.

01

0.24

-

3.14

-

-

D4-

3b-4

/5-I

K

ultu

relle

r Kon

text

: Asi

en

70.7

3 64

.88

-1.1

6 0.

98

0.34

-

1.39

-

-

D4-

3b-5

/5-I

K

ultu

relle

r Kon

text

: Afr

ika

72.1

3 66

.56

-1.2

2 1.

01

0.25

-

0.70

-

-

D3-

4a-1

-I

Cho

rpar

titur

lese

n 65

.16

30.3

2 -0

.87

0.98

0.

35

- 7.

67

- -

-

D3-

4a-2

-I

Cho

rpar

titur

lese

n 75

.26

50.5

2 -1

.39

0.95

0.

44

- 6.

62

- -

-

D3-

4a-3

-I

Cho

rpar

titur

lese

n 70

.73

41.4

6 -1

.15

0.98

0.

42

- 8.

71

- -

-

D3-

4a-4

-I (f

) C

horp

artit

ur le

sen

35.1

9 -2

9.62

0.

45

1.08

0.

09

- 12

.20

- -

E

D3-

4a-5

-I

Cho

rpar

titur

lese

n 38

.33

-23.

34

0.31

1.

03

0.21

-

15.3

3 -

- Ü

*

D3-

4a-6

-I

Cho

rpar

titur

lese

n 53

.31

6.62

-0

.35

1.01

0.

33

- 11

.50

- -

-

D3-

4a-7

-I

Cho

rpar

titur

lese

n 55

.4

10.8

-0

.44

1.02

0.

29

- 12

.89

- -

-

D3-

4a-8

-I

Cho

rpar

titur

lese

n 53

.31

6.62

-0

.35

1.02

0.

31

- 13

.24

- -

-

D3-

4a-9

-I

Cho

rpar

titur

lese

n 46

.69

-6.6

2 -0

.06

1.03

0.

27

- 13

.59

- -

-

105

Item

-ID

K

urzb

esch

reib

ung

P i /P

IK

P ZK

Item

schw

ierig

-ke

it (R

asch

) M

NSQ

r it

SK

Fe

hlen

de

Wer

te (%

) D

istra

kt.

Anm

. S/

Ü/E

D3-

4b-I

C

horp

artit

ur le

sen

(mit

HB

) 39

.02

18.6

9 0.

27

0.99

0.

33

- 9.

76

- -

D3-

9a-I

K

lavi

ersc

hüle

r Tip

ps g

eben

: for

-te

- pi

ano

11.5

4, 1

9.23

-

0.39

, 0.7

4 0.

98

0.50

-

0.35

-

- -

D3-

9b-I

K

lavi

ersc

hüle

r 2 T

ipps

geb

en:

stoc

kt, p

iano

34

.15,

4.8

8 -

0.24

, 2.1

8 0.

91

0.51

-

- -

- -

D3-

9c-I

K

lavi

ersc

hüle

r 3 T

ipps

geb

en:

Alle

gro,

acc

., cr

esc.

36

.59,

6.9

7 -

0.05

, 1.8

9 1.

03

0.32

-

- -

- -

D2-

7a-I

Fl

öte

+ K

lavi

er: T

ipps

geb

en

34.8

4 -

0.47

1.

00

0.32

-

0.35

-

- -

D2-

7b-I

2

Kla

vier

schü

ler:

Bee

thov

en

(Beg

ründ

ung

Urte

il)

13.2

4 -

1.78

0.

98

0.22

0.

32

- -

- -

D2-

7b-I

2

Kla

vier

schü

ler:

Bac

h (B

egrü

n-du

ng U

rteil)

30

.66

- 0.

67

0.95

0.

39

- -

- -

-

D2-

7c-I

Sc

hüle

rzei

tung

- B

andw

ettb

e-w

erb

28.9

2,

35.8

9, 7

.32

- -0

.90,

-0

.01,

1.8

1 1.

04

0.45

-

0.35

-

- -

D1-

7-I

Form

: Cho

pin,

A -

A -

B -

A

47.3

1 29

.75

-0.3

1 0.

96

0.40

-

5.77

-

-

P i ,

P IK

, PZK

= k

lass

isch

e Sc

hwie

rigke

itsin

dize

s; I

tem

schw

ierig

keit

(Ras

ch)

= Ite

mpa

ram

eter

� (

dich

otom

e Ite

ms)

, Thu

rsto

nian

thre

shol

ds (

meh

rkat

egor

ielle

Ite

ms)

; MN

SQ =

wei

ghte

d m

ean

squa

re (

Item

fit C

onQ

uest

); r it

= T

renn

schä

rfe;

SK

= S

elek

tions

kenn

wer

t (Tr

enns

chär

fe);

Dis

trakt

. = D

istra

ktor

enan

alys

e; A

nm. =

Anm

erku

ngen

; S/Ü

/E =

sel

ektie

rt, ü

bera

rbei

ten,

elim

inie

ren;

Ü

* =

über

arbe

itete

Fas

sung

des

Item

s kon

nte

erst

in d

er P

ilotie

rung

sstu

die

erpr

obt w

erde

n;

Gel

be M

arki

erun

g =

Bea

chtu

ngsk

riter

ium

O

rang

e M

arki

erun

g =

Aus

schl

ussk

riter

ium

G

rüne

Mar

kier

ung

= so

nstig

e au

ffälli

ge K

ennw

erte

106

Tab.

9:

Item

sele

ktio

n Te

sthe

ft 7

– A

naly

se 2

(Ana

lyse

ohn

e di

e au

sges

chlo

ssen

en It

ems a

us A

naly

se 1

und

mit

zusa

mm

enge

fass

tem

Ric

htig

-Fal

sch-

Item

; ers

ter M

odel

ltest

)

Item

-ID

K

urzb

esch

reib

ung

P i /P

IK

P ZK

Item

schw

ie-

rigk

eit (

Ras

ch)

MN

SQ

r it

SK

Anm

. S/

Ü/E

D1-

6-I

Mot

ivis

che

Ver

ände

rung

: fra

nz. H

ymne

– T

chai

-ko

vsky

45

.99

- -0

.52

0.99

0.

46

- -

-

D4-

3a-2

/3-I

K

ultu

relle

r Kon

text

: bay

eris

che

Bla

smus

ik

60.6

3 -

-1.1

7 1.

02

0.27

-

- -

D4-

3b-1

/5-I

K

ultu

relle

r Kon

text

: Süd

amer

ika

11.1

5 -6

.62

1.54

1.

01

0.29

-

- -

D4-

3b-2

/5-I

K

ultu

relle

r Kon

text

: Aus

tralie

n 39

.72

27.6

6 -0

.24

0.98

0.

35

- -

-

D4-

3b-3

/5-I

K

ultu

relle

r Kon

text

: Eur

opa

52.2

6 42

.71

-0.8

0 1.

04

0.25

-

- -

D4-

3b-4

/5-I

K

ultu

relle

r Kon

text

: Asi

en

70.7

3 64

.88

-1.6

6 0.

95

0.37

-

- -

D4-

3b-5

/5-I

K

ultu

relle

r Kon

text

: Afr

ika

72.1

3 66

.56

-1.7

4 1.

02

0.30

-

- -

D3-

4a-I

C

horp

artit

ur le

sen

5.23

-

2.39

1.

00

0.24

0.

54

- -

D3-

4b-I

C

horp

artit

ur le

sen

(mit

HB

) 39

.02

18.6

9 -0

.21

1.02

0.

37

- -

-

D3-

9a-I

K

lavi

ersc

hüle

r Tip

ps g

eben

: for

te –

pia

no

11.5

4, 1

9.23

-

-0.0

6, 0

.31

1.03

0.

53

- -

-

D3-

9b-I

K

lavi

ersc

hüle

r 2 T

ipps

geb

en: s

tock

t, pi

ano

34.1

5, 4

.88

- -0

.23,

1.7

8 0.

93

0.55

-

Q-I

ndex

Ü

*

D3-

9c-I

K

lavi

ersc

hüle

r 3 T

ipps

geb

en: A

llegr

o, a

cc.,

cres

c.

36.5

9, 6

.97

- -0

.42,

1.4

8 1.

08

0.36

-

- -

D2-

7a-I

Fl

öte

+ K

lavi

er: T

ipps

geb

en

34.8

4 -

-0.0

1 1.

03

0.36

-

- -

D2-

7b-I

2

Kla

vier

schü

ler:

Bee

thov

en (B

egrü

ndun

g U

rteil)

13

.24

- 1.

33

1.00

0.

27

- -

-

D2-

7b-I

2

Kla

vier

schü

ler:

Bac

h (B

egrü

ndun

g U

rteil)

30

.66

- 0.

20

0.93

0.

45

- -

-

D2-

7c-I

Sc

hüle

rzei

tung

– B

andw

ettb

ewer

b 28

.92,

35

.89,

7.3

2 -

-1.4

3,

-0.4

9, 1

.42

1.13

0.

52

- -

-

D1-

7-I

Form

: Cho

pin,

A –

A –

B –

A

47.3

1 29

.75

-0.3

8 0.

98

0.40

-

- -

Glo

bale

r Mod

ellte

st: C

ress

ie-R

ead:

p =

0.0

1, �

2 : p =

0.1

1

P i ,

P IK

, P Z

K =

kla

ssis

che

Schw

ierig

keits

indi

zes;

Ite

msc

hwie

rigke

it (R

asch

) =

Item

para

met

er �

(di

chot

ome

Item

s),

Thur

ston

ian

thre

shol

ds (

meh

rkat

egor

ielle

Ite

ms)

; M

NSQ

=

wei

ghte

d m

ean

squa

re (I

tem

fit C

onQ

uest)

; rit

= Tr

enns

chär

fe; S

K =

Sel

ektio

nske

nnw

ert (

Tren

nsch

ärfe

); S/

Ü/E

= s

elek

tiert,

übe

rarb

eite

n, e

limin

iere

n; A

nm. =

Anm

erku

ngen

; Ü*

= üb

erar

beite

te F

assu

ng d

es It

ems k

onnt

e er

st in

der

Pilo

tieru

ngss

tudi

e er

prob

t wer

den;

Q-I

ndex

= si

gnifi

kant

schl

echt

er Q

-Ind

ex (I

tem

fit W

INM

IRA)

107

Tab.

10:

Ite

mse

lekt

ion

Test

heft

7 –

Ana

lyse

3 (z

wei

ter M

odel

ltest

und

DIF

-Ana

lyse

)

Item

-ID

K

urzb

esch

reib

ung

P i /P

IK

P ZK

Item

schw

ieri

g-ke

it (R

asch

) M

NSQ

r it

SK

D

IF

Anm

. S/

Ü/E

D1-

6-I

Mot

ivis

che

Ver

ände

rung

: fra

nz. H

ymne

– T

chai

-ko

vsky

45

.99

- -0

.47

0.96

0.

47

- 0.

08

D4-

3a-2

/3-I

K

ultu

relle

r Kon

text

: bay

eris

che

Bla

smus

ik

60.6

3 -

-1.1

1 1.

00

0.28

-

0.24

D4-

3b-1

/5-I

K

ultu

relle

r Kon

text

: Süd

amer

ika

11.1

5 -6

.62

1.58

0.

99

0.30

-

0.07

D4-

3b-2

/5-I

K

ultu

relle

r Kon

text

: Aus

tralie

n 39

.72

27.6

6 -0

.19

0.98

0.

37

- 0.

44

D4-

3b-3

/5-I

K

ultu

relle

r Kon

text

: Eur

opa

52.2

6 42

.71

-0.7

4 1.

03

0.27

-

0.83

(M)

D4-

3b-4

/5-I

K

ultu

relle

r Kon

text

: Asi

en

70.7

3 64

.88

-1.6

0 0.

95

0.38

-

0.35

D4-

3b-5

/5-I

K

ultu

relle

r Kon

text

: Afr

ika

72.1

3 66

.56

-1.6

7 0.

97

0.32

-

0.39

D3-

4a-I

C

horp

artit

ur le

sen

5.23

-

2.42

0.

99

0.24

0.

54

0.04

D3-

4b-I

C

horp

artit

ur le

sen

(mit

HB

) 39

.02

18.6

9 -0

.16

1.02

0.

39

- 0.

03

D3-

9a-I

K

lavi

ersc

hüle

r Tip

ps g

eben

: for

te -

pian

o 11

.54,

19.

23

- -0

.02,

0.3

4 1.

03

0.51

-

0.17

D3-

9c-I

K

lavi

ersc

hüle

r 3 T

ipps

geb

en: A

llegr

o, a

cc.,

cres

c.

36.5

9, 6

.97

- -0

.38,

1.5

1 1.

08

0.36

-

0.43

D2-

7a-I

(f)

Flöt

e +

Kla

vier

: Tip

ps g

eben

34

.84

- 0.

04

1.01

0.

36

- 0.

80 (J

) bi

ased

E

D2-

7b-I

2

Kla

vier

schü

ler:

Bee

thov

en (B

egrü

ndun

g U

rteil)

13

.24

- 1.

37

1.00

0.

29

- 0.

27

D2-

7b-I

2

Kla

vier

schü

ler:

Bac

h (B

egrü

ndun

g U

rteil)

30

.66

- 0.

24

0.97

0.

45

- 0.

24

D2-

7c-I

Sc

hüle

rzei

tung

- B

andw

ettb

ewer

b 28

.92,

35.

89,

7.32

-

-1.3

6, -0

.44,

1.

44

1.08

0.

52

- 0.

36

D1-

7-I

Fo

rm: C

hopi

n, A

- A

- B

- A

47

.31

29.7

5 -0

.33

1.00

0.

39

- 0.

07

Glo

bale

r Mod

ellte

st: C

ress

ie-R

ead:

p =

0.1

1, �

2 : p =

0.3

0

P i ,

P IK

, PZK

= k

lass

isch

e Sc

hwie

rigke

itsin

dize

s; It

emsc

hwie

rigke

it (R

asch

) = It

empa

ram

eter

� (d

icho

tom

e Ite

ms)

, Thu

rsto

nian

thre

shol

ds (m

ehrk

ateg

orie

lle It

ems)

; MN

SQ =

wei

ghte

d m

ean

squa

re (I

-te

mfit

Con

Que

st);

r it =

Tre

nnsc

härf

e; S

K =

Sel

ektio

nske

nnw

ert (

Tren

nsch

ärfe

); D

IF =

Diff

eren

tial I

tem

Fun

ctio

ning

; (M

) = D

IF b

enac

htei

ligt M

ädch

en; (

J) =

DIF

ben

acht

eilig

t Jun

gen;

S/Ü

/E =

sel

ek-

tiert,

übe

rarb

eite

n, e

limin

iere

n; Ü

* =

über

arbe

itete

Fas

sung

des

Item

s kon

nte

erst

in d

er P

ilotie

rung

sstu

die

erpr

obt w

erde

n; A

nm. =

Anm

erku

ngen

108

Tab.

11:

Item

sele

ktio

n Te

sthe

ft 7

– A

naly

se 4

(abs

chlie

ßend

e M

odel

ltest

ung)

Item

-ID

K

urzb

esch

reib

ung

P i /P

IK

P ZK

Item

schw

ieri

g-ke

it (R

asch

) M

NSQ

r it

SK

S/

Ü/E

D1-

6-I (

f)

Mot

ivis

che

Ver

ände

rung

: fra

nz. H

ymne

– T

chai

-ko

vsky

45

.99

- -0

.47

0.96

0.

47

- S

D4-

3a-2

/3-I

(f)

Kul

ture

ller K

onte

xt: b

ayer

isch

e B

lasm

usik

60

.63

- -1

.11

1.00

0.

29

- S

D4-

3b-1

/5-I

K

ultu

relle

r Kon

text

: Süd

amer

ika

11.1

5 -6

.62

1.58

0.

99

0.30

-

S

D4-

3b-2

/5-I

(f)

Kul

ture

ller K

onte

xt: A

ustra

lien

39.7

2 27

.66

-0.1

9 0.

98

0.38

-

S

D4-

3b-3

/5-I

(f)

Kul

ture

ller K

onte

xt: E

urop

a 52

.26

42.7

1 -0

.74

1.03

0.

28

- S

D4-

3b-4

/5-I

(f)

Kul

ture

ller K

onte

xt: A

sien

70

.73

64.8

8 -1

.60

0.95

0.

42

- S

D4-

3b-5

/5-I

(f)

Kul

ture

ller K

onte

xt: A

frik

a 72

.13

66.5

6 -1

.67

0.97

0.

32

- S

D3-

4a-I

(f)

Cho

rpar

titur

lese

n 5.

23

- 2.

42

0.99

0.

23

0.52

S

D3-

4b-I

(f)

Cho

rpar

titur

lese

n (m

it H

B)

39.0

2 18

.69

-0.1

6 1.

02

0.40

-

S

D3-

9a-I

(f)

Kla

vier

schü

ler T

ipps

geb

en: f

orte

- pi

ano

11.5

4, 1

9.23

-

-0.0

2, 0

.34

1.03

0.

52

- S

D3-

9c-I

(f)

Kla

vier

schü

ler 3

Tip

ps g

eben

: Alle

gro,

acc

., cr

esc.

36

.59,

6.9

7 -

-0.3

7, 1

.51

1.08

0.

35

- S

D2-

7b-I

(f)

2 K

lavi

ersc

hüle

r: B

eeth

oven

(Beg

ründ

ung

Urte

il)

13.2

4 -

1.37

1.

00

0.29

-

S

D2-

7b-I

(f)

2 K

lavi

ersc

hüle

r: B

ach

(Beg

ründ

ung

Urte

il)

30.6

6 -

0.24

0.

97

0.45

-

S

D2-

7c-I

(f)

Schü

lerz

eitu

ng -

Ban

dwet

tbew

erb

28.9

2, 3

5.89

, 7.

32

- -1

.36,

-0.4

4,

1.44

1.

08

0.53

-

S

D1-

7-I (

f)

Form

: Cho

pin,

A -

A -

B -

A

47.3

1 29

.75

-0.3

3 1.

00

0.39

-

S

Glo

bale

r Mod

ellte

st: C

ress

ie-R

ead:

p =

0.0

6, �

2 : p =

0.1

8; T

estre

liabi

lität

: EAP

/PV

= 0

.57,

Cro

nbac

hs A

lpha

= 0

.56

P i ,

P IK

, PZK

= k

lass

isch

e Sc

hwie

rigke

itsin

dize

s; It

emsc

hwie

rigke

it (R

asch

) = It

empa

ram

eter

� (d

icho

tom

e Ite

ms)

, Thu

rsto

nian

thre

shol

ds (m

ehrk

ateg

orie

lle It

ems)

; MN

SQ =

wei

ghte

d m

ean

squa

re (I

tem

fit C

onQ

uest

); r it

= T

renn

schä

rfe;

SK

= S

elek

tions

kenn

wer

t (Tr

enns

chär

fe);

S/Ü

/E =

sele

ktie

rt, ü

bera

rbei

ten,

elim

inie

ren

109

Analyse 2 (Tab. 9)

Für die zweite Analyse wird das Richtig-Falsch-Item D3-4a-I zusammengefasst:

Nach dem Ausschluss von zwei Einzelitems (D3-4a-4-I und D3-4a-5-I; vgl. Ana-

lyse 1) besteht dieses noch aus insgesamt sieben Fragen. Das Gesamtitem wird di-

chotom ausgewertet, wobei für eine richtige Lösung des Items alle sieben Fragen

korrekt bearbeitet werden müssen; Testpersonen, die sechs oder weniger richtige

Antworten geben, haben das Item entsprechend nicht gelöst.128

Die Ergebnisse des zweiten Analysedurchgangs sind in Tab. 9 aufgeführt. Da sich

Itemschwierigkeit (Rasch-Modell), Itemfit und Trennschärfe in Abhängigkeit der

in eine Analyse einbezogenen Items ändern (auch wenn lediglich ein Item entfernt

worden ist), müssen die Kennwerte im Rahmen einer neuen Analyse jeweils neu

berechnet und überprüft werden. In Bezug auf die zweite Analyse kann hierbei

festgehalten werden, dass alle Items innerhalb der geforderten Wertebereiche lie-

gen, zunächst also kein weiteres Item ausgeschlossen werden muss.

In einem nächsten Schritt ist zu überprüfen, ob sich die angenommene Gültigkeit

des Rasch-Modells für die Daten auch empirisch belegen lässt. Hierfür werden al-

le Items der zweiten Analyse in einen globalen Modelltest einbezogen. Das Er-

gebnis des Modelltests ist in Tab. 9 in der untersten Zeile dargestellt. Wie ersicht-

lich, ist die Cressie-Read-Prüfgröße signifikant, sodass die Gültigkeit des Rasch-

Modells für den vorliegenden Itemsatz abgelehnt werden muss. Bei Durchsicht

der von WINMIRA bereitgestellten Itemfit-Maße zeigt sich, dass das Item D3-9b-I

einen signifikant schlechten Q-Index aufweist. Das betreffende Item wird darauf-

hin für eine Wiederholung des Modelltests ausgeschlossen.

128 Es wäre durchaus auch denkbar, das Item z. B. bereits mit 6 von 7 richtigen Antworten als rich-tig zu werten. Eine weitere Alternative bestünde darin, eine Partial-Credit-Auswertung vorzuneh-men. In solch einem Fall könnten beispielsweise 5-6 richtige Antworten als teilweise gelöst und 7 richtige Antworten als vollständig gelöst gewertet werden. Welche Variante zum Einsatz kommt, ist einerseits von inhaltlichen Überlegungen bestimmt (z. B. ab wie vielen richtigen Antworten es gerechtfertigt erscheint davon auszugehen, dass eine Testperson mit entsprechendem Lösungsver-halten über die geforderten Kompetenzen mit ausreichender Sicherheit verfügt). Andererseits spie-len aber auch hier psychometrische Kriterien eine Rolle (z. B. welche Auswertung eine höhere Trennschärfe oder einen besseren Itemfit ergibt). In diesem Zusammenhang ist es daher meist notwendig, zunächst verschiedene Alternativen in die Analysen einzubeziehen, um dann auf Basis der Kennwerte eine Entscheidung über die letztendliche Auswertung zu treffen. Nach der Überprü-fung verschiedener Alternativen ergab sich für das vorliegende Item D3-4a-I eine optimale Aus-wertung als dichotomes Item mit den geforderten sieben richtigen Antworten.

110

Analyse 3 (Tab. 10)

Bevor die Wiederholung des Modelltests erfolgen kann, müssen aufgrund des

Ausschlusses von Items D3-9b-I die Itemkennwerte neu berechnet werden. Tab.

10 enthält die resultierenden Werte, die wiederum alle innerhalb der geforderten

Grenzen liegen. Für die verbliebenen 16 Items wird anschließend erneut der glo-

bale Modelltest durchgeführt. Dieses Mal wird die Gültigkeit des Rasch-Modells

bestätigt: Beide Prüfgrößen sind nicht signifikant.

Im Anschluss an die inferenzstatistische Absicherung der Modellgültigkeit kann

nun auch die Untersuchung der Items hinsichtlich eines möglicherweise vorlie-

genden ‚Differential Item Functioning’ (DIF) erfolgen. Wie in Abschnitt 6.1.1 be-

schrieben, werden DIF-Analysen ausschließlich für die Variable ‚Gender’ durch-

geführt. Die Ergebnisse sind in Tab. 10 in der drittletzten Spalte aufgeführt. In Be-

zug auf das Geschlecht der Testpersonen weisen zwei Items substantiellen DIF

auf: D4-3b-3/5-I und D2-7a-I. Eine genauere inhaltliche Betrachtung der beiden

Items erfolgt in Abschnitt 6.2.2, im Folgenden werden die Ergebnisse lediglich

zusammengefasst: Das Item D4-3b-3/5-I ‚benachteiligt’ die Mädchen gegenüber

den Jungen um 0.83 logits. Die daraufhin durchgeführte inhaltliche Analyse er-

bringt jedoch keine plausible Erklärung in Bezug auf einen möglichen Bias zwi-

schen dem Geschlecht der Schüler und der Itembearbeitung. Das Item wird daher

trotz des substantiellen DIF selektiert. Bei Item D2-7a-I liegt der umgekehrte Fall

vor: Hier werden die Jungen um 0.80 logits ‚benachteiligt’. Eine inhaltliche Ana-

lyse des Items legt die Annahme eines Itembias nahe und führt zur Eliminierung

des Items.

Analyse 4 (Tab. 11)

Durch den Ausschluss des Items D2-7a-I werden eine erneute Berechnung der I-

temkennwerte und eine Überprüfung der Modellgültigkeit notwendig. Die in Tab.

11 dargestellten Werte zeigen, dass alle verbliebenen 15 Items den psychometri-

schen Kriterien entsprechen und daher endgültig selektiert werden können.

Selektionsprozess Testheft Nr. 4

Zur weiteren Verdeutlichung des Selektionsprozesses werden ergänzend im Fol-

genden die Analysen zu Testheft 4 dargestellt (Tab. 12-Tab. 14). Testheft 4 ent-

hält im Vergleich zu Testheft 7 weder mehrkategorielle Items noch Richtig-

111

Falsch-Items. Auch die psychometrischen Kriterien, die zum Ausschluss einzelner

Items führen, unterscheiden sich teilweise.

Analyse 1 (Tab. 12)

Bei einer ersten Durchsicht der Analyseergebnisse wird deutlich, dass der Groß-

teil der Items keine kritischen Kennwerte aufweist. Neun der insgesamt zweiund-

dreißig Items müssen jedoch genauer betrachtet werden, da hier ein oder mehrere

Ausschlusskriterien bzw. Beachtungskriterien vorliegen.

Item D1-15d-2-II ist mit einem Schwierigkeitsindex von PZK = 97.41 zu leicht

(annähernd alle Schüler lösen das Item) und wird entsprechend für die nachfol-

gende Analyse ausgeschlossen. Alle anderen Items des Testhefts liegen im gefor-

derten Bereich von 95 > P > 5.

Der Abgleich von theoretisch erwarteter und empirisch gemessener Itemschwie-

rigkeit (Rasch-Modell) führt in drei Fällen zu einem Ausschluss bzw. zu einer

Überarbeitung von Items: D3-10-1-I, D3-10-2-I und D1-15b-2-II. Die beiden I-

tems der Dimension 3 sollten sehr basale Kompetenzen in Bezug auf Rhythmus-

wahrnehmung und Notationskenntnisse erfassen. Wie die Itemparameter jedoch

deutlich zeigen, ist dies mit den vorliegenden Items nicht gelungen; sie sind ent-

gegen der theoretischen Annahmen sehr schwer.129 Ähnliches gilt auch für Item

D1-15b-2-II. Das Item war ebenfalls für die Erfassung des untersten (theoreti-

schen) Kompetenzniveaus gedacht, empirisch zeigt sich jedoch eine mittlere I-

temschwierigkeit.130

In Bezug auf die Itemtrennschärfe sind acht Items auffällig: D3-8a-3-I, D1-15b-1-

II, D1-15b-2-II, D1-15d-2-II, D4-5b-1-II, D4-5b-3-II, D1-18c-I und D1-18e-I.

129 Eine ausführlichere inhaltliche Betrachtung der beiden Items erfolgt in Abschnitt 6.2.3. 130 Die Diskrepanz zwischen theoretischer und empirischer Schwierigkeit wird auch beim Ver-gleich mit den Items D1-15c-1-II, D1-15c-2-II und D1-15d-1-II deutlich. Es handelt sich hierbei um sehr ähnliche Items, die sich auf die gleiche Kompetenz beziehen (Erfassung des emotionalen Ausdrucks von Musik), jedoch im Gegensatz zu Item D1-15b-2-II innerhalb des erwarteten Schwierigkeitsbereichs liegen. Grundsätzlich lässt sich eine Diskrepanz von theoretischer und em-pirischer Itemschwierigkeit mittels der statistischen Analyse leicht identifizieren. Viel schwieriger ist jedoch die Frage zu beantworten, wie solch eine Diskrepanz der Schwierigkeiten überhaupt zu-stande kommt. Es könnte sein, dass beispielsweise formale Aspekte eines Items eine Rolle spielen (Fragestellung unklar formuliert, Aufgabenformat komplex und nicht intuitiv bearbeitbar, schlech-te Distraktoren etc.). Genauso denkbar wäre aber auch, dass das ‚Problem’ nicht aufseiten der I-temkonstruktion liegt, sondern die theoretischen Annahmen überdacht werden müssen. Diese und weitere Aspekte der theoretischen und empirischen Itemschwierigkeit werden in Abschnitt 6.2.3 behandelt.

112

Vier der acht Items (D1-15d-2-II, D4-5b-1-II, D4-5b-3-II, D1-18e-I) werden je-

doch durch den Selektionskennwert (SK) so korrigiert, dass sich ein akzeptabler

Wert � .25 ergibt. Es verbleiben folglich die vier Items D3-8a-3-I, D1-15b-1-II,

D1-15b-2-II und D1-18c-I, die aufgrund einer zu niedrigen Trennschärfe elimi-

niert oder überarbeitet werden müssen.

Während in Testheft 7 alle Distraktorenanalysen zufriedenstellende Ergebnisse

erbrachten, ergeben sich für zwei Items des Testhefts 4 schlechte Werte: D1-15b-

1-II und D1-15b-2-II. Beide Items enthalten fünf Antwortalternativen (richtige

Antwort + vier Distraktoren). Bei dem ersten Item (D1-15b-1-II) werden drei der

vier Distraktoren überhaupt nicht bzw. von lediglich einer Testperson (entspricht

0.41 %) gewählt. Ähnlich problematisch sind die Distraktoren des zweiten Items

(D1-15b-2-II), bei dem Distraktor 1 von nur 0.41 % und Distraktor 2 von 5.37 %

der Testpersonen gewählt werden. Solch extrem niedrige Schwierigkeitsindizes

der Distraktoren deuten darauf hin, dass sie sich zu deutlich von der richtigen

Antwortalternative unterscheiden und es dadurch zu offensichtlich ist, dass die

entsprechenden Distraktoren nicht als richtige Antwort infrage kommen. Das Er-

gebnis der Distraktorenanalysen ‚ergänzt’ bei beiden Items die bereits vorliegen-

den schlechten Trennschärfen und Schwierigkeitswerte (vgl. Tab. 12) und unter-

streicht gleichzeitig die Notwendigkeit einer Überarbeitung der Items.131

Die Betrachtung des Itemfit zeigt, dass auch in Testheft 4 alle Items innerhalb des

geforderten Intervalls von [0.80, 1.20] liegen.

In Bezug auf das Vorliegen fehlender Werte sind drei Items auffällig: D1-18a-2-I,

D1-18a-3-I und D1-18c-I. Eine inhaltliche Analyse und ergänzende Diskussion

mit den Kooperationslehrern ergab für die beiden erstgenannten Items keinen Ü-

berarbeitungsbedarf. Die leicht erhöhte Anzahl fehlender Werte (10.33 % und

11.16 %) scheint hier primär durch die relativ hohen Anforderungen der Items zu

erklären. Ein deutlich extremerer Wert (35.95 %) liegt hingegen bei Item D1-18c-

I vor. Ein gewisser Anteil der fehlenden Werte kann auch hier auf die Aufgaben-

anforderungen zurückgeführt werden. Hinzu kommt das offene Format des Items,

was in der Regel allein aufgrund der aufwendigeren Bearbeitung zu einer erhöh-

131 Eine vertiefende inhaltliche Betrachtung von ‚guten’ und ‚schlechten’ Distraktoren sowie die Möglichkeiten und Auswirkungen einer Überarbeitung von Distraktoren sind in Abschnitt 6.2.1 dargestellt.

113

ten Anzahl fehlender Werte führt. Trotzdem deutet der extrem hohe Wert auf ein

problematisches Item hin, was durch die bereits analysierte niedrige Trennschärfe

des Items zusätzlich bestätigt wird (s. o.). Eine genauere inhaltliche Analyse er-

gibt mehrere Konstruktionsprobleme des Items, die sich vor allem auf das Hörbei-

spiel, aber auch auf das verlangte Vorwissen beziehen. Unter Berücksichtigung

der niedrigen Trennschärfe und der vielen fehlenden Werte ist eine Überarbeitung

des Items daher unbedingt notwendig.

Zusammenfassung: Sieben Items werden aufgrund von schlechten Kennwerten

ausgeschlossen, sodass sich eine Anzahl von 25 Items für den zweiten Analyse-

durchgang ergibt.

114

Tab.

12:

Item

sele

ktio

n Te

sthe

ft 4

– A

naly

se 1

(alle

Item

s des

Tes

thef

ts)

Item

-ID

K

urzb

esch

reib

ung

P i /P

IK

P ZK

Item

schw

ieri

g-ke

it (R

asch

) M

NSQ

r it

SK

Fe

hlen

de

Wer

te (%

) D

istra

kt.

S/Ü

/E

D3-

10-1

-I (f

) ge

spro

chen

en R

hyth

mus

not

iere

n 7.

44

- 3.

539

0.97

0.

27

2.

1

E

D3-

10-2

-I (f

) ge

spro

chen

en R

hyth

mus

not

iere

n 21

.9

- 2.

216

1.00

0.

36

1.

7

E

D3-

8a-1

-I

Mic

hael

row

- Ta

kt a

nkre

uzen

92

.56

- -1

.897

0.

97

0.33

-

D3-

8a-2

-I

Mic

hael

row

- Ta

kt a

nkre

uzen

44

.63

- 1.

058

1.02

0.

41

-

D3-

8a-3

-I (f

) M

icha

el ro

w -

Takt

ank

reuz

en

40.5

-

1.24

5 1.

09

0.17

0.

17

-

E

D3-

8a-4

-I

Mic

hael

row

- Ta

kt a

nkre

uzen

90

.5

- -1

.619

1.

00

0.35

-

D3-

8b-1

-I

Mic

hael

row

- Fe

hler

bes

chre

iben

78

.1

- -0

.577

0.

97

0.42

-

D3-

8b-2

-I

Mic

hael

row

- Fe

hler

bes

chre

iben

20

.66

- 2.

295

0.89

0.

51

-

D3-

8b-3

-I

Mic

hael

row

- Fe

hler

bes

chre

iben

15

.29

- 2.

687

0.97

0.

31

-

D3-

8b-4

-I

Mic

hael

row

- Fe

hler

bes

chre

iben

69

.83

- -0

.107

0.

99

0.45

-

D1-

15b-

1-II

W

irkun

g: h

ektis

ch (L

iget

i) 93

.8

92.2

5 -2

.104

1.

05

0.11

0.

21

2.89

1

(0.4

1)

3 (0

) 4

(0.4

1)

Ü*

D1-

15b-

2-II

W

irkun

g: ru

hig

(Cas

sidy

) 59

.5

49.3

8 0.

392

1.05

0.

22

0.22

3.

31

1 (0

.41)

2

(5.3

7)

Ü*

D1-

15c-

1-II

W

irkun

g: fe

stlic

h (l'

orfe

o)

83.0

6 78

.83

-0.9

2 1.

02

0.32

2.07

D1-

15c-

2-II

W

irkun

g: ru

hig

(Sat

ie)

95.4

5 94

.31

-2.4

44

0.98

0.

27

1.

65

D1-

15d-

1-II

W

irkun

g: fr

öhlic

h (S

aint

-Sae

ns)

87.1

9 83

.99

-1.2

70

0.97

0.

34

2.

07

D1-

15d-

2-II

W

irkun

g: a

ggre

ssiv

(cho

ps)

97.9

3 97

.41

-3.2

79

0.98

0.

23

0.72

0.

41

Ü

*

D1-

15e-

II

Wirk

ung-

Mitt

el-Z

uord

nung

42

.56

- 1.

150

1.06

0.

25

115

Item

-ID

K

urzb

esch

reib

ung

P i /P

IK

P ZK

Item

schw

ierig

-ke

it (R

asch

) M

NSQ

r it

SK

Fe

hlen

de

Wer

te (%

) D

istra

kt.

S/Ü

/E

D1-

15f-

I W

irkun

g-M

ittel

-Kom

posi

tion

71.4

9 -

-0.1

95

1.02

0.

31

3.

72

D4-

5b-1

-II

Stile

: Hip

Hop

90

.91

89.4

-1

.674

1.

04

0.16

0.

26

0.41

D4-

5b-2

-II

Stile

: Ope

r 93

.8

92.7

7 -2

.104

0.

99

0.28

1.24

D4-

5b-3

-II

Stile

: Roc

k 95

.45

94.6

9 -2

.440

1.

04

0.12

0.

27

0.83

D4-

5b-4

-II

Stile

: Kon

zerts

aal

87.1

9 85

.06

-1.2

68

0.96

0.

36

2.

48

D4-

5b-5

-II

Stile

: Kirc

he

94.2

1 93

.25

-2.1

77

0.99

0.

32

1.

24

D4-

5b-6

-II

Stile

: Tec

hno

82.6

4 79

.75

-0.8

87

1.05

0.

26

2.

07

D1-

18a-

1-I

Mot

ivis

che

Ver

ände

rung

: Bru

der J

akob

49

.59

24.3

9 0.

837

0.98

0.

37

7.

44

D1-

18a-

2-I

Mot

ivis

che

Ver

ände

rung

: O D

u lie

ber A

ugus

tin

46.2

8 19

.42

0.98

4 0.

95

0.39

10.3

3

D1-

18a-

3-I

Mot

ivis

che

Ver

ände

rung

: Men

dels

sohn

50

.83

20.8

7 0.

783

0.90

0.

43

11

.16

D1-

18b-

I M

otiv

isch

e V

erän

deru

ng: A

lle m

eine

Ent

chen

66

.94

41.5

3 0.

04

0.97

0.

39

7.

85

D1-

18c-

I M

otiv

isch

e V

erän

deru

ng: A

lle m

eine

Ent

chen

37

.6

- 1.

379

1.14

0.

10

0.10

35

.95

Ü

*

D1-

18d-

I M

elod

ie w

iede

rerk

enne

n (M

ozar

t-Men

uett)

25

.21

- 2.

016

0.99

0.

38

2.

48

D1-

18e-

I V

aria

tione

n: K

lavi

er (M

ozar

t) 14

.88

- 2.

722

1.06

0.

18

0.25

1.

65

D1-

18f-I

V

aria

tione

n: U

SA-H

ymne

(Hen

drix

) 32

.64

- 1.

619

1.03

0.

30

0.

83

P i ,

P IK

, PZK

= k

lass

isch

e Sc

hwie

rigke

itsin

dize

s; It

emsc

hwie

rigke

it (R

asch

) = It

empa

ram

eter

� (d

icho

tom

e Ite

ms)

, Thu

rsto

nian

thre

shol

ds (m

ehrk

ateg

orie

lle It

ems)

; MN

SQ =

wei

ghte

d m

ean

squa

re

(Ite

mfit

Con

Que

st); r

it = T

renn

schä

rfe;

SK

= S

elek

tions

kenn

wer

t (Tr

enns

chär

fe);

Dis

trakt

. = D

istra

ktor

enan

alys

e; A

nm. =

Anm

erku

ngen

; S/Ü

/E =

sel

ektie

rt, ü

bera

rbei

ten,

elim

inie

ren;

Ü*

= üb

erar

-be

itete

Fas

sung

des

Item

s kon

nte

erst

in d

er P

ilotie

rung

sstu

die

erpr

obt w

erde

n G

elbe

Mar

kier

ung

= B

each

tung

skrit

eriu

m

Ora

nge

Mar

kier

ung

= A

ussc

hlus

skrit

eriu

m

116

Tab.

13:

Item

sele

ktio

n Te

sthe

ft 4

– A

naly

se 2

(Ana

lyse

ohn

e di

e au

sges

chlo

ssen

en It

ems a

us A

naly

se 1

; ers

ter M

odel

ltest

)

Item

-ID

K

urzb

esch

reib

ung

P i /P

IK

P ZK

Item

schw

ie-

rigk

eit (

Ras

ch)

MN

SQ

r it

SK

Anm

. S/

Ü/E

D3-

8a-1

-I

Mic

hael

row

- Ta

kt a

nkre

uzen

92

.56

- -1

.846

0.

98

0.33

D3-

8a-2

-I

Mic

hael

row

- Ta

kt a

nkre

uzen

44

.63

- 1.

157

1.04

0.

40

D3-

8a-4

-I

Mic

hael

row

- Ta

kt a

nkre

uzen

90

.5

- -1

.563

0.

98

0.34

D3-

8b-1

-I

Mic

hael

row

- Fe

hler

bes

chre

iben

78

.1

- -0

.507

0.

98

0.43

D3-

8b-2

-I

Mic

hael

row

- Fe

hler

bes

chre

iben

20

.66

- 2.

417

0.89

0.

50

D3-

8b-3

-I

Mic

hael

row

- Fe

hler

bes

chre

iben

15

.29

- 2.

816

0.99

0.

31

Q

-Ind

ex

E

D3-

8b-4

-I

Mic

hael

row

- Fe

hler

bes

chre

iben

69

.83

- -0

.029

0.

96

0.47

D1-

15c-

1-II

W

irkun

g: fe

stlic

h (l'

orfe

o)

83.0

6 78

.83

-0.8

53

1.02

0.

33

D1-

15c-

2-II

W

irkun

g: ru

hig

(Sat

ie)

95.4

5 94

.31

-2.3

83

0.99

0.

28

D1-

15d-

1-II

W

irkun

g: fr

öhlic

h (S

aint

-Sae

ns)

87.1

9 83

.99

-1.2

05

1.00

0.

33

D1-

15e-

II

Wirk

ung-

Mitt

el-Z

uord

nung

42

.56

- 1.

253

1.07

0.

26

Q

-Ind

ex

Ü

D1-

15f-

I W

irkun

g-M

ittel

-Kom

posi

tion

71.4

9 -

-0.1

17

0.99

0.

35

D4-

5b-1

-II

Stile

: Hip

Hop

90

.91

89.4

-1

.613

1.

04

0.16

0.

26

D4-

5b-2

-II

Stile

: Ope

r 93

.8

92.7

7 -2

.046

0.

95

0.30

D4-

5b-3

-II

Stile

: Roc

k 95

.45

94.6

9 -2

.387

1.

05

0.13

0.

29

D4-

5b-4

-II

Stile

: Kon

zerts

aal

87.1

9 85

.06

-1.2

07

0.92

0.

38

D4-

5b-5

-II

Stile

: Kirc

he

94.2

1 93

.25

-2.1

27

0.96

0.

35

D4-

5b-6

-II

Stile

: Tec

hno

82.6

4 79

.75

-0.8

23

1.04

0.

28

D1-

18a-

1-I

Mot

ivis

che

Ver

ände

rung

: Bru

der J

akob

49

.59

24.3

9 0.

932

1.02

0.

36

D1-

18a-

2-I

Mot

ivis

che

Ver

ände

rung

: O D

u lie

ber A

ugus

tin

46.2

8 19

.42

1.08

1 0.

96

0.40

D1-

18a-

3-I

Mot

ivis

che

Ver

ände

rung

: Men

dels

sohn

50

.83

20.8

7 0.

875

0.94

0.

43

117

Item

-ID

K

urzb

esch

reib

ung

P i /P

IK

P ZK

Item

schw

ierig

-ke

it (R

asch

) M

NSQ

r it

SK

A

nm.

S/Ü

/E

D1-

18b-

I M

otiv

isch

e V

erän

deru

ng: A

lle m

eine

Ent

chen

66

.94

41.5

3 0.

119

1.02

0.

40

D1-

18d-

I M

elod

ie w

iede

rerk

enne

n (M

ozar

t-Men

uett)

25

.21

- 2.

132

0.98

0.

38

D1-

18e-

I V

aria

tione

n: K

lavi

er (M

ozar

t) 14

.88

- 2.

849

1.09

0.

20

0.28

D1-

18f-

I V

aria

tione

n: U

SA-H

ymne

(Hen

drix

) 32

.64

- 1.

728

1.07

0.

33

Glo

bale

r Mod

ellte

st: C

ress

ie-R

ead:

p =

0.0

4, �

2 : p =

0.0

4

P i ,

P IK

, PZK

= k

lass

isch

e Sc

hwie

rigke

itsin

dize

s; It

emsc

hwie

rigke

it (R

asch

) = It

empa

ram

eter

�; M

NSQ

= w

eigh

ted

mea

n sq

uare

(Ite

mfit

Con

Que

st);

r it =

Tre

nnsc

härf

e; S

K =

Sel

ek-

tions

kenn

wer

t (Tr

enns

chär

fe);

S/Ü

/E =

sele

ktie

rt, ü

bera

rbei

ten,

elim

inie

ren;

Anm

. = A

nmer

kung

en; Q

-Ind

ex =

sign

ifika

nt sc

hlec

hter

Q-I

ndex

(Ite

mfit

WIN

MIR

A)

Tab.

14:

Ite

mse

lekt

ion

Test

heft

4 –

Ana

lyse

3 (z

wei

ter M

odel

ltest

und

DIF

-Ana

lyse

)

Item

-ID

K

urzb

esch

reib

ung

P i /P

IK

P ZK

Item

schw

ieri

g-ke

it (R

asch

) M

NSQ

r it

SK

D

IF

S/Ü

/E

D3-

8a-1

-I

Mic

hael

row

- Ta

kt a

nkre

uzen

92

.56

- -1

.65

1.00

0.

33

S

D3-

8a-2

-I

Mic

hael

row

- Ta

kt a

nkre

uzen

44

.63

- 1.

43

0.98

0.

43

S

D3-

8a-4

-I

Mic

hael

row

- Ta

kt a

nkre

uzen

90

.5

- -1

.36

1.02

0.

36

S

D3-

8b-1

-I

Mic

hael

row

- Fe

hler

bes

chre

iben

78

.10

- -0

.29

0.99

0.

43

S

D3-

8b-2

-I

Mic

hael

row

- Fe

hler

bes

chre

iben

20

.66

- 2.

73

0.83

0.

52

S

D3-

8b-4

-I

Mic

hael

row

- Fe

hler

bes

chre

iben

69

.83

- 0.

20

1.01

0.

49

S

D1-

15c-

1-II

W

irkun

g: fe

stlic

h (l'

orfe

o)

83.0

6 78

.83

-0.6

4 1.

05

0.34

S

D1-

15c-

2-II

W

irkun

g: ru

hig

(Sat

ie)

95.4

5 94

.31

-2.2

0 1.

06

0.26

S

D1-

15d-

1-II

W

irkun

g: fr

öhlic

h (S

aint

-Sae

ns)

87.1

9 83

.99

-1.0

0 1.

01

0.34

S

D1-

15f-

I W

irkun

g-M

ittel

-Kom

posi

tion

71.4

9 -

0.11

1.

01

0.35

S

118

Item

-ID

K

urzb

esch

reib

ung

P i /P

IK

P ZK

Item

schw

ierig

-ke

it (R

asch

) M

NSQ

r it

SK

D

IF

S/Ü

/E

D4-

5b-1

-II

Stile

: Hip

Hop

90

.91

89.4

0 -1

.42

1.11

0.

19

0.31

S

D4-

5b-2

-II

Stile

: Ope

r 93

.80

92.7

7 -1

.86

1.05

0.

30

S

D4-

5b-3

-II

Stile

: Roc

k 95

.45

94.6

9 -2

.20

1.09

0.

14

0.31

S

D4-

5b-4

-II

Stile

: Kon

zerts

aal

87.1

9 85

.06

-1.0

0 1.

02

0.39

S

D4-

5b-5

-II

Stile

: Kirc

he

94.2

1 93

.25

-1.9

3 1.

05

0.34

S

D4-

5b-6

-II

Stile

: Tec

hno

82.6

4 79

.75

-0.6

1 1.

05

0.30

S

D1-

18a-

1-I

Mot

ivis

che

Ver

ände

rung

: Bru

der J

akob

49

.59

24.3

9 1.

19

1.01

0.

38

S

D1-

18a-

2-I

Mot

ivis

che

Ver

ände

rung

: O D

u lie

ber A

ugus

tin

46.2

8 19

.42

1.35

1.

03

0.44

S

D1-

18a-

3-I

Mot

ivis

che

Ver

ände

rung

: Men

dels

sohn

50

.83

20.8

7 1.

14

0.97

0.

45

S

D1-

18b-

I M

otiv

isch

e V

erän

deru

ng: A

lle m

eine

Ent

chen

66

.94

41.5

3 0.

36

1.02

0.

38

S

D1-

18d-

I M

elod

ie w

iede

rerk

enne

n (M

ozar

t-Men

uett)

25

.21

- 2.

44

0.99

0.

40

S

D1-

18e-

I V

aria

tione

n: K

lavi

er (M

ozar

t) 14

.88

- 3.

18

1.04

0.

23

0.32

S

D1-

18f-

I V

aria

tione

n: U

SA-H

ymne

(Hen

drix

) 32

.64

- 2.

02

1.05

0.

36

S

Glo

bale

r Mod

ellte

st: C

ress

ie-R

ead:

p =

0.0

8, �

2 : p =

0.1

0; T

estr

elia

bilit

ät: E

AP/P

V =

0.7

4, C

ronb

achs

Alp

ha =

0.6

9

P i ,

P IK

, PZK

= k

lass

isch

e Sc

hwie

rigke

itsin

dize

s; It

emsc

hwie

rigke

it (R

asch

) = It

empa

ram

eter

�; M

NSQ

= w

eigh

ted

mea

n sq

uare

(Ite

mfit

Con

Que

st); r

it = T

renn

schä

rfe;

SK

= S

elek

tions

kenn

wer

t (Tr

enn-

schä

rfe)

; DIF

= D

iffer

entia

l Ite

m F

unct

ioni

ng; S

/Ü/E

= se

lekt

iert,

übe

rarb

eite

n, e

limin

iere

n

119

Analyse 2 (Tab. 13)

Im Rahmen des zweiten Analysedurchgangs müssen zunächst die Itemkennwerte

erneut berechnet werden. Die Durchsicht der Ergebnisse zeigt, dass alle Items in-

nerhalb der geforderten Wertebereiche liegen.

Im nächsten Analyseschritt wird die Gültigkeit des Rasch-Modells überprüft. Der

globale Modelltest führt hierbei zu einer Ablehnung des Rasch-Modells, da beide

Prüfgrößen signifikant sind. Erneut dienen die von WINMIRA bereitgestellten I-

temfit-Maße zur Identifikation von möglicherweise problematischen Items. Signi-

fikant schlechte Q-Indizes weisen dabei die Items D3-8b-3-I und D1-15e-II auf,

die entsprechend für die folgende Analyse ausgeschlossen werden.

Analyse 3 (Tab. 14)

Auch die in den dritten Analysedurchgang einbezogenen 23 Items weisen durch-

weg zufriedenstellende Werte auf, sodass alle Items in die Wiederholung des Mo-

delltests einbezogen werden können.

Das Ergebnis des globalen Modelltests führt zu einer Annahme des Raschmodells,

da für beide Prüfgrößen p-Werte > .05 vorliegen.

In einem abschließenden Schritt erfolgt die Untersuchung der Items auf ‚Differen-

tial Item Functioning’. Für Testheft 4 liegt hierbei kein signifikanter DIF in Bezug

auf das Geschlecht der Testpersonen vor.

Somit ist die Überprüfung der psychometrischen Qualität der Items abgeschlossen

und die verbliebenen 23 Items können endgültig selektiert werden.

6.1.3 Itemselektion: Ergebnisse und Zusammenfassung

Der in Abschnitt 6.1.2 exemplarisch anhand von zwei Testheften dargestellte Se-

lektionsprozess wurde analog für alle neun Testhefte durchgeführt. In Bezug auf

die Analysedurchgänge können testheftübergreifend folgende Punkte zusammen-

gefasst werden:132

132 Bei einigen Items liegen mehrere Ausschluss-/Beachtungskriterien gleichzeitig vor. Die im Folgenden vorgenommene Zuordnung von Kriterien und Itemanzahl entspricht daher in der Sum-me nicht der insgesamt ausgeschlossenen Anzahl an Items.

120

� Vor allem drei Kriterien führten zu einer Eliminierung/Überarbeitung der I-

tems: Itemschwierigkeit (14 Items), Itemtrennschärfe (49 Items) und die Dis-

traktorenanalyse (20 Items).

� Das Ausschlusskriterium eines schlechten Itemfit spielte hingegen keine Rolle

im Rahmen der Itemselektion: Lediglich ein Item musste aufgrund eines signi-

fikant schlechten MNSQ-Wertes ausgeschlossen werden.

� Für die selektierten Items eines jeden Testhefts konnte die Gültigkeit des

Rasch-Modells inferenzstatistisch abgesichert werden. Im Rahmen der Mo-

delltestung mussten jedoch 8 Items aufgrund schlechter Q-Indizes aus den A-

nalysen entfernt werden.

� Für den weitaus größten Teil der Items war kein substantielles ‚Differential I-

tem Functioning’ in Bezug auf das Geschlecht der Testpersonen festzustellen.

Von den 11 Items mit substantiellem DIF wurden 6 als ‚biased’ Items einge-

stuft und entsprechend eliminiert/überarbeitet.

� Außerdem wurden aufgrund von Lehrer- und Schülerrückmeldungen weitere

18 Items eliminiert/überarbeitet.

Als Gesamtergebnis ist festzuhalten, dass von den insgesamt entwickelten 275 I-

tems 179 Items nach psychometrischen Kriterien selektiert werden konnten. Tab.

15 fasst die zentralen Kennwerte der selektierten Items auf Testheftebene zusam-

men:133

� Die Itemtrennschärfen liegen größtenteils in einem mittleren bis hohen Be-

reich, immer jedoch über 0.25.

� Die Items sind relativ gleichmäßig über das Fähigkeitskontinuum verteilt (I-

temschwierigkeiten zwischen -3.55 und 3.18 logits) und weisen gleichzeitig

eine sehr gute Passung zum Rasch-Modell auf (MNSQ-Werte zwischen 0.81

und 1.19).134 Abb. 19 veranschaulicht dies, indem für alle Items der Itemfit

und die Itemschwierigkeit abgetragen sind.

133 Auf Itemebene sind die Kennwerte für alle selektierten Items detailliert in Anhang B darge-stellt. 134 Der weitaus größte Teil der Items liegt dabei in einem sehr engen Bereich (zw. 0.90 und 1.10) um den Erwartungswert ‚1’ herum (vgl. auch Abb. 19).

121

� Die Reliabilitäten, die jeweils pro Testheft berechnet wurden, sind in den mei-

sten Fällen befriedigend bis gut und liegen zwischen 0.57 und 0.82.135 Ledig-

lich die Testhefte 1, 7 und 9 weisen mit Werten zwischen 0.57 und 0.69 eine

geringe Reliabilität auf.

-4.00

-3.00

-2.00

-1.00

0.00

1.00

2.00

3.00

4.00

0.70 0.90 1.10 1.30

Itemfit (MNSQ)

Item

schw

ierig

keit

(logi

ts)

Abb. 19: Grafische Darstellung von Itemfit und Item-

schwierigkeit für alle selektierten Items136

Ergänzend zu den psychometrischen Eigenschaften beschreibt Tab. 16 den Item-

pool in inhaltlicher Hinsicht:

Das Itemformat der selektierten Items ist zu ungefähr zwei Dritteln geschlossen;

das verbleibende Drittel verteilt sich zu annähernd gleichen Teilen auf halb-offene

und geschlossene Items.

Die verwendeten Hörbeispiele sollten einem möglichst breiten stilistischen Spekt-

rum entstammen, um einerseits die angestrebte curriculare Validität zu gewähr-

leisten, andererseits aber auch um möglichen Präferenz- oder Gewohnheitseffek-

135 Es handelt sich hierbei um das EAP/PV-Reliabilitätsmaß (EAP = expected a posteriori, PV = plausible values). Dieses Reliabilitästmaß ist dem häufig in der Klassischen Testtheorie verwende-ten Cronbachs � vergleichbar und führt meist auch zu sehr ähnlichen Resultaten (vgl. Rost, 2004, S. 382). 136 Die beiden blauen Linien markieren die Grenzen des für die Itemselektion verwendeten akzep-tablen Bereichs der MNSQ-Werte von 0.80 bis 1.20.

122

ten entgegenzuwirken (vgl. 4.3). In Tab. 16 sind die Hörbeispiele hierfür in relativ

grobe Kategorien eingeteilt. Trotzdem wird deutlich, dass die Items eine große

Bandbreite verschiedener musikalischer Genres abdecken: ‚Klassische’ Musikstü-

cke bilden hierbei mit 38 % den größten Anteil und umfassen sowohl Instrumen-

tal- als auch Vokalmusik vom Mittelalter bis hin zu zeitgenössischer Musik. Eben-

falls recht häufig wurde ‚Volksmusik’ verwendet (21 %). Es handelt sich hierbei

einerseits um traditionelle außereuropäische Musik, andererseits werden aber auch

deutsche Blasmusik oder Gospels/Spirituals in dieser Kategorie zusammengefasst.

25 Items (14 %) enthalten Hörbeispiele aus der Kategorie ‚Rock/Pop’. Auch diese

Kategorie ist relativ weit gefasst und umfasst u. a. Oldies (z. B. Beatles), Hard-

Rock (z. B. AC/DC), HipHop (z. B. Eminem) oder auch aktuelle Chart-Musik

(z. B. Amy Winehouse). Wenngleich seltener, so ist auch Jazzmusik bei 6 % der

Items als Hörbeispiel vertreten. Die letzte Kategorie ‚Eigenproduktionen’ (13 %)

umfasst speziell für die Itementwicklung produzierte Hörbeispiele, die sich kei-

nem Genre zuordnen lassen; dies sind z. B. Percussionspattern (Rhythmuswahr-

nehmung) oder Instrumentenklänge (Klangwahrnehmung). 7 % der Items sind

ohne ein Hörbeispiel konstruiert.

In der rechten Hälfte von Tab. 16 ist die Verteilung der selektierten Items auf die

Dimensionen und Niveaus des theoretischen Kompetenzmodells dargestellt. Es

zeigt sich hier, dass alle Dimensionen und Niveaus mit einer ausreichenden An-

zahl an Items operationalisiert werden konnten.

123

Tab.

15:

Zus

amm

enfa

ssun

g de

r wic

htig

sten

psy

chom

etris

chen

Ken

nwer

te d

er se

lekt

ierte

n Ite

ms

Tes

thef

t N

r.

Item

anza

hl

insg

./sel

ektie

rt

Schw

ieri

gkei

t (kl

assi

sch)

Sc

hwie

rigk

eit

(Ras

ch)

Item

fit

(MN

SQ)

Tre

nnsc

härf

e R

elia

bilit

ät

(EA

P/PV

)

Min

/Max

M

W (S

D)

Min

/Max

M

in/M

ax

MW

(SD

) M

in/M

ax

MW

(SD

)

1 20

/15

12.7

1/68

.36

39.5

8 (1

5.11

) -1

.48/

2.03

0.

88/1

.13

1.01

(0.0

7)

0.32

/0.5

7 0.

42 (0

.08)

0.

693

2 28

/15

5.98

/91.

45

56.3

5 (2

4.60

) -2

.43/

2.10

0.

81/1

.15

0.99

(0.1

1)

0.30

/0.6

5 0.

45 (0

.12)

0.

797

3 26

/15

23.6

8/94

.24

59.3

6 (2

5.61

) -2

.42/

2.25

0.

88/1

.10

1.00

(0.0

6)

0.28

/0.5

7 0.

41 (0

.10)

0.

720

4 32

/23

14.8

8/94

.69

62.5

5 (3

0.40

) -2

.20/

3.18

0.

83/1

.11

1.02

(0.0

5)

0.26

/0.5

2 0.

37 (0

.07)

0.

738

5 41

/29

15.7

7/90

.04

57.6

1 (2

2.23

) -2

.34/

2.57

0.

88/1

.15

1.00

(0.0

7)

0.25

/0.5

6 0.

39 (0

.09)

0.

822

6 31

/24

6.67

/87.

50

36.1

9 (2

4.26

) -2

.46/

2.54

0.

89/1

.08

1.00

(0.0

5)

0.19

/0.6

1137

0.36

(0.1

0)

0.71

9

7 27

/15

5.23

/66.

56

29.6

6 (1

9.54

) -1

.67/

2.42

0.

94/1

.11

1.01

(0.0

5)

0.28

/0.5

3 0.

39 (0

.09)

0.

574

8 34

/24

6.20

/90.

08

33.3

9 (2

2.71

) -3

.55/

2.49

0.

81/1

.19

1.00

(0.0

9)

0.26

/0.5

5 0.

42 (0

.08)

0.

823

9 35

/19

7.97

/88.

05

34.7

8 (2

3.00

) -2

.83/

1.48

0.

86/1

.07

1.00

(0.0

5)

0.27

/0.5

3 0.

37 (0

.09)

0.

632

Ges

amt

275/

179

Tab.

16:

Übe

rblic

k üb

er It

emfo

rmat

, Hör

beis

piel

-Gen

res u

nd V

erte

ilung

auf

die

theo

retis

chen

Kom

pete

nzdi

men

sion

en/-n

ivea

us d

er se

lekt

ierte

n Ite

ms

It

emfo

rmat

G

enre

s der

Hör

beisp

iele

M

odel

ldim

ensi

onen

/-niv

eaus

g

h o

E

J K

O

P

W

D1

D2

D3

D4

N1

N2

N3

N1

N2

N3

N1

N2

N3

N1

N2

N3

14

37

20

13

19

12

7 13

7

16

13

8 H

äufig

keit

124

30

25

24

11

68

13

25

38

71

44

27

37

Proz

ent

69

17

14

13

6 38

7

14

21

40

25

15

21

g =

gesc

hlos

sene

For

mat

e, h

= h

alb-

offe

nes

Form

at o

= o

ffene

s Fo

rmat

; E =

Eig

enpr

oduk

tione

n, J

= J

azz,

K =

‚Kla

ssis

che’

Mus

ik, O

= o

hne

Hör

beis

piel

, P

= Po

p/R

ock,

W =

Wel

tmus

ik/V

olks

mus

ik; D

= D

imen

sion

, N =

Niv

eau

13

7 In T

esth

eft 6

wur

de e

in It

em tr

otz

eine

r zu

nied

rigen

Tre

nnsc

härf

e (.1

9) s

elek

tiert.

Das

Item

wie

s in

Bez

ug a

uf a

lle w

eite

ren

psyc

hom

etris

chen

Krit

erie

n gu

te W

erte

auf

und

war

au

s inh

altli

cher

Sic

ht u

nver

zich

tbar

.

124

Der in diesem Abschnitt dargestellte Ergebnisüberblick verdeutlicht, dass es im

Rahmen der Itementwicklung und -selektion gelungen ist, einen psychometrisch

hochwertigen Itempool zu generieren, der sowohl eine Differenzierung über das

gesamte Fähigkeitsspektrum ermöglicht als auch den strengen Annahmen des

Rasch-Modells genügt und nicht zuletzt die Strukturen des theoretischen Kompe-

tenzmodells abbildet.

Dieser Itempool ist ein zentrales Ergebnis der vorliegenden Arbeit, gleichzeitig

aber auch die Grundlage für die Pilotierungsstudie im Rahmen des KoMus-

Projekts (vgl. Kap. 2.2.3 und 8.5). Darüber hinaus bilden die selektierten Items die

Datenbasis für die Identifikation schwierigkeitsgenerierender Aufgabenmerkmale

in Kap. 7.

6.2 Inhaltliche Itemanalysen aus fachwissenschaftlicher Perspektive

In den vorangegangenen Abschnitten standen die psychometrischen Kriterien im

Vordergrund, die bei der Itemselektion zur Anwendung kamen. Nur am Rande

wurden dabei inhaltliche Aspekte berücksichtigt. In den nun folgenden Ausfüh-

rungen spielen die psychometrischen Kriterien nach wie vor eine Rolle. Im Zent-

rum stehen nun aber konkrete Items, die durch gute oder schlechte Kennwerte ge-

kennzeichnet sind. Es liegt der Fokus dabei weniger auf den methodisch-

statistischen Aspekten der Itemanalyse, sondern auf den fachwissenschaftlichen

Dimensionen der Itementwicklung und -überarbeitung. Zu fragen ist beispielswei-

se, was es in inhaltlicher Hinsicht bedeutet, dass ein Distraktor (fast) nicht ge-

wählt wurde oder dass ein anderer Distraktor ‚attraktiver’ ist als die richtige Ant-

wortalternative. Wurde von den Testpersonen nur geraten oder lassen sich be-

stimmte Lösungsstrategien oder Denkfehler identifizieren, die zur Wahl einer

Antwortalternative führen? Ähnlich lassen sich auch Fragen beispielsweise in Be-

zug auf die Itemschwierigkeit oder das Vorliegen von ‚Differential Item Functio-

ning’ (DIF) formulieren: Wodurch kommen starke Abweichungen von theoretisch

angenommener und empirisch gemessener Itemschwierigkeit zustande? Müssen

die theoretischen Annahmen korrigiert werden oder können inhaltliche Itemanaly-

sen die Diskrepanz erklären? Kann ein vorliegender DIF bei einem Item durch die

125

Gruppenvariable erklärt werden (‚biased’ Item) oder muss nach alternativen Er-

klärungen gesucht werden?

Es geht in den folgenden Abschnitten also darum, wie sich psychometrisch gute

und schlechte Kennwerte auf der konkreten inhaltlichen Itemebene manifestieren

und inwieweit eine Erklärung und evtl. Verbesserung der Werte durch eine fach-

didaktisch reflektierte Itemanalyse und -überarbeitung erreicht werden kann.

6.2.1 Gute Multiple-Choice-Items: Eine Frage der Distraktoren

Die Qualität von Multiple-Choice-Items hängt zu einem wesentlichen Teil von

den Distraktoren ab. So kann der Schwierigkeits- und Komplexitätsgrad eines I-

tems entscheidend durch die Wahl der Distraktoren gesteuert werden. Unterschei-

den sich diese sehr deutlich von der richtigen Antwort, so wird das Item in der

Regel einfacher. Umgekehrt wird das Item schwerer, umso ‚ähnlicher’ die

Distraktoren der richtigen Antwortalternative sind (Rost, 2004, S. 62 f.). Damit

verbunden ist die Ratewahrscheinlichkeit bei geschlossenen Formaten. Durch die

Formulierung von möglichst plausiblen und der richtigen Antwort relativ ähnli-

chen Distraktoren kann die Wahrscheinlichkeit verringert werden, dass die richti-

ge Antwort im ‚Ausschlussverfahren’ erraten wird (Bortz & Döring, 2006,

S. 214).

Die Analyse der Distraktoren ist aber auch in inhaltlicher Hinsicht interessant.

Durch die Analyse der falschen Antworten können häufig Probleme in der Aufga-

benformulierung aufgedeckt werden, aber auch Rückschlüsse auf die Lösungsstra-

tegien der Schüler gezogen werden. Dies soll im Folgenden an einigen Beispielen

verdeutlicht werden.138

Analyse 1: Schwierigkeitsindizes

Im Rahmen der ersten Analyse werden exemplarisch drei Items dargestellt, die

sich hinsichtlich der Schwierigkeitsindizes ihrer Distraktoren unterscheiden.

Das erste Item (D3-6a) dient zur Erfassung von Notationskenntnissen (vgl. Abb.

20). Die Schüler sollen hierbei die ersten sechs Takte des Kinderliedes „Alle mei-

138 Die methodischen Grundlagen für die im Folgenden dargestellten Analysen sind in Abschnitt 5.2.3 beschrieben.

126

ne Entchen“ der richtigen Notation zuordnen; als richtige Lösung muss entspre-

chend Antwortalternative 3 gewählt werden.

Abb. 20: Item D3-6a (Testheft 8)

Die Distraktoren sind so konstruiert, dass Distraktor 1 keinerlei Tonhöhenverän-

derung aufweist, Distraktor 2 das Lied als Umkehrung enthält und Distraktor 3

(= Antwortalternative 4) größtenteils die gleiche Bewegungsrichtung wie das Ori-

ginal aufweist, jedoch mit zu großen Intervallen. Zu erwarten war, dass unter den

falschen Antworten vor allem Distraktor 3 gewählt würde, da dieser der richtigen

Antwort am ähnlichsten ist.139 Die Ergebnisse der Distraktorenanalyse stützen

diese Hypothese (vgl. Tab. 17).

Tab. 17: Distraktorenanalyse Item D3-6a (Testheft 8)

Häufigkeit Pi, Pd rit, rd

Antwortalternative 1 (Distraktor 1) 29 11.98 -0.22

Antwortalternative 2 (Distraktor 2) 26 10.74 -0.10

Antwortalternative 3 (richtige Antwort) 129 53.31 0.42

Antwortalternative 4 (Distraktor 3) 43 17.77 -0.10

139 Dieser Distraktor sollte insbesondere von Schülern gewählt werden, die zwar grundsätzlich das Konzept der Tonhöhenorganisation innerhalb der metrischen Notation kennen, aber nicht in der Lage sind Intervallstrukturen im Detail zu lesen bzw. diese mit ihrer Hörwahrnehmung abzuglei-chen.

127

Darüber hinaus wird deutlich, dass für die Distraktoren des Items D3-6a durchweg

akzeptable Werte vorliegen: Alle Distraktoren werden ungefähr gleich häufig ge-

wählt, wobei Distraktor 3 aus den genannten Gründen der attraktivste ist. Auch

die Forderung einer negativen Korrelation mit dem Gesamttestwert ist für alle

Distraktoren erfüllt. Auf Basis der Distraktorenanalyse ergibt sich folglich in Be-

zug auf das Item kein Überarbeitungsbedarf.

Anders stellt sich die Situation in Bezug auf das folgende Item dar. Zur Lösung

des Items D1-1a muss die Besetzung eines Musikstücks hörend erkannt und an-

schließend der richtigen Beschreibung zugeordnet werden (vgl. Abb. 21). Als

Hörbeispiel dient hierfür das A-Capella-Intro des Songs „fat bottomed girls“ der

Rockband „Queen“.

Abb. 21: Item D1-1a (Testheft 1)

128

Die in Tab. 18 dargestellte Distraktorenanalyse zeigt, dass vier der fünf Distrakto-

ren überhaupt nicht gewählt wurden und auch Distraktor 3 lediglich von drei Test-

personen.

Tab. 18: Distraktorenanalyse Item D1-1a (Testheft 1)

Häufigkeit Pi, Pd rit, rd

Antwortalternative 1 (Distraktor 1) 0 - -

Antwortalternative 2 (Distraktor 2) 0 - -

Antwortalternative 3 (Distraktor 3) 3 2.54 -0.26

Antwortalternative 4 (richtige Antwort ) 114 96.61 0.21

Antwortalternative 5 (Distraktor 4) 0 - -

Antwortalternative 6 (Distraktor 5) 0 - -

Bei genauerer Betrachtung der Distraktoren ist dieses Ergebnis wenig verwunder-

lich, denn die Distraktoren unterscheiden sich zu deutlich von der richtigen Ant-

wort. Es ist davon auszugehen (und durch die Analyseergebnisse bestätigt), dass

die Diskrimination von Bandinstrumenten und A-Capella-Gesang keine besonde-

ren Anforderungen an die Hörwahrnehmung der Schüler stellt. Es ist im Prinzip

allen Schülern möglich, den Songausschnitt als reinen Gesangsteil zu identifizie-

ren. Auf Basis dieser Wahrnehmungsleistung ist es denkbar einfach, die richtige

Antwortalternative auszuwählen, denn alle Distraktoren enthalten entweder aus-

schließlich Instrumentalbesetzungen oder aber Solo-/Ensemblegesang mit zusätz-

lichen Instrumenten.

Aus psychometrischer Sicht ist das Item in dieser Form nicht sinnvoll und müsste

überarbeitet werden. Mögliche neue und vermutlich ‚attraktivere’ Distraktoren

könnten die Besetzung innerhalb eines Gesangsensembles differenzieren, z. B.:

„Besetzung: männliche Singstimmen“, „Besetzung: weibliche Singstimmen“,

„Besetzung: gemischtes Gesangsensemble“ oder „Besetzung: Sologesang“. Es

wurde an dieser Stelle jedoch auf eine Überarbeitung verzichtet, da die gesamte

Aufgabe aus weiteren Items besteht, die alle den gleichen Song (bzw. die weiteren

Songteile) und die gleichen Distraktoren verwenden. Item D1-1a wurde aus die-

sem Grund aus den Testanalysen ausgeschlossen, für die praktische Testdurchfüh-

rung jedoch als ‚Motivationsitem’ weiterhin verwendet.

129

Abb. 22 enthält das letzte Item (D3-1e) innerhalb dieser Analyse. Inhaltlich geht

es hierbei um die Erfassung von Kenntnissen in Bezug auf grafische Notations-

formen. Die Testpersonen sollen unter den gegebenen Grafiken diejenige auswäh-

len, die das Musikstück (Anfang einer vierstimmigen Bachfuge) am besten illust-

riert. Das Hörbeispiel enthält die Themeneinsätze aller vier Stimmen, sodass Ant-

wortalternative 3 die richtige Lösung darstellt.

Abb. 22: Item D3-1e (Testheft 2)

Abb. 23: Item D3-1e (Testheft D3)140

Die Distraktorenanalyse (Tab. 19) ergibt einen problematischen Schwierigkeitsin-

dex für Distraktor 1 (Pd = 2.87). Es lässt sich nur vermuten, warum gerade dieser

140 In der Regel wurden überarbeitete Items innerhalb des Aufgabenentwicklungsprozesses erneut getestet (vgl. 4.3). In wenigen Ausnahmen war dies aufgrund der begrenzten Testzeit nicht mög-lich bzw. erfolgten abschließende Modifikationen an einzelnen Items erst im Anschluss an die Ent-wicklungsphase. Für diese Items liegen folglich keine Daten für die Endfassungen der Items vor. Um die Items trotzdem in die inhaltlichen Analysen der vorliegenden Arbeit einbeziehen zu kön-nen (6.2 und Kap. 7), werden hierfür die Daten aus der ersten Stufe der Pilotierungsstudie genutzt (es sei an dieser Stelle ausdrücklich Anne-Katrin Jordan für die Überlassung des Datenmaterials gedankt). Alle entwickelten Items wurden im Rahmen der Pilotierungsstudie in vier Testhefte zu-sammengefasst, sodass jeweils nur Items einer Dimension in einem Testheft enthalten waren (vgl. Jordan, Knigge & Lehmann-Wermser, 2010). Die entsprechenden Testhefte sind gekennzeichnet durch die Bezeichnungen ‚D1’, ‚D2’, ‚D3’ und ‚D4’. Wenn also im Rahmen der vorliegenden Ar-beit auf Daten der Pilotierungsstudie zurückgegriffen wird, so ist dies immer aufgrund der Be-zeichnung des entsprechenden Testhefts ersichtlich.

130

Distraktor besonders selten gewählt wurde. Es könnte daran liegen, dass die drei

jeweils übereinanderliegenden geschwungenen Linien eine gewisse Gleichzeitig-

keit der Musik suggerieren. Dies entspricht jedoch gerade nicht dem Charakteris-

tischen des Hörbeispiels, dass durch den sukzessiven Einsatz der verschiedenen

(Solo-)Stimmen gekennzeichnet ist. Eine weitere Interpretationsmöglichkeit wäre

es, in der Grafik eine Dreiteiligkeit in formeller Hinsicht zu sehen oder in Bezug

auf die Tonhöhenstruktur eines Stückes den Wechsel eines hohen, tiefen und wie-

der hohen Teils. Sicher ist hingegen, dass sich der Distraktor 1 zu deutlich von der

richtigen Antwort unterscheidet bzw. es zu offensichtlich für die Schüler ist, dass

die entsprechende Grafik nicht zu der Musik passen kann.

Tab. 19: Distraktorenanalyse Item D3-1e (Testheft 2)

Häufigkeit Pi, Pd rit, rd

Antwortalternative 1 (Distraktor 1) 5 2.87 -0.11

Antwortalternative 2 (Distraktor 2) 11 6.32 -0.08

Antwortalternative 3 (richtige Antwort) 126 72.41 0.26

Antwortalternative 4 (Distraktor 3) 9 5.17 -0.09

Aufgrund dieser Überlegungen wurde Distraktor 1 überarbeitet. Abb. 23 enthält

das entsprechend modifizierte Item. Durch die neue grafische Gestaltung soll ein

musikalischer Verlauf angedeutet werden, der sukzessive Stimmeinsätze enthält

und mit einer Solostimme beginnt. Die Grafik weist somit eine gewisse Nähe zur

richtigen Antwortalternative auf, ist gleichzeitig aber auch noch eindeutig genug

von dieser zu unterscheiden. Tab. 20 enthält die Distraktorenanalyse des modifi-

zierten Items. Es zeigt sich, dass der überarbeitete Distraktor nun deutlich attrak-

tiver für die Testpersonen ist (Pd = 16.54) und das Item in Bezug auf die Distrak-

toren keine problematischen Werte mehr aufweist.

Tab. 20: Distraktorenanalyse Item D3-1e (Testheft D3)

Häufigkeit Pi, Pd rit, rd

Antwortalternative 1 (Distraktor 1) 84 16.54 -0.17

Antwortalternative 2 (Distraktor 2) 46 9.06 0.05

Antwortalternative 3 (richtige Antwort) 283 55.71 0.21

Antwortalternative 4 (Distraktor 3) 94 18.50 -0.16

131

Analyse 2: Trennschärfe

Während in den vorangegangenen Analysen ausschließlich die Schwierigkeitsin-

dizes betrachtet wurden, steht die Trennschärfe der Distraktoren im Zentrum der

folgenden Ausführungen. Distraktoren sollten negativ mit dem Gesamttestwert

korreliert sein (vgl. 5.2.3). Liegt hingegen eine positive Trennschärfe vor, so deu-

tet dies häufig darauf hin, dass ein entsprechender Distraktor zu ‚attraktiv’ ist,

denn er verleitet auch eigentlich leistungsstarke Testpersonen zu einer falschen

Antwort.

Item D4-1e-1 dient zur Erfassung von musikhistorischen und -kulturellen Wis-

sensbeständen in Zusammenhang mit der Hörwahrnehmung (vgl. Abb. 24). Als

Hörbeispiel wurde hierfür ein ‚Negro Spiritual’ verwendet; die richtige Antwort

ist entsprechend Antwortalternative 3.

Abb. 24: Item D4-1e-1 (Testheft 5)

Die Distraktorenanalyse (Tab. 21) zeigt zunächst, dass Distraktor 1 und 4 fast

nicht gewählt werden. Für den vorliegenden Zusammenhang ist aber vor allem in-

teressant, dass Distraktor 3 überaus attraktiv ist (Pd = 32.37) und gleichzeitig eine

positive Trennschärfe aufweist. Mit einem Wert von rd = 0.01 liegt die Korrelati-

on zwar noch unter dem Ausschlusskriterium (vgl. 6.1.1), trotzdem erscheint eine

genauere inhaltliche Betrachtung angebracht.

Der Distraktor wurde ursprünglich als richtige Antwort für ein weiteres Item in-

nerhalb der gleichen Aufgabe konstruiert (Hörbeispiel war hierbei die Stumm-

filmmusik eines Charly Chaplin Films). Für das vorliegende Item scheint der Dis-

132

traktor jedoch nur bedingt geeignet. In Gesprächen mit den Kooperationslehrern

wurde deutlich, dass viele Schüler die historische Dimension der Aufgabe nicht

ganz verstanden hatten und das Hörbeispiel der dritten Antwortalternative zuord-

neten, da solch eine Musik in Kinofilmen Verwendung finden könnte; eine Ent-

scheidung, die durchaus plausibel erscheint. Vor diesem Hintergrund wurde be-

schlossen, den Distraktor zu entfernen (es bleiben immer noch drei Distraktoren

übrig), da dieser eher zur Verwirrung und zu einem schlechteren Verständnis der

Aufgabenstellung beiträgt.

Tab. 21: Distraktorenanalyse Item D4-1e-1 (Testheft 5)

Häufigkeit Pi, Pd rit, rd

Antwortalternative 1 (Distraktor 1) 4 1.66 -0.05

Antwortalternative 2 (Distraktor 2) 26 10.79 -0.03

Antwortalternative 3 (richtige Antwort) 111 46.06 0.16

Antwortalternative 4 (Distraktor 3) 78 32.37 0.01

Antwortalternative 5 (Distraktor 4) 6 2.49 -0.19

Auch Item D4-1f-3 erfasst musikhistorische Kenntnisse im Zusammenhang mit

Hörwahrnehmung (vgl. Abb. 25). Die Schüler sollen Musikstücke bestimmten

musikgeschichtlichen Epochen zuordnen. Das Item enthält hierfür einen Aus-

schnitt einer Komposition von Anton Webern (op. 19), das entsprechend der Epo-

che „Neue Musik“ (Antwortalternative 6) zuzuordnen ist.

Abb. 25: Item D4-1f-3 (Testheft 5)

133

Bei Betrachtung der Distraktorenanalyse (Tab. 22) fällt sofort auf, dass die Dis-

traktoren 2 und 3 sehr häufig gewählt wurden und darüber hinaus positive Trenn-

schärfen aufweisen.141

Tab. 22: Distraktorenanalyse Item D4-1f-3 (Testheft 5)

Häufigkeit Pi, Pd rit, rd

Antwortalternative 1 (Distraktor 1) 23 9.54 -0.12

Antwortalternative 2 (Distraktor 2) 76 31.54 0.02

Antwortalternative 3 (Distraktor 3) 96 39.83 0.14

Antwortalternative 4 (Distraktor 4) 25 10.37 -0.11

Antwortalternative 5 (Distraktor 5) 7 2.90 0.10

Antwortalternative 6 (richtige Antwort) 1 0.41 -0.01

Es wäre nun naheliegend, direkt auf einer inhaltlichen Ebene nach möglichen

Gründen für die Attraktivität der beiden Distraktoren zu suchen. Denkbar wäre

beispielsweise, dass das Hörbeispiel Anklänge an Alte Musik enthält (was in vor-

liegendem Hörbeispiel jedoch nicht der Fall ist) und daher viele Schüler zu einer

Wahl des zweiten und dritten Distraktors veranlasst. Erklärungsbedürftig erscheint

insbesondere die sehr hohe positive Trennschärfe von Distraktor 3: Warum ordnen

gerade die leistungsstärkeren Schüler das Musikstück der Epoche „Barock“ zu?

Bevor jedoch allzu viel Mühe auf die Klärung dieser Fragen verwendet wird, er-

scheint eine Betrachtung der richtigen Antwort (Antwortalternative 6) hilfreich.

Denn das Problem liegt offensichtlich weniger bei den Distraktoren denn vielmehr

bei der Formulierung der richtigen Antwortalternative: Diese wird lediglich von

einem Schüler gewählt und ist damit unter allen Antwortalternativen diejenige mit

dem niedrigsten Schwierigkeitsindex. Auch an dieser Stelle waren die Rückmel-

dungen der Lehrer überaus hilfreich. Laut ihren Angaben sind hierbei zwei Dinge

von Bedeutung: Einerseits spielt Neue Musik im Unterricht der Klassenstufe nur

eine sehr untergeordnete Rolle, d. h. von entsprechenden Hörerfahrungen ist nur

für einen relativ kleinen Teil der Schüler auszugehen. Andererseits – und das wur-

de als hauptsächliches Problem genannt – verbinden die Schüler mit dem Termi-

nus ‚Neue Musik’ viel eher aktuelle Musik wie z. B. Pop, Rock, HipHop etc.

141 Für Distraktor 5 liegt ebenfalls eine positive Trennschärfe vor. Der Distraktor wurde jedoch nur von sieben Testpersonen gewählt, sodass die Trennschärfe an dieser Stelle nicht beachtet wird.

134

Vor diesem Hintergrund und auch unter Berücksichtigung der sonstigen problema-

tischen Distraktorenwerte (vgl. Tab. 22) wurde das Item umfassend überarbeitet.

Das modifizierte Item enthält nur noch drei Antwortalternativen (Distraktor 1:

Mittelalter, Distraktor 2: Klassik, richtige Antwortalternative: moderne „klassi-

sche“ Musik). Die in Tab. 23 dargestellte Distraktorenanalyse des überarbeiteten

Items zeigt, dass durch die neue Formulierung der richtigen Antwortalternative

eine deutliche Verbesserung erzielt werden konnte.

Tab. 23: Distraktorenanalyse Item D4-1f-3 (Testheft D4)

Häufigkeit Pi, Pd rit, rd

Antwortalternative 1 (Distraktor 1) 14 9.86 -0.04

Antwortalternative 2 (Distraktor 2) 88 61.97 -0.14

Antwortalternative 3 (richtige Antwort) 40 28.17 0.18

Analyse 3: fehlerdiagnostische Distraktorenanalyse

In der abschließenden Analyse zum Thema ‚Distraktoren’ soll verdeutlicht wer-

den, dass Distraktorenanalysen auch in fehlerdiagnostischer Hinsicht interessant

sein können.

In Abb. 26 ist Item D3-7c dargestellt, das Rhythmuswahrnehmung in Verbindung

mit Notationskenntnissen erfasst. Als Hörbeispiel dient ein synkopierter Rhyth-

mus, der in notierter Form Antwortalternative 1 zu entnehmen ist.

Abb. 26: Item D3-7c (Testheft D3)

135

Bei Betrachtung der Distraktorenanalyse ist vor allem interessant, dass der zweite

Distraktor am häufigsten gewählt wurde (vgl. Tab. 23). Der Schwierigkeitsindex

des Distraktors (Pd = 45.48) liegt sogar noch über dem der richtigen Antwort.

Tab. 24: Distraktorenanalyse Item D3-7c (Testheft D3)

Häufigkeit Pi, Pd rit, rd

Antwortalternative 1 (richtige Antwort) 53 36.05 0.24

Antwortalternative 2 (Distraktor 1) 22 14.97 -0.11

Antwortalternative 3 (Distraktor 2) 67 45.58 -0.12

Antwortalternative 4 (Distraktor 3) 5 3.40 -0.08

Wie ist der hohe Schwierigkeitsindex des zweiten Distraktors zu erklären? Ver-

gleicht man alle Antwortalternativen, so fällt auf, dass Distraktor 2 der richtigen

Antwort am ähnlichsten ist, und zwar in zweierlei Hinsicht: Einerseits sind die er-

sten beiden Noten identisch (was jedoch auch auf Distraktor 1 zutrifft), anderer-

seits enthält der zweite Distraktor die gleiche Notenanzahl wie die richtige Ant-

wort. Die letztgenannte Analogie ist ein interessantes Detail in fehlerdiagnosti-

scher Hinsicht. Dass gerade der Distraktor mit der gleichen Anzahl an Noten am

häufigsten gewählt wird, deutet auf eine bestimmte Lösungsstrategie hin. Auf der

Wahrnehmungsebene scheint es den meisten Schülern möglich, den Synkopen-

rhythmus zu erfassen. Inwieweit hierbei tatsächlich die richtige rhythmische

Struktur erhalten bleibt, muss offen bleiben; relativ sicher ist hingegen, dass die

Anzahl der Töne korrekt wahrgenommen wird und diese auch als Lösungsstrate-

gie benutzt werden. Viele Schüler scheinen die Anzahl der Töne abzuzählen und

dann in den Antwortalternativen nach der Notation mit fünf Noten zu suchen. Da

hierfür zwei passende Möglichkeiten zur Auswahl stehen (die richtige Antwortal-

ternative und Distraktor 2), sind es vermutlich vor allem die Schüler ohne detail-

lierte Kenntnisse in Bezug auf metrische Notation, die sich fälschlicherweise für

Distraktor 3 entscheiden. Schüler, die hingegen den Unterschied von Achtel- und

Viertelnoten kennen, werden mit hoher Wahrscheinlichkeit die richtige Antwort

wählen.

Wofür können die Überlegungen solch einer fehlerdiagnostischen Analyse genutzt

werden? Für Rückmeldung und Förderung auf Individualebene erscheint eine

Anwendung nicht sinnvoll, denn es können letztlich nur Wahrscheinlichkeitsaus-

136

sagen gemacht werden; auf Individualebene sind andere und speziell für diesen

Zweck entwickelte Aufgabentypen vorzuziehen (vgl. hierzu auch Fußnote 173).

Die genauere Analyse von Fehlerstrukturen bei Testaufgaben ist aber vor allem

für die Aufgabenkonstruktion und -überarbeitung interessant. Wenn z. B., wie in

vorliegendem Fall, eine gewisse Lösungsstrategie identifiziert werden kann, so ist

es möglich, im Anschluss daran Distraktoren zu konstruieren, die eine Aufgaben-

lösung weiter erschweren für die Testpersonen, die nicht über alle geforderten Fä-

higkeiten verfügen. Denn dadurch dass in Item D3-7c nur ein Distraktor mit fünf

Noten existiert, wird eine gewisse Anzahl der Schüler, die zwar die richtige No-

tenanzahl wahrgenommen haben, jedoch nicht über die eigentlich notwendigen

Notationskenntnisse verfügen, die richtige Antwort aufgrund von Raten wählen.

Würden hingegen alle Distraktoren fünf Noten beinhalten, so wäre die Ratewahr-

scheinlichkeit deutlich geringer und das Item würde entsprechend trennschärfer

die anvisierte Kompetenz erfassen.

6.2.2 Differential Item Functioning: ‚unfaire’ Items

In Abschnitt 5.2.6 wurden die methodischen Grundlagen von DIF-Analysen be-

schrieben. An dieser Stelle erfolgt nun exemplarisch die Analyse von zwei Items,

die substanziellen DIF in Bezug auf das Geschlecht der Testpersonen aufweisen.

Die beiden betreffenden Items (D4-3b-3/5 und D2-7a) wurden bereits im Rahmen

der Darstellung des Selektionsprozesses von Testheft 7 erwähnt (vgl. 6.1.2), sollen

an dieser Stelle jedoch einer genaueren Betrachtung unterzogen werden.

Das in Abb. 27 dargestellte Item D4-3b-3/5 erfasst die Fähigkeit, Musik einem be-

stimmten kulturellen Kontext zuzuordnen. Als Hörbeispiel wurde hierbei die Auf-

nahme eines traditionellen und mit Dudelsack gespielten schottischen Musik-

stücks gewählt; die richtige Antwort ist entsprechend „Europa“.

137

Abb. 27: Item D4-3b-3/5 (Testheft 7)

Die DIF-Analyse zeigt, dass das Item die Mädchen gegenüber den Jungen um

0.83 logits ‚benachteiligt’ (vgl. Tab. 10 in Abschnitt 6.1.2); d. h., haben Jungen

und Mädchen die gleiche Fähigkeitsausprägung (�v), so liegt die Lösungswahr-

scheinlichkeit für die Mädchen um ca. 20 % unter der der Jungen.142 Grafisch dar-

gestellt ist dies in Abb. 28.

Abb. 28: IC-Funktionen des Items D4-3b-3/5 für Mädchen (blau) und Jungen (grün)

Bei Betrachtung der Iteminhalte drängt sich jedoch keine plausible Erklärung auf,

warum hier ein Bias zwischen dem Geschlecht der Schüler und der Itembearbei-

142 Vgl. hierzu die Ausführungen zum ‚Logit der Wahrscheinlichkeit’ in Abschnitt 5.1.2.

138

tung vorliegen sollte. Auch die Befragung der Kooperationslehrer und die Durch-

sicht der Rückmeldebögen gaben an dieser Stelle keinen Aufschluss.

In Ermangelung einer plausiblen Erklärung und unter Berücksichtigung der Stich-

probenbeschaffenheit (vgl. 5.3.1) wurde das Item trotz des substantiellen DIF se-

lektiert, erhielt jedoch eine Markierung für eine erneute Überprüfung im Rahmen

der Pilotierungsstudie.143

Abb. 29: Item D2-7a (Testheft 7)

Bei Item D2-7a liegt der umgekehrte Fall vor: Hier werden die Jungen um 0.80

logits ‚benachteiligt’ (vgl. Tab. 10 in Abschnitt 6.1.2). Betrachtet man die in Abb.

30 dargestellten IC-Funktionen, so wird außerdem deutlich, dass ein DIF nicht in

allen Fähigkeitsbereichen in gleichem Umfang vorliegt. Vor allem bei Schülern im

unteren und mittleren Bereich liegen die Werte sehr weit auseinander, während bei

Schülern mit einer hohen Fähigkeitsausprägung (� > 0.6) nur geringe Unterschie-

de zu beobachten sind.

143 Durch die größere Stichprobe und die Vielzahl der erhobenen Hintergrundvariablen können im Rahmen der Pilotierung umfangreichere DIF-Analysen durchgeführt werden. In diesem Zusam-menhang wird es dann auch möglich sein, Interaktionen zwischen den Variablen zu berücksichti-gen.

139

Abb. 30: IC-Funktionen des Items D2-7a für Mädchen (blau) und Jungen (grün)

Im Vergleich zu Item D4-3b-3/5 ergibt auch die inhaltliche Analyse ein anderes

Bild (vgl. Abb. 29): Das Hörbeispiel des Items wird von einer Flötenschülerin

(begleitet von einem Klavier) gespielt. Die Aufgabenstellung sieht vor, dass die

Testpersonen der Schülerin und ihrem Begleiter Verbesserungsvorschläge hin-

sichtlich ihres Spiels geben sollen.

Hier ist die Erklärung naheliegend, dass es sich tatsächlich um ein ‚biased’ Item

handelt, da die Flöte ein genderspezifisches Instrument darstellt, das von Mädchen

deutlich häufiger gespielt und präferiert wird als von Jungen (z. B. Oster, 2000;

Stolla & Gaul, 2008). Entsprechend könnten hier Instrumentenpräferenzen eine

Rolle spielen oder aber auch Hörgewohnheiten/-präferenzen, die dazu führen, dass

Mädchen bei der Itembearbeitung einen Vorteil gegenüber Jungen haben. Auf-

grund dieser Überlegungen wurde das Item eliminiert.144

Die an dieser Stelle nur exemplarisch dargestellte Analyse von Items in Bezug auf

‚Differential Item Functioning’ ist ein effektives Hilfsmittel, um Aufgabenstel-

lungen zu identifizieren, die eine bestimmte Subgruppe der Testpopulation

benachteiligen bzw. übervorteilen. Die im Rahmen der vorliegenden Arbeit

durchgeführten DIF-Analysen ergaben insgesamt nur relativ wenige Items mit

144 Eine Überarbeitung wäre grundsätzlich möglich (z. B. durch eine Einspielung des gleichen Hörbeispiels mit einem anderen Instrument), wurde aber aufgrund einer Reihe bereits entwickelter ähnlicher Items nicht in Betracht gezogen.

140

substantiellem DIF (vgl. 6.1.3). Außer dem hier dargestellten Item wurden fünf

weitere als ‚biased’ Items eingestuft und entsprechend überarbeitet oder elimi-

niert. Interessant war hierbei, dass die meisten dieser Items einen Bias vermutlich

aufgrund von genderspezifischen Musikpräferenzen aufwiesen.

6.2.3 Analyse und Interpretation von Itemschwierigkeiten

Im Kontext der Ausführungen zur Itemselektion wurde bereits auf die Relevanz

der Analyse der Itemschwierigkeit hingewiesen und in statistisch-methodischer

Hinsicht entsprechend dargestellt (vgl. 5.2.1 und 6.1). Im folgenden Abschnitt

werden exemplarisch mehrere Items analysiert, deren Interpretation der I-

temschwierigkeit in verschiedener Hinsicht problematisch ist. Die drei Analysen

beinhalten jeweils Items, deren empirisch gemessene Schwierigkeit deutlich von

der theoretisch angenommenen abweicht. Im Vordergrund steht hierbei die Frage,

wie diese Diskrepanz zu erklären ist und welche Schlussfolgerungen daraus zu

ziehen sind.

Analyse 1 – theoretische vs. empirische Itemschwierigkeit I

Im Rahmen der Aufgabenentwicklung wurden mehrere Items zur Erfassung der

Fähigkeiten im Umgang mit Notation konstruiert. Eine Reihe an Items beinhaltet

hierfür Hörbeispiele, die einer bestimmten Notation zugeordnet werden müssen.

Der kompetente Umgang mit Notation umfasst jedoch nicht nur das Lesen, son-

dern auch das Schreiben von Notation. Aus diesem Grund wurden verschiedene

Items entwickelt, die von den Testpersonen verlangen, klingende Musik schrift-

lich zu fixieren. Ziel war hierbei eine Variation der Itemschwierigkeiten in Ab-

hängigkeit vom Komplexitätsgrad der Notation und/oder des Hörbeispiels. Ohne

an dieser Stelle auf weitere Details eingehen zu können, war es naheliegend davon

auszugehen, dass sehr einfache und kurze musikalische Strukturen in Kombinati-

on mit einer wenig komplexen Notation (z. B. nur einstimmig, geringe Anzahl an

verschiedenen Symbolen/Notenwerten) zu einer niedrigen Itemschwierigkeit füh-

ren würden. Abb. 31 zeigt solch ein Item, bei dem die Testpersonen einen kurzen

Rhythmus (Instrument: Klavier, Tonhöhe: konstant) mithilfe einfacher grafischer

Symbole notieren sollen.

141

Abb. 31: Item D3-7d (Testheft 3)

Bei der Auswertung des Items ist es zunächst etwas überraschend, dass – trotz des

niedrigen Komplexitätsgrades von Hörbeispiel und Notation – nur 53.29 % der

Schüler das Item lösen; die Itemschwierigkeit liegt mit � = 0.76 im mittleren Be-

reich.145 Dies deutet daraufhin, dass die Fähigkeit, wahrgenommene Musik

schriftlich zu fixieren, auf einem eher mittleren bis hohen Schwierigkeitsniveau

anzusiedeln ist.146 Weitere Items bestätigen dies und zeigen auch den vermuteten

Anstieg der Itemschwierigkeit in Abhängigkeit des Komplexitätsgrads von Hör-

beispiel und Notation (z. B. D3-7e; vgl. Abb. 43).

Vor diesem Hintergrund stellt sich die Frage, ob die Fähigkeit des Schreibens von

Notationen bei leistungsschwächeren Schülern grundsätzlich nicht ausgeprägt ist

oder ob eine fehlerhafte Itembearbeitung vielleicht zu einem gewissen Teil auf die

Wahrnehmungsanforderungen zurückzuführen sein könnte. Wenngleich die An-

forderungen an die Wahrnehmung durch Item D3-7d bereits sehr gering sind, so

wird mit den Items D3-10-1 und -2 der Versuch unternommen, diese auf ein Mi-

nimum zu reduzieren. Die zugrundeliegende Idee ist hierbei, den Rhythmus zu

verbalisieren und ihn dadurch leichter memorierbar zu machen. Dies ist ein be-

kanntes didaktisches Hilfsmittel, das häufig in der Rhythmusschulung eingesetzt

wird.

145 Die weiteren Itemkennwerte sind Tab. 59 in Anhang A zu entnehmen. 146 Der Schwierigkeitsunterschied zwischen dem Lesen und Schreiben von Notationen im Zusam-menhang mit Rhythmuswahrnehmung wird ausführlich in Abschnitt 7.1 behandelt (v. a. Analyse B.4).

142

Abb. 32: Items D3-10-1 und D3-10-2 (Testheft 4)

Betrachtet man nun die Itemschwierigkeiten, so zeigt sich, dass beide Items ent-

gegen der Hypothese nicht leicht sind. Mit Itemschwierigkeiten von � = 3.54 (D3-

10-1, „Viele kleine Mäuse“) und 2.22 (D3-10-2, „Eichhörnchenkinder“) sind die

Items sogar sehr schwer und auch deutlich schwerer als Item D3-7d. Wie ist dies

zu erklären? Bei einer qualitativen Fehleranalyse fällt zunächst auf, dass einige

Schüler die kurzen Endsilben (…Mäu-se, …kin-der), die entsprechend mit einem

Punkt zu notieren waren, als lange Endsilbe notieren (vgl. Tab. 25). Es ist durch-

aus nachvollziehbar, dass die Unterscheidung der Endsilben den Schülern schwer-

fällt, denn bei einem inneren Wiederholen des Rhythmus, das für das Notieren

notwendig ist, wäre es ebenso natürlich, die Endsilben lang auszusprechen – in

Abhängigkeit des Sprechtempos evtl. sogar die besser passende Rhythmisierung.

Es wurde daher entschieden, die entsprechenden Lösungen mit jeweils zwei Stri-

chen am Ende einer Notation ebenfalls als richtig zu werten. Dies erhöht zwar den

Anteil der Schüler mit einer korrekten Itembearbeitung (von 4.94 auf 7.44 % bzw.

von 9.1 auf 21.9 %), insgesamt bleiben aber beide Items sehr schwer (die oben

angegebenen Itemschwierigkeiten basieren bereits auf dieser Auswertung). Dar-

über hinaus ist die Fehleranalyse jedoch wenig aufschlussreich. Es lassen sich

keine besonders auffälligen Antwortmuster identifizieren, die auf eine systema-

tisch falsche Itembearbeitung hindeuten würden. Auffällig ist hingegen, dass bei

242 Testpersonen 50 bzw. 53 verschiedene Antworten (Notationen) vorliegen. Für

Item D3-10-2 sind die Schülerantworten in Tab. 25 dargestellt.

143

Tab. 25: Schülerantworten Item D3-10-2 (Testheft 4)147

Antwort Häufigkeit %

--- 1 .4

---- 1 .4

---.---. 1 .4

--.- 1 .4

--.-- 1 .4

--.-. 4 1.7

--.. 7 2.9

--... 2 .8

-.- 19 7.9

-.-- 10 4.1

-.--. 1 .4

-.-. 13 5.4

-.-.. 1 .4

-.. 1 .4

-..- 18 7.4

-..-- 31 12.8

-..--. 1 .4

-..-. 22 9.1

-..-.. 1 .4

-... 5 2.1

-...- 1 .4

-...-- 2 .8

-...-. 1 .4

-.... 3 1.2

.-- 3 1.2

.--- 1 .4

.---. 2 .8

.---.-. 1 .4

.--. 2 .8

.--.- 1 .4

.--.. 2 .8

147 Richtig gewertete Antworten = grau hinterlegt.

.-. 1 .4

.-.- 2 .8

.-.. 7 2.9

..- 23 9.5

..-- 9 3.7

..-. 4 1.7

..-.. 1 .4

... 1 .4

...- 12 5.0

...-- 1 .4

...-. 6 2.5

...-.. 1 .4

.... 1 .4

....- 1 .4

....-- 1 .4

....-..-- 1 .4

.....- 1 .4

.....-- 1 .4

.....----- 1 .4

......-.. 1 .4

........ 1 .4

Missing 5 2.1

Gesamt 242 100.0

144

Es ist nun schwierig auf dieser Basis eine schlüssige Interpretation vorzunehmen.

Denkbar wäre, dass die Aufgabe grundsätzlich nicht verstanden wurde. Dagegen

sprechen allerdings die sehr geringe Anzahl an fehlenden Werten und eine nur

vereinzelte Erwähnung der Aufgabe in den Lehrer- und Schülerrückmeldebögen.

Eine andere Erklärung könnte sein, dass ein verbalisierter Rhythmus eben keine

vereinfachende Wirkung, sondern eher eine schwierigkeitsgenerierende hat. Auch

ließe sich vermuten, dass die Transformation von gesprochenen Wörtern/Silben in

einen notierten Rhythmus eher eine sprachliche denn eine musikalische Kompe-

tenz ist.

Vor diesem Hintergrund erscheint ein Ausschluss der Items sinnvoll, denn letzt-

lich ist es sehr fraglich, ob das anvisierte Konstrukt durch die Items adäquat ope-

rationalisiert wird. Die Validität der inhaltlichen Passung der Items ist also zu be-

zweifeln, was schon allein daran deutlich wird, dass die Items explizit für die Er-

fassung basaler Kompetenzen konstruiert waren, empirisch sich dies aber nicht

bestätigen lässt. Die beiden Items sind somit auch ein gutes Beispiel für die Rele-

vanz einer fachdidaktisch-inhaltlichen Itemanalyse, die sich psychometrischer

Methoden bedient, diese aber stets kritisch reflektiert; denn auf Basis der Selekti-

onskriterien hätten beide Items selektiert werden können, da z. T. sogar sehr gute

Itemkennwerte (MNSQ, Trennschärfe etc.) vorliegen (vgl. Tab. 12 in Abschnitt

6.1.2).

Zusammenfassend lässt sich festhalten, dass in vorliegendem Fall Items ausge-

schlossen wurden aufgrund einer großen Diskrepanz zwischen theoretisch ange-

nommener und empirischer Schwierigkeit. Diese Diskrepanz ließ sich dabei nicht

zufriedenstellend erklären. Es erschien daher auch nicht angebracht, das Kompe-

tenzkonstrukt auf Basis der Items zu modifizieren. Wenngleich es prinzipiell

denkbar wäre, die Fähigkeit, einen gesprochenen Rhythmus zu notieren, als eine

Facette in das Kompetenzmodell (auf einem hohen Kompetenzniveau) zu integ-

rieren, so wäre dies jedoch aus fachdidaktischer Sicht nicht sinnvoll; denn ein mu-

sikalisch kompetenter Schüler ist schließlich nicht dadurch gekennzeichnet, dass

er gesprochene Sätze als Rhythmen notieren kann. Diese Art der Aufgabenkon-

struktion war vielmehr als Hilfestellung für leistungsschwache Schüler konzipiert,

was aber offensichtlich in dieser Form nicht zum gewünschten Ergebnis geführt

hat.

145

Analyse 2 – theoretische vs. empirische Itemschwierigkeit II

Dem Entwurf der dritten Dimension des Kompetenzmodells („Umgang mit Nota-

tion“; vgl. 4.1) lag die Hypothese zugrunde, dass es einen Unterschied zwischen

dem Umgang mit grafischer Notation und (traditioneller) metrischer Notation in

einem schwierigkeitsrelevanten Sinne geben könnte. Wie es auch häufig in Schul-

büchern oder Curricula anzutreffen ist, so wurde der Umgang mit (intuitiver) gra-

fischer Notation als basales Niveau ausgewiesen, wohingegen metrische Notation

erst auf den folgenden Niveaus hinzutritt. Dies erscheint zunächst plausibel, denn

die in schulischen Zusammenhängen (6. Klasse) verwendete grafische Notation ist

in der Regel stark vereinfachend, sodass z. B. ein grobes Mitverfolgen von Melo-

dieverläufen oder Erkennen salienter Ereignisse genügt. Das hierbei geforderte

Wissen beschränkt sich somit meist darauf, dass ein zeitlicher musikalischer Ver-

lauf horizontal dargestellt werden kann, während die Tonhöhenorganisation (me-

lodischer Verlauf) vertikal erfolgt. Grundsätzlich ist dieses basale Wissen auch in

Bezug auf das Lesen von metrischer Notation notwendig. Zusätzlich wird hier a-

ber noch eine Reihe von weiteren Kenntnissen benötigt (z. B. Wissen in Bezug

auf rhythmische Notenwerte, Intervallstrukturen, Versetzungszeichen, Pausen-

symbole, Dynamikzeichen, Taktkennzeichnung etc.), aufgrund derer von einer er-

höhten Schwierigkeit auszugehen ist.148

Vor diesem Hintergrund wurden mehrere Items entwickelt, zu deren Lösung ent-

weder grafische oder metrische Notationen zu verschiedenen Musikstücken zuge-

ordnet werden müssen. Ein gewisser Teil der Itemanalysen stützt durchaus die

Hypothese, dass der Umgang mit grafischer Notation grundsätzlich relativ einfach

ist und vor allem einfacher als der Umgang mit metrischer Notation (vgl. hierzu

auch die Analysen in Abschnitt 7.1). Eine Reihe von Items wirft jedoch Fragen

auf, die im Folgenden diskutiert werden sollen.

Abb. 33 zeigt zunächst ein Item zur Erfassung des Umgangs mit grafischer Nota-

tion, das gemäß den Erwartungen eine relativ niedrige Itemschwierigkeit aufweist.

148 Interessant sind in diesem Zusammenhang auch musikpsychologische Forschungsergebnisse, die zeigen, dass die Fähigkeit des Notenlesens aufgrund der spezifischen Anforderungen nur über formelle Bildung erlangt werden kann (z. B. Upitis, 1987).

146

Abb. 33: Item D3-1b (Testheft D3)

Das dazugehörige Hörbeispiel wird von einer Klarinette gespielt und enthält einen

kurzen Ausschnitt aus einer C-Dur Tonleiter (erst fünf Achtel aufwärts und dann

zwei Achtel abwärts: c, d, e, f, g, f, e; die richtige Antwortalternative ist somit das

zweite Bild von oben). Die Auswertung zeigt, dass der Großteil der Schüler

(75 %) die Aufgabenstellung bewältigt und die Itemschwierigkeit entsprechend

niedrig ausfällt (� = -1.32).

In Abb. 34 ist Item D3-1c dargestellt. Die Aufgabenstellung besteht auch hier dar-

in, aus den vier Grafiken diejenige auszuwählen, die das Hörbeispiel am besten il-

lustriert. Als Hörbeispiel dient ein kurzes Intro eines Jazz-Klaviertrios (Klavier,

Kontrabass und Schlagzeug). Die richtige Antwortalternative (oberste Grafik)

wird von 55.78 % der Schüler gewählt; die Itemschwierigkeit liegt mit � = -0.44

im mittleren Bereich, also deutlich schwieriger als eigentlich angenommen. Wie

ist dies zu erklären?

Betrachtet man die Grafiken genauer, so zeigt sich zunächst, dass auch hier relativ

einfache und klar voneinander zu unterscheidende Symbole gewählt wurden

(Punkte, Striche und Linien). Durch die Kombination der Symbole und deren Va-

riation entsteht jedoch ein erhöhter Komplexitätsgrad. Auch der Vergleich der

Antwortalternativen deutet auf einen erhöhten Schwierigkeitsgrad hin, denn jedes

Symbol taucht (in ähnlicher Form) in mindestens zwei Grafiken auf; d. h. es ge-

nügt für die Aufgabenlösung nicht, wenn ein Element einer Grafik richtig zu dem

Hörbeispiel zugeordnet wird, es muss auch die Kombination der Elemente be-

147

stimmt werden. Es ist offensichtlich, dass – im Gegensatz zum ersten Item – hier

höhere Anforderungen an den Umgang mit grafischer Notation gestellt werden.

Abb. 34: Item D3-1c (Testheft D3)

Darüber hinaus sind es aber auch die Wahrnehmungsanforderungen, die vermut-

lich entscheidend für die erhöhte Itemschwierigkeit verantwortlich sind. Während

des kurzen Intros spielt das Klavier jeweils drei aufsteigende Akkorde (grafisch

dargestellt als Punkte), auf einem Ride-Becken wird ein Swing-Rhythmus gespielt

(unterbrochene Linie in der Mitte), ein Kontrabass spielt eine zirkulierende Be-

gleitfigur (gewellte Linie unten). Die Diskrimination der gleichzeitig spielenden

Instrumente, und dabei die Wahrnehmung der charakteristischen rhythmischen

und/oder melodischen Spielart der einzelnen Instrumente, stellt im Vergleich zu

Item D3-1b eine deutlich erhöhte Anforderung an die Wahrnehmung dar.

Welche Schlussfolgerungen sind aus diesen Überlegungen zu ziehen? (1) Es

scheint zu undifferenziert, hinsichtlich des Umgangs mit grafischer Notation ge-

nerell von basalen Anforderungen auszugehen. Die beiden Beispiele zeigen, dass

auch unter Verwendung nur weniger und einfacher grafischer Symbole ein erheb-

licher Unterschied hinsichtlich der grafischen Komplexität entstehen kann.

148

(2) Darüber hinaus sind die Anforderungen an die Hörwahrnehmung zu berück-

sichtigen, denn die Schwierigkeit eines Items ergibt sich aus einer Kombination

der verschiedenen durch die Aufgabenstellung geforderten Anforderungen. (3)

Vor diesem Hintergrund stellt sich die Frage, ob die im theoretischen Kompe-

tenzmodell formulierte Niveaustruktur der dritten Dimension einer Überarbeitung

bedarf.149 Denn die Abgrenzung der beiden unteren Niveaus aufgrund von grafi-

scher und traditioneller Notation erscheint in zweierlei Hinsicht nicht zwingend:

Wie gezeigt wurde, können einerseits Items zur Erfassung des Umgangs mit grafi-

scher Notation durchaus auch mittlere Schwierigkeiten aufweisen; andererseits

liegt eine Reihe von Items mit metrischer Notation vor, deren Itemschwierigkeit

sehr niedrig ist.150 Eine rein inhaltlich orientierte Formulierung der Niveaustruktur

scheint also keine adäquate Beschreibung der Kompetenzdimension zu sein. Die

hier dargestellten Analyseergebnisse wurden daher im Rahmen des KoMus-

Projekts zum Anlass genommen, die betreffende Dimension zu revidieren. Hier-

bei wurden sowohl die Anforderungen an die Hörwahrnehmung berücksichtigt als

auch der Komplexitätsgrad einer Notation, jedoch unabhängig von der Notations-

art (grafisch/metrisch).151

Analyse 3 – Interpretationsprobleme bei komplexen Aufgaben

Auch die folgende Analyse nimmt zunächst ihren Ausgangspunkt bei dem Ab-

gleich der theoretisch angenommenen mit der empirisch gemessenen Itemschwie-

rigkeit. Hintergrund der Überlegungen zu dem in Abb. 35 dargestellten Item war

es, basale Wahrnehmungsanforderungen (unterstes Niveau der ersten Modelldi-

mension; vgl. 4.1) innerhalb eines etwas komplexeren Kontexts zu erfassen. Im

Zentrum der Aufgabenstellung steht dabei die Diskrimination von verschiedenen

149 Alternativ könnten auch die Items, die gegen die im Modell formulierten Annahmen ‚versto-ßen’, eliminiert und lediglich diejenigen selektiert werden, die die vorhandene Niveaustruktur stützen. Dies erscheint jedoch nicht sinnvoll, da – wie gezeigt werden konnte – genauere inhaltli-che Analysen durchaus plausible Erklärungen der Diskrepanz von angenommenen und empiri-schen Itemschwierigkeiten ergeben. Vor diesem Hintergrund scheint es angezeigt, die Modellan-nahmen zu überprüfen. 150 Die höchste Itemschwierigkeit eines Items mit grafischer Notation liegt bei � = 0.13 (Item D3-3, Testheft 6; vgl. Anhang A, Tab. 61). Die niedrigste Itemschwierigkeit eines Items mit metri-scher Notation liegt bei � = -1.58 (Item D3-7g, Testheft 2; vgl. Anhang A, Tab. 57). Entsprechen-de Items sind auch in den Analysen in Abschnitt 7.1 dargestellt. 151 Genauere Angaben zu den Modellmodifikationen bzw. der letztendlichen Struktur der betref-fenden Dimension können an dieser Stelle aus publikationsrechtlichen Gründen nicht erfolgen; vgl. hierzu die in Kürze zur Veröffentlichung vorgesehenen Projektergebnisse (u. a. Jordan et al., i. Vorb.).

149

Dynamiken. Als Hörbeispiel dienen die ersten 16 Takte von Joseph Haydns „Sin-

fonie mit dem Paukenschlag“.

Abb. 35: Item D1-2a (Testheft D1)

Als vollständig richtige Lösung wird die im Original notierte Reihenfolge der Dy-

namiken gewertet (Takt 1: piano, Takt 9: pianissimo, Takt 16: fortissimo). Da es

jedoch primär um die Erfassung von relativen Dynamikunterschieden geht, wurde

im Zuge der Auswertung beschlossen, auch die Dynamikabfolge „mezzoforte, pi-

ano, fortissimo“ als richtige Lösung zu werten. Somit ergibt sich ein Anteil von

41.1 % der Schüler, die das Item lösen und eine Itemschwierigkeit von

� = -0.13. Die Itemschwierigkeit liegt folglich deutlich über der theoretisch ange-

nommenen.

Wenngleich im Rahmen der Aufgabenentwicklung unter den Beteiligten Einigkeit

herrschte, dass die durch die Aufgabe verlangte Wahrnehmungsleistung sehr basal

und einfach ist, so wäre es doch denkbar, dass dies eine nicht zutreffende Annah-

me ist. Die Gegenthese würde lauten, dass die Diskrimination von Dynamiken für

Schüler der sechsten Jahrgangsstufe sehr wohl eine anspruchsvolle Wahrneh-

mungsleistung darstellt. Um dies zu überprüfen, wurde die Aufgabe zusätzlich in

modifizierter Form gestellt. Abb. 36 zeigt das entsprechende Item, das das identi-

sche Hörbeispiel enthält, dieses Mal jedoch ausschließlich auf die Wahrneh-

150

mungsleistung fokussiert (richtige Antwort: „Die Musik fängt leise an, wird dann

in der Mitte noch etwas leiser und endet sehr laut.“).152

Abb. 36: Item D1-2b (Testheft D1)

In dieser abgeänderten Form wird die Aufgabenstellung von 77.16 % der Schüler

gelöst und es ergibt sich eine deutlich niedrigere Itemschwierigkeit von � = -1.28.

Daraus folgt für Item D1-2a der Schluss, dass die Wahrnehmungsanforderungen

tatsächlich eher auf einem basalen Niveau angesiedelt werden können und nicht

primär für die hohe Itemschwierigkeit verantwortlich sind.

Bei der Suche nach weiteren möglichen Ursachen für die unerwartet hohe

Schwierigkeit von Item D1-2a wird das hier zur Diskussion stehende Problem

deutlich: Je komplexer eine Aufgabenstellung konstruiert ist, desto schwieriger ist

es, die Komponenten oder Anforderungen einer Aufgabe zu identifizieren, die für

eine Lösung notwendig bzw. für eine fehlerhafte Bearbeitung verantwortlich sind.

Denkbar wäre z. B., dass sich einige Schüler nicht in der Partitur zurechtfinden.

Obwohl für die Aufgabenlösung die Partitur nicht im Detail mitgelesen werden

muss, so ist eine grobe Orientierung doch notwendig, um einen wahrgenommenen

Dynamikunterschied dem richtigen Kreis zuzuordnen. Eine weitere mögliche Ur-

sache könnte das verwendete Fachvokabular sein. Wenngleich die italienischen

Dynamik-Begriffe und deren Abkürzungen in einer kleinen Legende erklärt wer-

den, so dürften doch zumindest die Schüler im Vorteil sein, die den Umgang mit

den entsprechenden Termini gewöhnt sind. Nicht zuletzt der hohe Textanteil im

152 Die beiden Items D1-2a und 2b wurden im Rahmen eines sogenannten ‚Multi-Matrix-Designs’ auf unterschiedliche Testhefte verteilt, sodass die Schüler jeweils nur eine der beiden Aufgaben bearbeiten mussten (vgl. Jordan, Knigge & Lehmann-Wermser, 2010). Aufgrund der testtheoreti-schen Eigenschaften des Rasch-Modells ist eine gemeinsame Skalierung der Items trotzdem mög-lich (vgl. z. B. Baumert, Köller, Lehrke & Brockmann, 2000).

151

Itemstamm könnte ein Grund dafür sein, dass (vor allem leseschwächere) Schüler

die Aufgabe nicht korrekt bearbeiten. Vergleicht man die Aufgabe mit anderen

KoMus-Aufgaben, so wird darüber hinaus auch deutlich, dass das gesamte ‚De-

sign’ deutlich komplexer als das der meisten anderen Aufgaben ist: Die Aufgabe

besteht aus einem sehr langen Hörbeispiel (1:20 min mit Wiederholung), einem

längeren Einleitungs- und Erklärungstext, einer Legende, einer Partitur und einem

relativ ungewöhnlichen Antwortformat (Eintragung der Antwort in eine Partitur,

im Gegensatz zum meist notwendigen Ankreuzen einer Antwortalternative).

Es muss an dieser Stelle offen bleiben, welche Aufgabencharakteristika in wel-

chem Ausmaß tatsächlich für die empirisch gemessene Itemschwierigkeit verant-

wortlich sind. Eindeutig kann lediglich festgehalten werden, dass über die Wahr-

nehmungsanforderungen hinaus auch noch weitere Anforderungen von Relevanz

sind. Es stellt sich daher die Frage, wie mit solch komplexen Aufgaben umzuge-

hen ist:

(1) Aus fehlerdiagnostischer Sicht werden entsprechende Aufgabenstellungen –

zumindest beim Einsatz mit größeren Stichproben – immer unbefriedigend blei-

ben. Denn es lässt sich aus den resultierenden Daten nicht darauf schließen, wel-

che Kompetenzdefizite letztlich für eine fehlerhafte Aufgabenbearbeitung verant-

wortlich waren. Für fehlerdiagnostische Zwecke – insbesondere auf Individual-

ebene – sind komplexere Testaufgaben daher in der Regel ungeeignet (vgl. hierzu

auch Fußnote 173).

(2) Aber auch in Bezug auf die Testpersonen, die eine entsprechende Aufgabe lö-

sen, erscheint eine Verwendung problematisch. Der Anspruch eines kriteriumsori-

entierten Kompetenztests ist es, die Kompetenzen der Schüler möglichst genau zu

bestimmen auf Basis der Aufgaben, die diese bearbeitet haben. Wenn nun aber bei

einer Aufgabe unklar ist, welche Teilkompetenzen für ihre Bearbeitung notwendig

sind, so kann auch eine Beschreibung der Kompetenzen der Testpersonen nur un-

genau ausfallen.

(3) In Bezug auf die Verwendung der hier exemplarisch diskutierten Aufgabe im

Rahmen des KoMus-Projekts stellt sich ein weiteres Problem: Wo kann die Auf-

gabe im Kompetenzmodell verortet werden? Oder anders formuliert: Welche Fa-

cetten des Modells werden durch die Aufgabe operationalisiert? Auch hier fällt

152

eine Zuordnung (über die eindeutig notwendigen Wahrnehmungsleistungen hin-

aus) schwer.

Vor diesem Hintergrund ist es verständlich, dass viele (vor allem der älteren) Lei-

stungstests Items verwenden, die eine eindeutige Interpretation der Testergebnisse

zulassen, daher aber meist auch nur relativ eng umrissene Teilfähigkeiten erfassen

und keine komplexeren Zusammenhänge einbeziehen. Es ist aber gerade Kernbe-

standteil des Kompetenzkonzepts, dass Kompetenzen in möglichst kontextspezifi-

schen Anwendungssituationen erfasst werden sollen. In diesem Zusammenhang

sind folglich komplexere Aufgabenstellungen nicht nur nicht zu vermeiden, sie

sind geradezu notwendig und erwünscht.

Um diesem Problem zu begegnen, wurden in der Vergangenheit große Fortschrit-

te auf dem Gebiet der Testtheorie und Testmethodik erzielt. Zu nennen sind hier-

bei z. B. sogenannte ‚multidimensionale Testmodelle’ und insbesondere ‚Bet-

ween-Item-’ bzw. ‚Within-Item-Modelle’ (z. B. Hartig & Höhler, 2008; Wu et al.,

2007, S. 91 ff.). Stark vereinfacht ausgedrückt geht es dabei darum, die auf Auf-

gabenebene vorhandene (oder zumindest vermutete) Mehrdimensionalität im Rah-

men von Skalierungsverfahren zu berücksichtigen. So können z. B. die für die

Bearbeitung der Testaufgaben notwendigen Teilkompetenzen als separate latente

Dimensionen modelliert werden. Diese statistischen Verfahren sind jedoch nur

sinnvoll anwendbar, wenn ein möglichst genaues Verständnis der Aufgabencha-

rakteristika vorliegt, die in Bezug auf die entsprechenden Teilkompetenzen von

Relevanz sind. In diesem Zusammenhang ist die Identifikation von sogenannten

‚schwierigkeitsgenerierenden Aufgabenmerkmalen’ von zentraler Bedeutung.

Diese hier nur angedeutete Thematik steht im Zentrum des folgenden Kapitels,

innerhalb dem der Versuch unternommen wird, möglichst detailliert die schwie-

rigkeitsgenerierenden Aufgabenmerkmale der KoMus-Items zu beschreiben, diese

zu systematisieren und zu validieren.

153

7 Weiterführende Itemanalysen: Identifikation schwierigkeits-

generierender Aufgabenmerkmale

Im Erkenntnisinteresse vorliegender Arbeit steht neben der empirisch validen und

psychometrisch abgesicherten Entwicklung von Testaufgaben auch die genauere

Erforschung der Aufgabencharakteristika und des Kompetenzkonstrukts (‚Musik

wahrnehmen und kontextualisieren’). Hierfür können vor allem die Ergebnisse der

Schwierigkeitsanalysen (5.2.1 und 6.1) genutzt werden, was in den folgenden Ab-

schnitten exemplarisch an zwei Kompetenzfacetten verdeutlicht wird: Rhythmus-

und Formwahrnehmung (7.1-7.2). Ziel ist jeweils die Identifikation sogenannter

‚schwierigkeitsgenerierender Aufgabenmerkmale’ mittels vertiefender und ver-

gleichender Itemanalysen.

Als ‚schwierigkeitsgenerierende Aufgabenmerkmale’153 werden die Eigenschaften

einer Testaufgabe bezeichnet, „die mit höheren oder niedrigeren Anforderungen

an die getesteten Personen einhergehen und damit die Lösungswahrscheinlichkei-

ten der Aufgaben beeinflussen“ (Hartig & Jude, 2007, S. 31). Bei der Beschrei-

bung solcher Aufgabenmerkmale geht es folglich darum, die Charakteristika eines

Items zu identifizieren, die in Bezug auf die Itemschwierigkeit relevant sind.

Warum ist die Identifikation solcher Charakteristika von Interesse? In Abschnitt

2.1.2 wurde ausführlich auf den Kompetenzbegriff eingegangen. Wichtiger Be-

standteil des Kompetenzkonstrukts – vor allem in Abgrenzung zu anderen Leis-

tungskonstrukten der pädagogisch-psychologischen Diagnostik (z. B. Intelligenz)

– ist die Kontextspezifität (z. B. Hartig, 2008b; Hartig & Klieme, 2006). Aus die-

ser Spezifität lässt sich das grundlegende Erkenntnisinteresse an den Charakteris-

tika einer Situation respektive einer Testaufgabe, in der sich kompetentes Handeln

manifestiert, ableiten. Besonderes Augenmerk liegt dabei auf den Eigenschaften

einer Situation, die das kompetente Handeln erleichtern oder erschweren. Denn

erst das

„Wissen über situative Charakteristika, die erfolgreiches Handeln mitbestimmen, er-möglicht ein tieferes Verständnis der Prozesse, die dem erfolgreichen Handeln zugrunde liegen, und damit ein besseres Verständnis des interessierenden Kompetenz-konstrukts. Im Kontext der Testentwicklung ist die Beschreibung relevanter Situati-onsmerkmale in eine Beschreibung der zur Erfassung eines Kompetenzkonstrukts ein-

153 In der Literatur sind auch die Bezeichnungen ‚schwierigkeitsbestimmende’ oder ‚anforderungs-relevante’ Aufgabenmerkmale anzutreffen, die inhaltlich jedoch äquivalent verwendet werden.

154

gesetzten Aufgaben zu übertragen; die Aufgaben werden hinsichtlich schwierigkeits-bestimmender Merkmale beschrieben.“ (Hartig & Jude, 2007, S. 31)

Über die Möglichkeit hinaus, mittels schwierigkeitsgenerierender Aufgaben-

merkmale ein genaueres Verständnis des durch die Aufgaben erfassten Kompe-

tenzkonstrukts zu erlangen, gibt es noch weitere Gründe, die der Thematik im

Kontext der Testkonstruktion zunehmend Bedeutung zukommen lassen:

(1) Schwierigkeitsgenerierende Aufgabenmerkmale können für die Festlegung

von Kompetenzniveaus verwendet werden (z. B. Hartig, 2007). Lassen sich unter-

schiedliche Itemschwierigkeiten empirisch durch ein bestimmtes Set an Aufga-

benmerkmalen erklären, so können mittels der betreffenden Merkmale die ver-

schiedenen Niveaus eines Kompetenzkonstrukts beschrieben werden. Diese Ni-

veaudefinitionen sind dann empirisch fundiert und gleichzeitig über die konkret

eingesetzten Testaufgaben hinaus generalisierbar (Hartig & Jude, 2007).

(2) Aus testtheoretischer Sicht kann die Vorhersage von Aufgabenschwierigkeiten

durch Aufgabenmerkmale als eine Prüfung der Validität des Messinstrumentes be-

trachtet werden (Borsboom, Mellenbergh & van Heerden, 2004; Hartig, 2007;

Hartig & Jude, 2007).

(3) Sofern empirisch validierte Aufgabenmerkmale vorliegen, können diese für

die Konstruktion neuer Aufgaben verwendet werden (Nold & Rossa, 2007). Es ist

dann möglich, für die zu entwickelnden Aufgaben spezifische ‚Anforderungspro-

file’ zu erstellen, die aus verschiedenen Kombinationen und Ausprägungen der

Aufgabenmerkmale bestehen. Eine in diesem Sinne modellgeleitete Aufgaben-

konstruktion ermöglicht die A-priori-Bestimmung, welche Aufgaben leichter oder

schwerer sein sollten und worauf diese Unterschiede zurückzuführen sind. Aufga-

ben können dementsprechend explizit für ein bestimmtes Kompetenzprofil bzw.

Kompetenzniveau entwickelt werden.

Konkret können sich schwierigkeitsgenerierende Aufgabenmerkmale auf eher

technische Oberflächencharakteristika, auf Eigenschaften des Aufgabenmaterials,

vor allem aber auf die verschiedenen theoretisch angenommenen kognitiven Pro-

zesse beim Lösen der Aufgaben beziehen (Hartig & Klieme, 2006, S. 136). Ober-

flächencharakteristika und Eigenschaften des Aufgabenmaterials sind z. B. das I-

tem-Format (gebunden vs. frei), die Art des Aufgabenstamms (z. B. Bildstimulus

vs. Hörstimulus) oder die Beschaffenheit des Itemstamms (z. B. langer vs. kurzer

Fragesatz). Der Einfluss dieser Merkmalsbereiche konnte u. a. im Rahmen von

155

Studien zur Erhebung sprachlicher und mathematisch-naturwissenschaftlicher

Kompetenzen mehrfach nachgewiesen werden (z. B. Beck & Klieme, 2007; Co-

hors-Fresenborg, Sjuts & Sommer, 2004; Prenzel, Häußler, Rost & Senkbeil,

2002). Auch in Bezug auf musikalische Kompetenzen erscheint es naheliegend,

von einem Einfluss solch allgemeiner, nicht fachspezifischer Merkmale auszuge-

hen (vgl. 7.4), wenngleich hierzu bislang keine Studien vorliegen. Ebenfalls noch

keine musikspezifisch formulierten Aufgabenmerkmale gibt es in Bezug auf die

kognitiven Lösungsprozesse, die zur Bearbeitung einer Aufgabe nötig sind. Eine

Übertragung von Forschungsergebnissen anderer Fachdidaktiken erscheint dies-

bezüglich nur schwer möglich. Hartig & Klieme (2006) geben einige Beispiele für

schwierigkeitsgenerierende Merkmale auf dem Gebiet sprachlicher Kompetenz:

„Beispiele für mögliche Bereiche, in denen Merkmale kodiert werden können, sind zum Lösen der Aufgabe auszuführende kognitive Operationen (z. B. Bilden eines mentalen Modells beim Lesen), Schwierigkeit hinsichtlich spezifischer Kriterien (z. B. Wortschatz eines Lesetextes), spezifische Phänomene im jeweiligen Leistungsbereich (z. B. Bilden von Konjunktiv-Formen) […].“ (S. 136)

Sehr ausführlich werden Aufgabenmerkmale und deren empirische Validierung

von Nold & Rossa (2007) für den Bereich Hörverstehen im Fach Englisch be-

schrieben.154 Auch wenn die konkreten Merkmale nicht für die Hörwahrnehmung

im Fach Musik adaptiert werden können, so erscheint doch der grundsätzliche me-

thodologische Ansatz interessant, Determinanten der Schwierigkeit von Hörver-

stehensaufgaben „auf die Aufgabe, den Text und die Interaktion zwischen Aufga-

be und Text zu beziehen“ (Nold & Rossa, 2007, S. 184). Es werden hier also die

Merkmale systematisiert in Bezug auf die technischen Oberflächencharakteristika

einer Aufgabe, die Eigenschaften des zu verstehenden Textes und die kognitiven

Prozesse, die für die Aufgabenlösung notwendig sind. Prenzel et al. (2002) neh-

men eine ähnliche Systematisierung der Aufgabenmerkmale vor und unterschei-

den „formale Aufgabenmerkmale, kognitive Anforderungen beim Lösen der Auf-

gaben und Merkmale der für das Lösen der Aufgaben erforderlichen Wissensba-

sis“ (S. 125). Beide Ansätze können fruchtbar gemacht werden für vorliegende

Arbeit, da auch in Bezug auf die KoMus-Items von mehreren und teilweise ähnli-

chen Merkmalsebenen auszugehen ist (vgl. 7.5).

154 Für die Mathematikdidaktik vgl. z. B. Neubrand, Klieme, Lüdtke & Neubrand, 2002 und die entsprechenden Beiträge in Neubrand, 2004; für die Naturwissenschaften z. B. Prenzel, Häußler, Rost & Senkbeil, 2002. Für den Kompetenzbereich ‚Sprache und Sprachgebrauch’ im Fach Deutsch wurden Aufgabenmerkmale von Isaac, Eichler & Hosenfeld (2008) untersucht.

156

In den folgenden Abschnitten wird der Versuch unternommen, schwierigkeitsge-

nerierende Aufgabenmerkmale zu identifizieren, die sich auf die Aufgabe, das

Hörbeispiel, (sofern vorhanden) den Notentext, die Wahrnehmungsanforderungen

und die für die Aufgabenlösung notwendige Wissensbasis beziehen. Der Schwer-

punkt wird hierbei zunächst auf den letztgenannten Merkmalsebenen (‚Hörbei-

spiel/Notentext’, ‚Wahrnehmungsanforderungen’ und ‚Wissensbasis’) liegen, da

hier besonders von musikspezifischen und die Hörwahrnehmung betreffenden

Merkmalen auszugehen ist (Abschnitte 7.1-7.3). Die Merkmalsebene ‚Aufgabe’

(u. a. technische Oberflächencharakteristika, sprachliche Anforderungen), die un-

abhängig von einzelnen Kompetenzfacetten auf übergeordneter Ebene zu untersu-

chen ist, wird anschließend in Abschnitt 7.4 behandelt.

Wie können nun konkret schwierigkeitsgenerierende Merkmale von Testaufgaben

identifiziert und beschrieben werden? Notwendig ist dazu eine differenzierte Vor-

stellung der Prozesse, die beim Bearbeiten und Lösen der Aufgaben ablaufen

(Hartig & Klieme, 2006, S. 136). Im Idealfall liegen hierfür theoretische Annah-

men vor, die eine systematische Einschätzung der Aufgabenschwierigkeiten und

der dafür verantwortlichen Aufgabenmerkmale vor der Durchführung eines Tests

erlauben. Geleitet von den theoretischen Annahmen können verschiedene Merk-

male voneinander abgegrenzt und zu jedem Merkmal Deskriptoren der Ausprä-

gungsstufen formuliert werden (z. B. Nold & Rossa, 2007). Mittels dieser De-

skriptoren werden anschließend alle Aufgaben hinsichtlich ihrer Merkmale einge-

schätzt und kodiert. Auf Basis der Testdaten kann abschließend der postulierte

Einfluss der Aufgabenmerkmale auf die Aufgabenschwierigkeiten empirisch z. B.

mittels Regressionsanalysen überprüft werden (z. B. Hartig, 2004; Rauch & Har-

tig, 2007). Der große Vorteil dieses streng theoriegeleiteten Vorgehens ist die

Möglichkeit, die so empirisch validierten Aufgabenmerkmale über die konkreten

Aufgaben hinaus generalisieren zu können (Hartig & Jude, 2007).

Für das Fach Musik sind solch differenzierte theoretische Vorstellungen, die es er-

lauben würden Aufgabenmerkmale a priori – also vor Bearbeitung der Aufgaben

durch die Schüler – zu bestimmen, jedoch nur in sehr begrenztem Umfang vor-

handen (vgl. 4.2). Daher wurde für vorliegende Arbeit ein kombiniertes methodi-

sches Vorgehen gewählt:

(1) Aufgaben zur Operationalisierung von Facetten des Kompetenzmodells, zu

denen theoretische Annahmen auf Basis von Forschungsergebnissen vorliegen

157

(vgl. 4.2.2), wurden a priori hinsichtlich möglicher schwierigkeitsgenerierender

Merkmale eingeschätzt.

(2) Für alle weiteren Aufgaben wurde ebenfalls versucht, Merkmale schon wäh-

rend der Aufgabenentwicklung zu beschreiben. Hierzu wurde jeder Aufgabenent-

wurf mit einer Beschreibung der vermuteten Merkmale und einem antizipierten

Schwierigkeitsniveau versehen (vgl. 4.3). Diese Beschreibungen haben somit –

ebenso wie die theoriegeleiteten Merkmale (Punkt 1) – den Status von Hypothe-

sen, die im Rahmen der im Folgenden dargestellten Analysen zu überprüfen sind.

(3) Die A-priori-Beschreibung von hypothetischen Merkmalen gelang bei vielen

Aufgaben jedoch nur unzureichend. Im Rahmen der Sitzungen des Entwicklungs-

teams wurde immer wieder deutlich, wie wenig sowohl aufseiten der Schulprakti-

ker als auch der Fachdidaktiker darüber bekannt ist, welche Prozesse beim Bear-

beiten und Lösen von Aufgaben ablaufen. Diese Aufgaben, für die keine schwie-

rigkeitsgenerierenden Merkmale sinnvoll während der Aufgabenkonstruktion be-

schrieben werden konnten, werden trotzdem in die folgenden Analysen einbezo-

gen. Ziel ist hierbei die explorative Bestimmung von Merkmalen mittels Post-

Hoc-Analysen. Bei diesen Analysen werden die Aufgaben auf Basis der Testbear-

beitung durch die Schüler und die dadurch ermittelten empirischen Aufgaben-

schwierigkeiten betrachtet. Auf dieser Grundlage können Aufgaben mit verschie-

dener Schwierigkeit verglichen und hinsichtlich der sie unterscheidenden Merk-

male oder Merkmalsausprägungen analysiert werden.

Die im Folgenden dargestellten Analysen beziehen sich auf alle drei genannten

Punkte. Es werden also einerseits Hypothesen in Bezug auf schwierigkeitsgenerie-

rende Aufgabenmerkmale mit den empirischen Daten abgeglichen, andererseits

wird durch Post-Hoc-Analysen versucht, entsprechende Merkmale explorativ zu

identifizieren.

7.1 Vertiefende Analysen der Items zur Rhythmuswahrnehmung

In den meisten Curricula spielt die Rhythmuswahrnehmung eine wichtige Rolle.

Schüler sollen sich u. a. Rhythmen merken können, diese wiedererkennen, aus

motivischem Material Rhythmen extrahieren oder Rhythmen einem Notenbild zu-

ordnen. Im Testkonstrukt wurde dementsprechend die Rhythmuswahrnehmung als

158

eine Facette der Wahrnehmungskompetenz definiert und anschließend operationa-

lisiert (vgl. 4.2.1).

Auf den ersten Blick handelt es sich bei den folgenden Aufgaben um eher weniger

komplexe Items, die in ähnlicher Form auch in musikpsychologischen Testin-

strumenten zu finden sind. Die Items erfassen die rhythmische Wahrnehmung

teilweise recht isoliert und kontextfern. In diesem Sinne sind sie nicht repräsenta-

tiv für den gesamten Item-Pool. Trotzdem eignen sich gerade diese Items für die

folgenden Analysen, da sich hier besonders gut einzelne Merkmale identifizieren

lassen, die für die Schwierigkeit der Items verantwortlich sind.

Zur Operationalisierung der Modellfacette wurden über mehrere Pretests verteilt

17 Items entwickelt. Eine Auswahl der Items ist mit Schwierigkeitsindizes und I-

temparameter in Tab. 26 abgebildet. Die Tabelle zeigt, dass die Items recht

gleichmäßig über nahezu das ganze Schwierigkeitsspektrum verteilt sind.

Tab. 26: Auswahl der Items zur Rhythmuswahrnehmung

Item-ID TH NR (%) PZK �

D3-7e D3155 17.20 - 1.41

D1-14b 3 44.08 25.44 1.19

D1-14a-3 3 59.87 46.49 0.45

D3-7c D3 36.05 14.73 0.43

D3-7d D3 35.48 - 0.37

D3-7f 2 60.26 47.01 0.21

D1-14a-2 2 65.38 53.85 -0.17

D3-7a 2 79.49 72.65 -0.93

D3-7a D3 77.24 69.65 -1.45

D3-7g 2 87.18 82.91 -1.58

D3-7b D3 83.67 78.23 -1.93

D1-14a-1 2 93.59 91.45 -2.43

Es drängt sich die Frage auf, worin diese große Varianz der Itemschwierigkeiten

begründet ist; oder einfacher formuliert: Was unterscheidet die schwierigeren von

den leichteren Items? Zur Beantwortung dieser Frage werden die Items zunächst

in zwei Analysegruppen geteilt:

(A) Items, die das Memorieren (Stichwort: musikalisches Gedächtnis) und Wie-

dererkennen eines Rhythmus in verschiedenen Zusammenhängen erfassen;

155 Zur Verwendung von Daten aus der Pilotierungsstudie vgl. Fußnote 140.

159

(B) Items, die Rhythmuswahrnehmung in Zusammenhang mit Notationskennt-

nissen erfassen.

Gruppe A: Rhythmen memorieren und wiedererkennen

Die Items der ersten Gruppe sind alle nach demselben Prinzip konstruiert: Zuerst

wird ein eintaktiger Rhythmus vorgespielt (Aufgabenstamm), den sich die Schüler

merken müssen. Nach einer kurzen Pause erklingen vier weitere Rhythmen (Ant-

wortalternativen), wobei einer davon dem Rhythmus des Aufgabenstamms ent-

spricht. Es geht also darum, einen Rhythmus zu memorieren und später wiederzu-

erkennen.

Analyse A.1: Merkmal ‚musikalisches Gedächtnis’

Abb. 37: Items D1-14a-2 und D1-14a-1 (Testheft 2)

Abb. 37 zeigt die Items D1-14a-1 und D1-14a-2, die eine identische Aufgaben-

stellung und vor allem eine vergleichbare Komplexität des Rhythmus (vgl. Tab.

27) aufweisen. Die Items unterscheiden sich jedoch darin, dass bei Item 14a-1 der

wiederzuerkennende Rhythmus an Position Zwei, bei Item 14a-2 jedoch erst an

Position Drei erklingt.

Im Rahmen der Aufgabenentwicklung wurde die Hypothese aufgestellt, dass I-

tems umso schwerer zu lösen sind, je später der richtige Rhythmus erneut erklingt,

da dadurch erhöhte Anforderungen an das musikalische Gedächtnis gestellt wer-

den. Gemäß dieser Hypothese sollte Item 14a-2 schwieriger sein, denn hier ist der

richtige Rhythmus eine Position später platziert.

Die diesbezüglich vermuteten Aufgabenmerkmale können anhand der beiden I-

tems wie folgt beschrieben werden: Aufgrund der Veränderung der richtigen

Antwortalternative um eine Position nach hinten werden durch das Item 14a-2

160

zwei erhöhte Anforderungen an die kognitiven Prozesse der Aufgabenlösung ge-

stellt: 1. Der Rhythmus von Item 14a-2 muss länger im Gedächtnis behalten wer-

den; 2. Durch den zusätzlichen Distraktor (14a-2: Antwortalternative Zwei), der

zwischen dem ursprünglichen und dem wiederzuerkennenden Rhythmus liegt,

wird nicht nur die Zeitspanne länger, sondern auch die Informationsmenge, die

verarbeitet und abgeglichen werden muss, wird größer.

Tab. 27: Vergleich der Itemschwierigkeiten von Item D1-14a-1 und D1-14a-2 (Testheft 2)

TH 2 Kurzbeschreibung NR (%) PZK �

D1-14a-2 Rhythmus + 4 Rhythmen (Position 3: ) 65.38 53.9 -0.17

D1-14a-1 Rhythmus + 4 Rhythmen (Position 2: ) 93.59 91.45 -2.43

Tab. 27 zeigt die empirisch ermittelten Itemschwierigkeiten. Die Hypothese und

die darauf bezogenen Aufgabenmerkmale werden durch die Daten gestützt: 14a-2

ist deutlich schwerer als 14a-1.

An dieser Stelle wird auch deutlich, warum solch ‚de-kontextualisierte’ und rela-

tiv wenig komplexe Items gut für die Identifikation von schwierigkeitsgenerieren-

den Merkmalen geeignet sind: Alle Aufgabencharakteristika können konstant ge-

halten werden (MC-Format, Aufgabenformulierung, rhythmische Komplexität,

klangliche Komplexität), sodass es sehr plausibel erscheint, die Veränderung des

Schwierigkeitsgrades auf die variierten Charakteristika respektive die dadurch

veränderten Merkmalsanforderungen zurückzuführen.156 Trotzdem ist hiermit

selbstverständlich noch keinesfalls der statistische Nachweis erbracht, dass die

vermuteten Aufgabenmerkmale auch tatsächlich für den Schwierigkeitsunter-

schied verantwortlich sind. Ziel der Analysen ist es, die vermuteten Merkmale, die

keine direkte Theorieanbindung haben, einer ersten explorativen Konfrontation

mit den empirischen Daten zuzuführen. Sofern sie diesem Abgleich standhalten,

erscheint es sinnvoll, die Merkmale weiter auszudifferenzieren und auf andere I-

temanalysen zu übertragen. Sie behalten vorerst aber den Status von Hypothesen,

156 Gestützt werden die vermuteten Merkmale auch durch weitere Analysen, die hier jedoch aus Platzgründen nicht mehr im Detail dargestellt werden. Verwiesen sei auch auf die durchgeführten ‚cognitive labs’, in deren Rahmen das Item 14a-1 ebenfalls eingesetzt wurde. Die Interviewergeb-nisse bestätigen die vermuteten kognitiven Operationen und die hierfür relevante Positionierung des richtigen Rhythmus (vgl. zur ‚cognitive labs’-Methode den Ausblick in Kapitel 8; die Ergeb-nisse in Bezug auf Item 14a-1 sind ausführlich dargestellt bei Knigge, Niessen & Jordan, im Druck).

161

die erst in weiteren Analyseschritten statistisch verworfen oder akzeptiert werden

können (vgl. 7.5).

Analyse A.2: Merkmal ‚klangliche Komplexität’

Die folgenden Items sind grundsätzlich mit dem vorherigen Typus vergleichbar in

dem Sinne, dass wiederum ein zu memorierender Rhythmus später wiedererkannt

werden muss. Der Unterschied liegt jedoch im Grad der klanglichen Komplexität:

Während bei Item D1-14a-3 sowohl der Originalrhythmus als auch alle folgenden

Rhythmen mit dem gleichen Percussionsinstrument gespielt werden (identisch den

Items aus Analyse A.1), folgen bei D1-14b vier einstimmige Melodien157 auf den

Percussionsrhythmus.

Abb. 38: Items D1-14a-3 und D1-14b (Testheft 3)

Bezüglich der schwierigkeitsgenerierenden Merkmale wurde die Hypothese for-

muliert, dass mit steigendem Grad der klanglichen Komplexität, in der ein

Rhythmus identifiziert werden muss, auch die Itemschwierigkeit zunimmt.

Die dabei vermuteten zugrundeliegenden Anforderungscharakteristika können an-

hand der Items 14a-3 und 14b verdeutlicht werden. Zunächst handelt es sich bei

beiden Items um die gleichen Anforderungen: Ein Rhythmus muss memoriert und

abgeglichen werden. Zusätzlich muss bei Item 14b jedoch der zugrundeliegende,

in den Melodien gewissermaßen ‚versteckte’ Rhythmus extrahiert werden. Detail-

lierter betrachtet können in Bezug auf die Melodien bzw. den Rhythmus drei rele-

vante Parameter beschrieben werden: (1) Klangfarbe, (2) Tonhöhe und (3) rhyth-

mische Struktur. Während der dritte Parameter sowohl für den Ausgangsrhythmus

157 Es handelt sich hierbei jeweils um den ersten oder die ersten beiden Takte der folgenden Stü-cke: Thema aus der Symphonie mit dem Paukenschlag (Melodie 1), „Hänschen klein“ (Melo-die 2), „Alle meine Entchen“ (Melodie 3), „O du fröhliche“ (Melodie 4). Gespielt werden die Me-lodien jeweils von einer Klarinette (Synthesizer).

162

als auch die richtige Melodie (Antwortalternative 2) gleich ist, ist Parameter 1 va-

riiert (Percussionsinstrument vs. Klarinette) und Parameter 2 ausschließlich für

die Melodien relevant. Um die zum ursprünglichen Rhythmus passende Melodie

zu finden, muss der entscheidende, den Rhythmus und die Melodien verbindende

Parameter (3) isoliert werden.

Für die Lösung des Items bedarf es also mehrerer parallel ablaufender kognitiver

Prozesse: Memorieren des ursprünglichen Rhythmus, Isolierung des rhythmischen

Parameters der jeweiligen Melodie, Abgleich der rhythmischen Struktur der Me-

lodien mit dem Ausgangsrhythmus.

Tab. 28: Vergleich der Itemschwierigkeiten von Item D1-14a-3 und D1-14b (Testheft 3)

TH 3 Kurzbeschreibung NR (%) PZK �

D1-14b Rhythmus + 4 Melodien („Hänschen klein“, Pos. 2: ) 44.08 25.44 1.19

D1-14a-3 Rhythmus + 4 Rhythmen (Pos. 3: ) 59.87 46.49 0.45

Tab. 28 zeigt, dass der Schwierigkeitsgrad eines Items tatsächlich steigt, wenn ein

Rhythmus nicht in der gleichen Gestalt wiederkehrt, sondern klanglich verändert

(also: komplexer). Bei der Aufgabenentwicklung wurde ursprünglich davon aus-

gegangen, dass sich dieser Unterschied noch deutlicher auf die Itemschwierigkeit

auswirken würde. Dass dem nicht so ist, dürfte hauptsächlich darauf zurückzufüh-

ren sein, dass der richtige Rhythmus bei Item D1-14a-3 erst an Position Drei er-

klingt und nicht an Position Zwei wie bei D1-14b.158 Somit ist leider keine opti-

male Vergleichbarkeit gegeben. Die vorangegangene Analyse hat aber bereits den

großen Einfluss der Positionierung des richtigen Rhythmus gezeigt, sodass davon

ausgegangen werden kann, dass der Unterschied zwischen den Items noch deutli-

cher als bereits vorhanden ausgefallen wäre, sofern auch Item D1-14a-3 den rich-

tigen Rhythmus an Position Zwei gehabt hätte.

Analyse A.3: Merkmal ‚melodische Unterstützung’

Abb. 39 zeigt Item D1-14c, das eine Variation des aus der vorigen Analyse bereits

bekannten Items D1-14b darstellt (vgl. Abb. 38). Die Aufgabenstellung ist in

klanglicher Hinsicht quasi umgekehrt: Es erklingt dieses Mal zuerst eine Klarinet-

158 Man könnte auch sagen, dass die beiden Items eine unterschiedliche Ausprägung des Merkmals ‚musikalisches Gedächtnis’ haben (vgl. Analyse A.1).

163

ten-Melodie, deren Rhythmus dann mit den vier folgenden Percussionsrhythmen

abgeglichen werden muss.

Abb. 39: Item D1-14c (Testheft 3)

Zunächst wurde für Item 14c ebenfalls die Hypothese formuliert, dass die unter-

schiedliche Instrumentierung von Aufgabenstamm und Antwortalternativen zu ei-

ner erhöhten Itemschwierigkeit im Vergleich zu Items ohne das Merkmal ‚klang-

liche Komplexität’ führen würde.

Stellt man nun aber Item 14c ein Item ohne klangliche Komplexität gegenüber, so

kann diese Hypothese nicht aufrecht erhalten werden.

Tab. 29 zeigt, dass die Itemschwierigkeiten von 14c und 14a-3159 annähernd

gleich sind. Dieser Befund ist umso erstaunlicher, wenn man berücksichtigt, dass

der Rhythmus von 14c komplexer (Punktierung) und zweitaktig, also deutlich

länger ist. Es lassen sich somit mindestens drei Merkmale beschreiben, die für 14c

im Vergleich zu 14a-3 erhöhte Anforderungen aufweisen: (1) musikalisches Ge-

dächtnis (größere Informationsmenge durch längeren Rhythmus), (2) rhythmische

Komplexität und (3) klangliche Komplexität. Angesichts dieser unterschiedlichen

Merkmalsausprägungen wäre zu erwarten gewesen, dass Item 14c deutlich schwe-

rer ist.

159 Item 14a-3 ist in Abb. 38 der vorangegangenen Analyse dargestellt.

164

g f f e d g

Tab. 29: Vergleich der Itemschwierigkeiten von Item D1-14a, D1-14b und D1-14c (Testheft 3)

TH 3 Kurzbeschreibung NR (%) PZK �

D1-14b Rhythmus + 4 Melodien („Hänschen klein“, Pos. 2: ) 44.08 25.44 1.19

D1-14c Melodie + 4 Rhythmen (Pos. 3: ) 58.55 44.73 0.51

D1-14a-3 Rhythmus + 4 Rhythmen (Pos. 3: ) 59.87 46.49 0.45

Wie kann die nicht vorhandene Schwierigkeitsdifferenz an dieser Stelle erklärt

werden? Während bei der vorangegangenen Analyse (A.2) die klangliche Kom-

plexität offensichtlich einen Einfluss auf die Itemschwierigkeit hatte (vgl. Tab.

28), scheint sich die Umkehrung der Aufgabenstellung auch in veränderter Form

auf die Schwierigkeit auszuwirken. Eine mögliche Interpretation ist die, dass die

unterschiedliche klangliche Realisation von Aufgabenstamm und Antwortalterna-

tiven in vorliegendem Fall der Itemschwierigkeit entgegenwirkt. Der zu memorie-

rende Rhythmus wird in Form einer Melodie dargeboten, was als eine Art ‚Merk-

hilfe’ betrachtet werden kann. Dies entspricht auch dem in vielen didaktischen

Konzeptionen verwendeten Vorgehen, Rhythmen mittels kleiner Memorierhilfen

(Silbenkombinationen, Merksätze oder eben kleine Melodieausschnitte) einzu-

üben. Dahinter steht die Erfahrung, dass ein abstrakter Rhythmus besser in Erin-

nerung behalten werden kann, wenn er z. B. verbal oder melodisch in seiner

Struktur betont und dadurch unterstützt wird. Ein die Erinnerung unterstützender

Effekt ist besonders dann zu erwarten, wenn die Melodie einprägsam ist und

gleichzeitig mit der Gliederung des Rhythmus korrespondiert; beides ist für Item

14c gegeben (vgl. Tab. 29).

Dass sich die unterstützende Funktion von Melodien in der vorangegangenen

Analyse A.2 nicht zeigte, ist einfach zu erklären. Dort mussten die Melodien nicht

memoriert, sondern in sehr kurzer Zeit mit einem im Kurzzeitgedächtnis abge-

speicherten Rhythmus abgeglichen werden. Als Memorierhilfe kamen die Melo-

dien hier also gar nicht zum Tragen. Vermutlich trägt die Einprägsamkeit einer

Melodie stattdessen vielmehr noch zur Schwierigkeitssteigerung bei, da die Melo-

dien dadurch als noch stärkere Distraktoren fungieren im Vergleich zu Antwortal-

ternativen, die lediglich als ‚normaler’ Percussionsrhythmus erklingen. Der in

Tab. 29 abgebildete Vergleich von Item 14b und 14c bestätigt diese Überlegun-

165

gen. Dabei muss erneut darauf hingewiesen werden, dass 14c auch im Vergleich

zu 14b den komplexeren und längeren Rhythmus enthält. Darüber hinaus erklingt

der richtige Rhythmus bei Item 14c erst als Antwortalternative Drei. Es wäre also

auch hier von einer größeren Differenz auszugehen, sofern die entsprechenden

Merkmalsausprägungen bei beiden Items gleich wären. Dies könnte auch dahin-

gehend interpretiert werden, dass die melodische Unterstützung ein relativ starkes

Merkmal ist, denn es kompensiert die höheren Anforderungen durch den komple-

xeren, längeren und später positionierten Rhythmus nicht nur, sondern macht das

Item darüber hinaus um 0.68 logits leichter als Item 14b.

Auf Basis der erfolgten Ausführungen kann eine neue Hypothese formuliert wer-

den: Das Aufgabenmerkmal ‚melodische Unterstützung’ trägt zur Absenkung der

Itemschwierigkeit bei. In dem Maße wie die Memorierbarkeit eines Rhythmus

durch melodische Strukturen unterstützt wird, sinkt die Schwierigkeit eines Items.

Es handelt sich bei diesem Aufgabenmerkmal also um ein ‚schwierigkeitsmin-

derndes’ Merkmal. Solche Merkmale sind in gleichem Maße relevant für die Er-

klärung von Aufgabenschwierigkeiten und sollten ebenso in die empirische Vali-

dierung der Merkmale einbezogen werden (z. B. Prenzel et al., 2002).160 Die vo-

rangegangenen Überlegungen haben deutlich gemacht, dass eine Nichtberücksich-

tigung eines entsprechenden Merkmals zur Unterschätzung anderer ‚echter’

schwierigkeitsgenerierender Merkmale führen kann.

Gruppe B: Rhythmuswahrnehmung und Notationskenntnisse

Die Items der Gruppe B sind grundsätzlich so konstruiert, dass zu ihrer Lösung

neben der Fähigkeit, rhythmische Strukturen wahrzunehmen, auch Notenlese-

kenntnisse notwendig sind. In den meisten Fällen muss hierfür ein Hörbeispiel ei-

ner eintaktigen Rhythmusnotation zugeordnet werden. Verwendet werden größ-

tenteils Multiple-Choice-Formate, sodass die Schüler aus vier verschiedenen

Rhythmusnotationen die zum Hörbeispiel passende auswählen müssen. Die als

Antwortalternativen fungierenden Notationen bleiben in Länge und Komplexität

immer gleich, nur die Hörbeispiele variieren in Bezug auf verschiedene Parame-

ter.

160 Solch ein schwierigkeitsminderndes Merkmal müsste dann negativ mit den Itemschwierigkei-ten korreliert sein, eine Regressionsanalyse sollte entsprechend ein negatives Regressionsgewicht für das Merkmal ergeben (zum methodischen Vorgehen der empirischen Validierung vgl. 7.5).

166

Analyse B.1: Merkmal ‚rhythmische Komplexität’

Ein Aufgabenmerkmal, dessen Einfluss auf die Schwierigkeit eines Rhythmus-

Items sehr naheliegend erscheint, wurde bislang noch nicht thematisiert, nämlich

den Rhythmus selbst in seiner Komplexität zu verändern.161 Aufgrund fachdidak-

tischen Erfahrungswissens lässt sich hierfür leicht eine Hypothese formulieren:

Die Itemschwierigkeit sollte mit zunehmendem Komplexitätsgrad eines Rhyth-

mus ansteigen.

Genauer kann die Hypothese jedoch formuliert werden unter Berücksichtigung

musikpsychologischer Forschungsergebnisse zur Rhythmuswahrnehmung (z. B.

Auhagen, 2005). Die Komplexität eines Rhythmus wird dort einerseits in Abhän-

gigkeit von der Schwierigkeit beschrieben, die sich bei der Extraktion eines dem

Rhythmus zugrundeliegenden Pulses ergibt. Andererseits spielen Gestaltbildungs-

und Segmentationsprinzipien eine zentrale Rolle. Grundlegend ist hierbei die Be-

obachtung, dass in der menschlichen Wahrnehmung Tonfolgen tendenziell so un-

tergliedert werden, dass benachbarte Gruppen eine möglichst große Ähnlichkeit

aufweisen (Gestaltbildungsprinzip). Des Weiteren erfolgt eine hierarchische Ab-

stufung von größeren und kleineren Gruppen (Segmentationsprinzip), wobei in-

nerhalb der Gruppen jeweils möglichst viele gleiche Elemente enthalten sind. Ent-

scheidend für die Einschätzung der Komplexität eines Rhythmus ist nun der Be-

fund, dass „je geringer die Zahl unterschiedlich strukturierter Untergruppen ist,

desto besser solche Folgen im Gedächtnis behalten [werden]“ (Auhagen, 2005, S.

235).

Demzufolge sollte beispielsweise der Rhythmus deutlich

schwerer zu memorieren sein als der Rhythmus , der sehr einfach in

zwei gleich strukturierte Untergruppen segmentiert werden kann (vier Achtel +

zwei Viertel).

Kombiniert man nun die musikpsychologischen Befunde mit den Ergebnissen der

curricularen Analysen162 (vgl. 4.2.1), ergibt sich folgende genauer spezifizierte

161 Analyse A.3 enthält zwar einen komplexeren Rhythmus, aufgrund der vielen dort simultan vor-handenen Merkmale konnten aber keine genaueren Aussagen zum Effekt der rhythmischen Kom-plexität auf die Itemschwierigkeit gemacht werden. 162 In den meisten Curricula werden für Schüler der sechsten Klasse Rhythmen als einfach einge-stuft, wenn sie eine regelmäßige Abfolge von Achtel-, Viertel- und Halbenoten haben. Eine erhöh-te Schwierigkeit wird angenommen bei Synkopen, Punktierungen und Triolen.

33

167

Hypothese: Die Schwierigkeit eines Rhythmus-Items steigt mit zunehmender

Komplexität des wahrzunehmenden Rhythmus. Der Komplexitätsgrad ist dabei

abhängig von der Zahl der unterschiedlich strukturierten rhythmischen Unter-

gruppen und deren Verhältnis zum Grundpuls des Rhythmus. Insbesondere für

Rhythmen, die als Untergruppe eine für Schüler der sechsten Klasse anspruchs-

volle rhythmische Figur (z. B. Triole oder Synkope) enthalten, ist von einer er-

höhten Schwierigkeit auszugehen.

Abb. 40: Items D3-7b und D3-7c (Testheft D3)

In Abb. 40 sind die Items D3-7b und D3-7c dargestellt, deren Rhythmen jeweils

auf dem gleichen Percussionsinstrument gespielt werden. Ebenfalls vergleichbar

ist der Komplexitätsgrad der zur Auswahl stehenden Notationen. Der einzige for-

male Unterschied besteht darin, dass der Rhythmus von Item 7c eine Synkope be-

inhaltet. Während der Rhythmus von 7b sich so untergliedern lässt, dass benach-

barte Gruppen eine große Ähnlichkeit aufweisen und sich gleichzeitig maximal

zwei unterschiedlich strukturierte Untergruppen ergeben, die mit dem Grundpuls

des Rhythmus zusammenfallen, ist Item 7c ein Beispiel für einen Rhythmus, der

sich in gewisser Hinsicht dem Segmentationsprinzip geradezu entzieht. Durch die

für Synkopen typische Inkongruenz von rhythmischer und metrischer Struktur ist

zunächst die Extraktion des Grundpulses deutlich erschwert, gleichzeitig ist aber

auch eine sinnvolle Segmentierung nicht mehr möglich.

168

Tab. 30: Vergleich der Itemschwierigkeiten von Item D3-7b und D3-7c (Testheft D3)

TH D3 Kurzbeschreibung NR (%) PZK �

D3-7c Rhythmus zu Noten zuordnen (Synkope) 36.05 14.73 0.43

D3-7b Rhythmus zu Noten zuordnen 83.67 78.23 -1.93

Die Auswirkung auf die Itemschwierigkeit ist offensichtlich: Der komplexe Syn-

kopen-Rhythmus kann nur noch von weniger als der Hälfte der Schüler richtig

zugeordnet werden. Dieser extreme Unterschied drückt sich entsprechend in einer

Differenz der Itemschwierigkeit von 2.36 logits aus.

Analyse B.2: Merkmal ‚klangliche/musikalische Komplexität’

Auch bei den Items der Gruppe B wurde die klangliche Komplexität variiert.

Während innerhalb der Gruppe A hierzu einstimmige Melodien eingesetzt wurden

(vgl. Analyse A.2), zeigt Abb. 41 ein Item (D3-7f) der Gruppe B, bei dem die

klangliche Komplexität durch die Verwendung eines mehrstimmigen Orchester-

satzes erzielt wird. Als Hörbeispiel dient hier eine kurze homophone Phrase einer

Beethovensymphonie.163

Die Hypothese lautet auch hier: Wenn ein Rhythmus aus einem klanglich kom-

plexeren Zusammenhang erschlossen werden muss, so ist von einem Anstieg der

Itemschwierigkeit auszugehen.

Der zunächst naheliegende Vergleich mit Analyse A.2 ist nicht sinnvoll, denn die-

ses Mal ist die klangliche Variation nicht zwischen Aufgabenstamm und Antwort-

alternativen angesiedelt, sondern allein aufseiten des Aufgabenstamms. Daher

muss für die Untersuchung des angenommenen Aufgabenmerkmals ein Item zum

Vergleich herangezogen werden, bei dem der Aufgabenstamm aus einem klang-

lich möglichst wenig komplexen Rhythmus besteht. Verwendet wird hierfür das

Item D3-7a, dessen Hörbeispiel vom üblichen Percussionsinstrument gespielt

wird, gleichzeitig aber in Bezug auf die rhythmische Struktur mit D3-7f ver-

gleichbar ist.

163 Symphonie No.7 in A, op.92, 2. Satz, Allegretto. In den verwendeten Takten 3-10 wird der Rhythmus viermal absolut identisch wiederholt, was in der vorliegenden Notation im 4/4-Takt vier Takten entspricht (im Original ist der Rhythmus im 2/4-Takt notiert).

169

Abb. 41: Items D3-7a und D3-7f (Testheft 2)

Tab. 31 bestätigt den vermuteten Effekt des Aufgabenmerkmals: Item 7f ist deut-

lich schwerer als 7a.

Tab. 31: Vergleich der Itemschwierigkeiten von Item D3-7a und D3-7f (Testheft 2)

TH 2 Kurzbeschreibung NR (%) PZK �

D3-7f Musikstück + Noten (Beethoven) 60.26 47.01 0.21

D3-7a Percussion + Noten 79.49 72.65 -0.93

Bei genauer Analyse der Hörbeispiele wird jedoch deutlich, dass das schwierig-

keitsgenerierende Merkmal nicht allein durch den klanglichen Unterschied be-

schrieben werden kann (Percussionsrhythmus vs. Orchesterstreichersatz). Bei I-

tem 7a handelt es sich um einen von einem Sequenzer und Synthesizer realisierten

Rhythmus, der entsprechend bezüglich aller Parameter (Tempo, Dynamik, rhyth-

mische Genauigkeit) völlig akkurat und gleichmäßig ausgeführt ist. Beim Hören

des Percussionsrhythmus fällt daher auch sofort eine gewisse, der Computertech-

nik geschuldeten Künstlichkeit auf. So artifiziell das Hörbeispiel dadurch wird, so

dienlich ist dies zunächst der genauen Erfassung der anvisierten Wahrnehmungs-

leistung, denn durch die isolierte Darbietung eines Rhythmus lenkt auch kein an-

derer Parameter von der Rhythmuswahrnehmung ab. Gänzlich anders stellt sich

die Situation für Item 7f dar: Hier spielen ‚echte’ Musiker ‚echte’ Musik. Neben

der Leistung, den harmonisch und melodisch weitaus komplexeren Klang auf sei-

ne rhythmische Struktur zu reduzieren, kommen durch die Verwendung der Beet-

hoven-Aufnahme für die Testpersonen weitere Erschwerungen hinzu: Gemäß dem

musikalischen Verlauf betont und artikuliert das Orchester die Viertel- und Ach-

170

telnoten unterschiedlich, die Dynamik wird variiert, durch das Abphrasieren wird

der Rhythmus zum Ende hin etwas langsamer. Es ist also die gesamte Beschaf-

fenheit der Hörbeispiele, die in letztgenanntem Fall einerseits eine realere, kon-

textspezifischere Aufgabenstellung ermöglicht, andererseits dadurch komplexere

Anforderungen an die Wahrnehmung stellt. Demgemäß ist das Aufgabenmerkmal

nicht nur durch eine klangliche, sondern auch eine musikalische Komplexität spe-

zifiziert.

Analyse B.3: Merkmal ‚klangliche Unterstützung’

Diese Analyse schließt direkt an die vorherige an. Erneut werden im Folgenden

zwei Items verglichen, die sich in klanglicher Hinsicht unterscheiden (vgl. Abb.

42). Item D3-7g hat als Hörbeispiel das Intro des Songs „We will rock you“ der

Rockband „Queen“, das ausschließlich aus einer einfachen Bodypercussion-Figur

besteht. Der Rhythmus ist hierbei jeweils aufgeteilt in zwei Achtel Aufstampfen

mit den Füßen und ein Viertel Händeklatschen. Zum Vergleich dient nochmals

das bereits bekannte Item mit dem üblichen Percussionsrhythmus. Eine kleine Be-

sonderheit dieser beiden Items besteht darin, dass der Komplexitätsgrad von

Rhythmus und Notationen absolut identisch ist. Das unterscheidende Aufgaben-

merkmal ist also ausschließlich die unterschiedliche klangliche Realisation.

Abb. 42: Items D3-7a und D3-7g (Testheft 2)

Zur Spezifikation der Hypothese dienen wiederum musikpsychologische For-

schungsergebnisse zur Rhythmuswahrnehmung. Die bereits bekannten Prinzipien

171

der Gestaltbildung und Segmentierung können auf den Rhythmus unmittelbar an-

gewendet werden (vgl. Analyse A.3). Dementsprechend handelt es sich hier um

einen sehr einfachen Rhythmus. Zur Unterscheidung der beiden Items oder einer

Prognose in Bezug auf deren Schwierigkeit sind die genannten Wahrnehmungs-

prinzipien jedoch nicht hilfreich, da beide Items den gleichen Rhythmus verwen-

den. Entscheidend ist vielmehr der Befund, dass bei einer Variation von verschie-

denen Parametern (z. B. Tonhöhe, Harmonik oder Klang) Rhythmen umso besser

memoriert werden können, je mehr die Variation der einzelnen Parameter eine

einheitliche Gliederung begünstigt (Auhagen, 2005, S. 236).

Im Anschluss daran lautet die Hypothese, dass die Itemschwierigkeit sinkt, wenn

die rhythmische Gliederung durch einen anderen Parameter unterstützt wird. Es

handelt sich also erneut um ein schwierigkeitsminderndes Merkmal. Übertragen

auf die beiden Items ist somit anzunehmen, dass 7g leichter zu lösen ist, da der

Queen-Rhythmus mit seiner Aufteilung in Stampfen und Klatschen kongruent zur

Segmentierung die Untergliederung des Rhythmus unterstützt, was durch die in

Tab. 32 dargestellten Ergebnisse bestätigt wird.

Tab. 32: Vergleich der Itemschwierigkeiten von Item D3-7a und D3-7g (Testheft 2)

TH 2 Kurzbeschreibung NR (%) PZK �

D3-7a Percussion + Noten 79.49 72.65 -0.93

D3-7g Stampfen/Klatschen (Queen, „We will rock you“) + Noten 87.18 82.91 -1.58

Analyse B.4: Merkmal ‚Anwendung von Notationskenntnissen’

Wenngleich bislang nicht explizit thematisiert, so ist es doch offensichtlich, dass

für alle Items der Gruppe B neben den Anforderungen an die rhythmische Wahr-

nehmung auch Anforderungen an die Kenntnisse bezüglich traditioneller Notation

gestellt werden. Personen, die über keine grundlegenden Notenlesefähigkeiten

verfügen, werden daher in der Regel die entsprechenden Items nicht lösen.164 Aus

diesem Grund wird als weiteres schwierigkeitsgenerierendes Aufgabenmerkmal

das Merkmal ‚Notationskenntnisse’ eingeführt.

164 Und dies sogar unabhängig davon, wie ausgeprägt ihre Wahrnehmungsfähigkeit ist. Gleiches gilt selbstverständlich auch umgekehrt: Selbst der kompetenteste Notenleser wird ein Item nicht lösen können ohne die dazugehörige Wahrnehmungsfähigkeit.

172

Im Rahmen der Analysen der Rhythmus-Items kann jedoch nicht der grundlegen-

de Effekt dieses Merkmals in dem Sinn untersucht werden, dass ein Item ohne das

Merkmal einem Item mit Merkmalsausprägung gegenübergestellt würde. Dies

liegt schlicht daran, dass die Antwortalternativen in Form von Rhythmus-

Notationen konstituierend für diesen Aufgabentypus sind und ein vergleichbares

Item ohne Notation daher nicht existiert.165 Prinzipiell denkbar wäre eine Variati-

on des Aufgabenmerkmals in Bezug auf die Komplexität der Notation.166 Für die

Kompetenzfacette liegen jedoch keine Items vor, die unterschiedlich komplex no-

tierte Antwortalternativen aufweisen.167 Möglich ist aber eine Analyse in Bezug

auf verschiedene Anwendungsformen von Notationskenntnissen.

In der folgenden letzten Analyse werden drei Items gegenübergestellt, die die

Rhythmuswahrnehmung sowohl in Verbindung mit Notenlesen als auch mit No-

tenschreiben erfassen.

Abb. 43: Items D3-7a, D3-7d und D3-7e aus Testheft D3

Jedes Item repräsentiert dabei eine bestimmte Form des Umgangs mit Notations-

kenntnissen (vgl. Abb. 43): Item D3-7a erfasst Notenlesefähigkeiten mittels des

bereits aus den Analysen B.1-B.3 bekannten MC-Formats, bei dem aus vier ver-

165 Die Überprüfung, ob das Vorhandensein des Merkmals ‚Notationskenntnisse’ grundsätzlich ei-nen Einfluss auf die Itemschwierigkeit hat, kann in späteren Analysen untersucht werden, in denen die Merkmale auf eine größere Anzahl von Items angewendet werden (vgl. 7.5). 166 So ließen sich beispielsweise Items konstruieren, bei denen alle Distraktoren bis auf ein kleines Detail der richtigen Antwortalternative gleichen. Ebenso denkbar ist es, die Notationen länger und in sich komplexer zu gestalten (z. B. durch weitere Taktarten, Notenwerte, Pausen). Damit würde aber automatisch auch immer eine Steigerung der rhythmischen Komplexität des Hörbeispiels ein-hergehen. 167 Für die Modellierung unterschiedlich komplexer Merkmalsausprägungen in Bezug auf Notati-onskenntnisse wurde innerhalb der dritten Modelldimension speziell eine Reihe von Items entwi-ckelt.

173

schiedenen Rhythmusnotationen die zum Hörbeispiel passende ausgewählt wer-

den muss. Item D3-7e stellt die Anforderung, einen Rhythmus mit einfachen gra-

fischen Symbolen zu notieren, während bei Item D3-7f ein entsprechender

Rhythmus mithilfe traditioneller Notation aufgeschrieben werden soll. Die rhyth-

mische Komplexität der Hörbeispiele ist jeweils vergleichbar, bei 7a und 7d sogar

identisch.168

Es stellt sich nun die Frage, ob die unterschiedlichen Ausprägungen des Aufga-

benmerkmals auch mit unterschiedlichen Itemschwierigkeiten einhergehen; oder

anders formuliert: Kann die unterschiedliche Erfassung von Rhythmuswahrneh-

mung in Verbindung mit Notenlesen und Notenschreiben als schwierigkeitsgene-

rierendes Merkmal beschrieben werden?

Naheliegend ist zunächst die Hypothese, dass – bei vergleichbarer Wahrneh-

mungsanforderung – Notenlesen einfacher ist als Notenschreiben, da für beide

zwar gleichermaßen Notationskenntnisse benötigt werden, diese darüber hinaus

beim Notenschreiben aber produktiv angewendet werden müssen. Jeder (Gehör-

bildungs-)Lehrer würde wohl bestätigen, dass es seinen Schülern erheblich schwe-

rer fällt, ein Hördiktat aufzuschreiben, als die gleiche Musik unter einer Auswahl

verschiedener Notenbeispiele wiederzuerkennen. Bei näherer Betrachtung der drei

Items lassen sich jedoch auch Argumente für andere Hypothesen finden.

Man könnte z. B. vermuten, dass Item 7d – trotz der dort verlangten Schreibleis-

tung – im Vergleich zu 7a leichter zu bewältigen ist, da bei 7d eine vereinfachte

grafische Notationsart verwendet wird, die zudem im Itemstamm so beschrieben

ist, dass kein Vorwissen erforderlich ist. 7d sollte dadurch auch für Personen zu

lösen sein, die überhaupt keine Kenntnisse in Bezug auf traditionelle Notenschrift

haben und demzufolge Item 7a eigentlich nicht erfolgreich bearbeiten können.169

Dies würde einer Hypothese hinsichtlich eines schwierigkeitsmindernden Merk-

mals ‚grafische Notation’ entsprechen.

168 Auch die klangliche Komplexität ist prinzipiell vergleichbar. Für 7d und 7e wurde jedoch der Percussionsklang durch einen Klavierton ersetzt, um die Viertelnoten deutlicher von den Achtel-noten zu unterscheiden. Unter Verwendung des Percussionsklangs wären sonst auch notierte Lö-sungen möglich gewesen mit Pausen (bei 7e z. B. Achtel, Achtelpause, Achtel etc.). 169 Mögliche Strategien zur Aufgabenlösung, die evtl. auch ohne Notationskenntnisse angewandt werden können, werden weiter unten beschrieben.

174

Denkbar wäre aber auch, dass zwischen den verschiedenen Anwendungsarten von

Notationskenntnissen, wie sie durch die vorliegenden Items erfasst werden, kein

Unterschied feststellbar ist, da jeweils nur sehr basale Notationskenntnisse für die

Aufgabenlösung ausreichend sind.170 Demzufolge könnten für alle Items glei-

chermaßen niedrige Itemschwierigkeiten erwartet werden. Sollten die empirischen

Daten diese Vermutung bestätigen, dann wäre die Schlussfolgerung naheliegend,

dass in Bezug auf basale Notationskenntnisse und einfache Wahrnehmungsanfor-

derungen kein Unterschied zwischen Notenlesen und -schreiben besteht: Schüler,

die Ersteres beherrschen, können auch Letzteres (und vice versa). Die Hypothese

könnte hier zwar immer noch lauten, dass durch den rezeptiven und produktiven

Umgang mit Notation ein schwierigkeitsgenerierendes Merkmal vorliegt, dieses

aber zu schwach ausgeprägt ist, als dass es zu einer Varianz in den Itemschwie-

rigkeiten führen würde.

Es ließe sich sicherlich noch eine Reihe weiterer Hypothesen in Bezug auf die zu

erwartenden Itemschwierigkeiten und die darauf bezogenen Merkmale formulie-

ren. Aufgrund der konkurrierenden und teilweise widersprüchlichen Vermutungen

– und nicht zuletzt in Ermangelung empirischer Forschungsergebnisse (vgl. Leh-

mann, 2005; Sloboda, 2005, S. 3 ff.) – wurde im Rahmen der Aufgabenentwick-

lung zunächst keine explizite Hypothese formuliert. Es werden daher an dieser

Stelle zuerst die empirischen Daten inspiziert, um dann post hoc eine Hypothese

zu generieren.

Tab. 33: Vergleich der Itemschwierigkeiten der Items D3-7a, D3-7d und D3-7e (Testheft D3)

TH-D3 Kurzbeschreibung NR (%) PZK �

D3-7e Rhythmus mit Noten notieren 17.20 - 1.41

D3-7d Rhythmus grafisch notieren 35.48 - 0.37

D3-7a Rhythmus zu Noten zuordnen 77.24 69.65 -1.45

Obwohl die Items 7a und 7d den exakt gleichen Rhythmus haben, ist es nur noch

weniger als der Hälfte der Schüler möglich, den Rhythmus, den sie vorher noch

der richtigen Notenabbildung zugeordnet haben, nun eigenständig in Form einer

einfachen grafischen Notationsform aufzuschreiben. Von diesen 35.48 % der

170 Durch das Fehlen von Tonhöhen ist die Notation von vornherein auf die Fixierung lediglich der Notenlängen beschränkt, die wiederum auf Achtel- und Viertelnoten bzw. kurz und lang begrenzt ist. Der Komplexitätsgrad der Notationen kann demgemäß als sehr niedrig eingeschätzt werden.

175

Schüler schafft es dann erneut nur die Hälfte, einen vergleichbar komplexen

Rhythmus mit traditioneller Notenschrift zu notieren. Zwischen der reinen Zuord-

nung eines wahrgenommenen Rhythmus zu einer eintaktigen Notation und der ei-

genständigen Notation eines vergleichbaren Rhythmus mit traditioneller Noten-

schrift entsteht so eine sehr große Differenz der Itemschwierigkeiten von 2.86 lo-

gits.

Die in Tab. 33 dargestellten Ergebnisse legen somit die Annahme nahe, dass es

grundsätzlich einen schwierigkeitsgenerierenden Unterschied gibt zwischen den

Anforderungen, einen Rhythmus lesen oder ihn notieren zu müssen. Ein gewisser

Anteil der großen Differenz ist dabei dem Aufgabenformat geschuldet, denn im

Gegensatz zu Item 7a (MC-Format) kann bei 7e und 7d nicht geraten werden.

Doch selbst unter Berücksichtigung der Zufallskorrektur bleiben die deutlichen

Unterschiede bestehen. Es ist also genauer nach den für die Lösung der Items

notwendigen Prozessen zu fragen.

Entscheidend scheint hierbei vor allem die Interaktionsebene zwischen Aufgabe

und Notentext zu sein oder genauer: die Prozesse, die ausgehend von der Wahr-

nehmung des Rhythmus hin zur richtigen Identifikation eines Notentextes bzw.

der korrekten Notation eines Rhythmus führen.

In Bezug auf das MC-Item 7a ist grundlegend von mindestens vier verschiedenen

Lösungsstrategien auszugehen:

(1) Audiation/Analyse der Antwortalternativen: Die Schüler lesen sich im An-

schluss an die Aufgabenstellung die Antwortalternativen genau durch und entwi-

ckeln innerlich für jede Rhythmusnotation zumindest eine ungefähre Klangvor-

stellung. Wenn nun das Hörbeispiel abgespielt wird, kann der wahrgenommene

Rhythmus mit den bereits audiierten abgeglichen werden, was die Lösung erheb-

lich erleichtern dürfte. Diese Lösungsstrategie ist aber nur für sehr fortgeschritte-

ne Schüler zu erwarten. Doch selbst wenn von solch einer antizipierenden Audia-

tionsleistung nur für sehr wenige (oder evtl. gar keine) Testpersonen ausgegangen

werden kann – was eine sehr interessante Fragestellung für ein ‚cognitive lab’ wä-

re (vgl. 8.2) –, so bringt ein vorheriges genaues Lesen der Antwortalternativen

entscheidende Vorteile auch ohne Audiation. Wer mit analytischem Blick die

Rhythmusnotationen betrachtet, der weiß bereits vorab, dass das Hörbeispiel ent-

weder mit einer Viertelnote oder einer Achtelgruppe beginnen muss. Wenn dann

176

der Rhythmus erklingt, können bereits nach den ersten beiden Noten mindestens

zwei Antwortalternativen ausgeschlossen werden. Doch auch solch eine analyti-

sche Betrachtung vorab dürfte bei Schülern der sechsten Klasse nur in Ausnahme-

fällen anzutreffen sein – wenngleich hierzu keinerlei empirisch gesichertes Wis-

sen vorhanden ist.

(2) Paralleles Wahrnehmen und Lesen des Rhythmus: Wahrscheinlicher in Bezug

auf die Mehrheit der Testpersonen – und nicht zuletzt vor dem Hintergrund der

Erfahrungen bei der KoMus-Pilotierungsstudie (vgl. 2.2.3) – ist die Anwendung

anderer Strategien. Während der Tests war zu beobachten, dass die Schüler in der

Regel nach dem Durchlesen der Aufgabe sofort das Hörbeispiel abspielten. In die-

sem Fall läuft der Lösungsprozess vermutlich so ab, dass die Rhythmusnotationen

parallel zum Hörbeispiel mitverfolgt werden. Angesichts der Einfachheit von

Hörbeispiel und Notationen sowie dem wiederholten Abspielen des Rhythmus

sollte es Schülern mit Notationskenntnissen möglich sein, das Item mittels dieser

Strategie zu lösen – trotz des simultanen Prozesses von Hören und Lesen. Sofern

diese Strategie angewendet wird, ist es nicht unbedingt notwendig, den Rhythmus

zu memorieren, wenngleich dies hilfreich ist, um die gewählte Lösung im An-

schluss an das Hörbeispiel noch einmal zu überprüfen.

(3) Rhythmus memorieren, Abgleich mit Notation: Für Schüler mit weniger Übung

im Notenlesen ist es evtl. zu anspruchsvoll, parallel zum Hörbeispiel alle vier

Rhythmusnotationen mitzulesen. Da der Rhythmus aber äußerst einfach zu memo-

rieren ist, kann auch eine sukzessive Aufgabenbearbeitung erfolgen. In diesem

Fall würden die Schüler erst im Anschluss an das Hörbeispiel den memorierten

Rhythmus mit den Notationen abgleichen.

(4) Basale Notationskenntnisse (prä-figural/figural):171 Bei den bisherigen Strate-

gien wurde immer vorausgesetzt, dass die Testpersonen über metrische Notenlese-

und Wahrnehmungsfähigkeiten verfügen. Die folgenden Strategien verdeutlichen

jedoch, dass diese u. U. gar nicht zwingend erforderlich sind bzw. bereits sehr ba-

sale Fähigkeiten genügen. So gibt es sicherlich Schüler, die für eine konkrete Note

zwar nicht die richtige diatonisch-metrische Tonhöhe und -länge (z. B. Achtelnote

Fis) benennen können, trotzdem aber zumindest die Grundprinzipien traditioneller

171 Zu Repräsentation von Rhythmen und den Entwicklungsstufen der bildlicher Darstellung von Rhythmen (im Speziellen bei Kindern) vgl. Bruhn 1993a; 2000; Gembris 1998, S. 249 ff.

177

Notation kennen: Eine Note repräsentiert ein klangliches Ereignis, der zeitliche

Verlauf von Musik wird dabei horizontal von links nach rechts abgetragen, Ton-

höhen werden vertikal fixiert. Diese Kenntnisse genügen für eine figurale Darstel-

lung eines Rhythmus. Würde man einen entsprechenden Schüler den Rhythmus

von Item 7a notieren lassen, wäre mit einer der folgenden ähnlichen Notation zu

rechnen:

Abb. 44: Mögliche figurale Darstellung des Rhythmus von Item D3-7a (Testheft D3)

Auf einer figuralen Ebene ist zu erwarten, dass der Rhythmus nicht als kurz-kurz-

lang, kurz-kurz-lang repräsentiert wird, sondern eher als drei kurze Ereignisse, die

nach einer sogenannten ‚ghost gap’ (vgl. Bruhn, 2000, S. 237) wiederholt werden.

Es ergeben sich also zwei symmetrische Ereignisgruppen, was auch in Abb. 44

deutlich wird. Sofern solch eine figurale Repräsentation des wahrgenommenen

Rhythmus vorliegt, bedarf es zur Lösung der Aufgabe noch eines Abgleichs von

figuraler Repräsentation und den (metrisch) notierten Antwortalternativen. Für I-

tem 7a müsste nun also nach einer symmetrischen Konstellation von zwei Dreier-

gruppen gesucht werden. Auf einer noch basaleren Ebene ist eine Aufgabenlösung

sogar mit prä-figuraler Repräsentation möglich. Auf dieser Ebene wird ein

Rhythmus lediglich als Menge unorganisierter Ereignisse repräsentiert (Bruhn,

2000, S. 236). Testpersonen würden dementsprechend die Ereignisse abzählen

und müssten dann nach einer Antwortalternative mit sechs Notensymbolen su-

chen.172 Bei beiden Strategien werden die Noten lediglich als Symbole für Ereig-

nisse betrachtet, wobei es völlig irrelevant ist, dass es sich bei den Noten konkret

um Viertel- und Achtelnoten handelt oder die eine genau den halben Längenwert

der anderen Note repräsentiert. Testpersonen können das Item also auch lösen,

ohne über ein elaboriertes Wissen in Bezug auf metrische Notation zu verfügen.

Es ist davon auszugehen, dass auch bei dieser Strategie der Rhythmus memoriert

wird, um dann anschließend nach einer passenden Notation zu suchen, da die No-

tationen im eigentlichen Sinne ja nicht ‚gelesen’, sondern eher in Form von ‚grafi-

schen Entsprechungen’ verwendet werden.

172 Vor diesem Hintergrund wird deutlich, dass die Distraktoren des Items nicht optimal kon-struiert sind, denn es gibt keinen symmetrischen Distraktor und auch keinen mit sechs Noten (eine mögliche Lösung wäre z. B. ein Distraktor mit der rhythmischen Struktur: Achtel, Achtel, Halbe, Achtel, Achtel, Halbe).

178

Für Item 7a kann somit festgehalten werden, dass grundsätzlich verschiedene Lö-

sungsstrategien möglich sind. Wenngleich hierbei durchaus komplexe Prozesse

ablaufen können (Strategie 1), so sind diese doch nicht zwingend für eine erfolg-

reiche Lösung notwendig. Die Aufgabe kann vielmehr bereits mit sehr basalen

Wahrnehmungsfähigkeiten und Notationskenntnissen gelöst werden.173

Wie stellt sich die Situation für die beiden anderen Items dar? Betrachtet man zu-

nächst Item 7e, so wird deutlich, dass ein grundlegender Unterschied dadurch ge-

geben ist, dass für die Aufgabenlösung nun ‚echte’ Notationskenntnisse unabding-

bar sind. Die Aufgabenstellung setzt zwingend die Kenntnis von Viertel- und Ach-

telnoten voraus, sowohl in Bezug auf deren Schreibweise als auch auf einer in-

haltlichen Ebene, denn für eine erfolgreiche Lösung muss das Wissen bezüglich

der Notenwertrelation von Viertel- und Achtelnoten vorhanden sein (zwei Achtel-

noten entsprechen der Länge von einer Viertelnote).174 Darüber hinaus ist es bei

dem Item auch zwingend notwendig, den Rhythmus zu memorieren, da dieser

nicht während des Hörens simultan mitgeschrieben werden kann. So müssen die

Testpersonen während und nach dem Notenschreiben (vermutlich mehrfach) den

Rhythmus aus dem musikalischen Gedächtnis abrufen, um die Noten aufschreiben

zu können bzw. das Geschriebene zu kontrollieren. Letztgenanntes gilt gleicher-

maßen auch für Item 7d. Hier sind jedoch die genannten Notationskenntnisse in

viel geringerem Umfang vonnöten. Zum Einen handelt es sich um einfache grafi-

173 An diesen etwas umfangreicheren Betrachtungen zu Item 7a wird deutlich, dass für die Be-schreibung eines schwierigkeitsgenerierenden Aufgabenmerkmals nicht alle Prozesse gleicherma-ßen relevant sind. Entscheidend sind letztlich nur die Prozesse, die zwingend für die Aufgabenlö-sung benötigt werden, also in gewisser Hinsicht die ‚Mindestanforderungen’. Selbst wenn prinzi-piell auch komplexere Lösungsstrategien denkbar sind – und vermutlich auch angewendet werden –, so können diese nicht zur Erklärung der unterschiedlichen Itemschwierigkeiten herangezogen werden. Denn der Unterschied von einem leichten zu einem schweren Item ist ja gerade der, dass bei dem schwereren Item die zwingend notwendigen Prozesse des leichteren Items eben nicht mehr ausreichend sind für eine erfolgreiche Lösung. Daran anschließend ist auch sofort ersichtlich, warum Testaufgaben, die für ‚large-scale-assessments’ gedacht sind, meist nicht sinnvoll für Zwe-cke der Individualdiagnostik eingesetzt werden können. Bei so konstruierten Aufgaben lässt sich zwar leicht feststellen, ob eine Aufgabe gelöst wurde oder nicht. Aussagen über die dabei zugrun-deliegenden Lösungsstrategien auf Individualebene sind jedoch nicht oder in nur sehr begrenztem Umfang möglich. Dies wäre vor allem problematisch in Bezug auf Personen, die eine Aufgabe nicht lösen. Denn im Sinne einer Förderdiagnostik könnten keine optimalen Fördermaßnahmen eingeleitet werden, da aufgrund der Datenlage nicht ersichtlich ist, weshalb genau eine Aufgabe nicht gelöst wurde. Zum Zwecke der Individualdiagnostik sollten daher stets speziell konstruierte diagnostische Aufgaben eingesetzt werden, die den jeweils individuellen Denk- und Verstehens-prozess – oder einfacher: den Aufgabenbearbeitungsprozess – sichtbar machen (zu Konstruktion, Einsatzmöglichkeiten und Auswertung solcher Aufgaben vgl. z. B. Sjuts 2006). 174 Eine Antwort, die auf eine richtige Wahrnehmungsleistung sowie grundlegende Notations-kenntnisse hindeutet, gleichermaßen aber fehlendes Wissen in Bezug auf die Notenwertproportio-nen dokumentiert, wäre folgende: Achtel, Viertel, Viertel, Achtel, Achtel.

179

sche Symbole, zum Anderen werden die rhythmischen Längenrelationen der Sym-

bole im Itemstamm vorgegeben.

Wie bereits weiter oben formuliert, könnte man annehmen, dass 7d mittels des

gleich basalen Notationswissens wie Item 7a gelöst werden kann. Trotzdem ist 7d

aber empirisch deutlich schwerer. Dieser Sachverhalt lässt letztlich nur den

Schluss zu, dass die unterschiedliche Anwendung der Notationskenntnisse für die

Varianz der Itemschwierigkeit verantwortlich ist. Durch das offene Itemformat

und die dadurch notwendige aktive Produktionsleistung des Notenschreibens

scheint eine stärkere Prozeduralisierung des Notationswissens notwendig zu sein.

Abschließend erscheint somit die Hypothese plausibel, dass die verschiedenen

Anwendungsformen von Notationskenntnissen als schwierigkeitsgenerierendes

Merkmal wirken. Es wird angenommen, dass die Itemschwierigkeit in dem Maße

steigt, in dem Noten nicht nur gelesen, sondern auch geschrieben werden müssen

und gleichzeitig für die Aufgabenlösung über basale Notationskenntnisse hinaus-

gehendes Wissen notwendig ist. Zusammengefasst werden diese Überlegungen in

Tab. 34, die das Aufgabenmerkmal in einer Form darstellt, wie es auch für die

empirische Validierung der Merkmale eingesetzt werden kann (vgl. 7.5).

Tab. 34: Kodierung und Deskriptoren des Aufgabenmerkmals ‚Anwendung von Notationskenntnissen’

Code Deskriptoren Beispiel-Item

3 Für die Aufgabenlösung sind fundierte Kenntnisse in Bezug auf traditionelle Notation notwendig, die zum Notenschreiben eingesetzt werden. D3-7e

2 Für die Aufgabenlösung sind basale Notationskenntnisse ausreichend, die für das Schreiben einfacher grafischer Notationen verwendet werden. D3-7d

1 Für die Aufgabenlösung sind basale Notationskenntnisse ausreichend, deren Anwen-dung auf das Notenlesen beschränkt ist. D3-7a

0 Für die Aufgabenlösung sind keinerlei Notationskenntnisse erforderlich. -

Zusammenfassung

Die durchgeführten Analysen zeigen, dass eine vertiefende inhaltliche Betrach-

tung der Items und deren empirisch ermittelter Schwierigkeit sehr aufschlussreich

ist in Bezug auf die Aufgabencharakteristika und die darauf bezogenen Lösungs-

prozesse. Dadurch konnte eine Reihe von schwierigkeitsgenerierenden Aufga-

benmerkmalen identifiziert werden, für die plausible Hypothesen bezüglich des

Einflusses auf die Itemschwierigkeiten vorliegen. Auf Basis der vertiefenden Ana-

180

lysen können die vermuteten schwierigkeitsgenerierenden Merkmale zusammen-

fassend folgendermaßen beschrieben werden:

Die Schwierigkeit eines Rhythmus-Items ist abhängig von

1. der Komplexität der klanglichen Struktur, in der ein Rhythmus identifiziert

werden muss,

2. der Komplexität der rhythmischen Struktur,

3. dem notwendigen Wissen in Bezug auf Notation,

4. der Anwendungsform von Notationskenntnissen,

5. den Anforderungen an das musikalische Gedächtnis.

Zusätzlich gibt es jedoch auch Merkmale, die die Aufgabenlösung erleichtern:

Wenn die klangliche oder melodische Struktur die rhythmische Struktur unter-

stützt (Ebene ‚Hörbeispiel’) und somit einprägsamer und leichter memorierbar

macht, wirkt dies der Itemschwierigkeit entgegen.

Die genannten Aufgabenmerkmale wurden unter Zuhilfenahme einer relativ klei-

nen Itemteilmenge identifiziert. In einem nächsten Schritt muss überprüft werden,

ob die Merkmale auf eine größere Zahl der KoMus-Items anwendbar sind. Erst

wenn dies der Fall ist, können weitere statistische Analysen zur Validierung der

Aufgabenmerkmale durchgeführt werden. Beides ist in Abschnitt 7.5 beschrieben.

7.2 Vertiefende Analysen der Items zur Formwahrnehmung

Eine weitere Facette des Kompetenzmodells bezieht sich auf die Wahrnehmung

von musikalischen Formverläufen. Die Formwahrnehmung gehört, ebenso wie die

Rhythmuswahrnehmung, zu den zentralen Fähigkeiten, deren Aufbau auf curricu-

larer Ebene gefordert wird (vgl. 4.2.1). Dort lässt sich auch ein breiter Konsens in

Bezug auf die konkreten Inhalte ausmachen. Häufig wird dabei unterschieden

zwischen elementaren Form-/Gestaltungsprinzipien (z. B. Wiederholung, Variati-

on) und Formmodellen (z. B. Rondo). Während elementare Form- und Gestal-

tungsprinzipien in nahezu allen Curricula erwähnt werden, stellt sich die Situation

hinsichtlich der Formmodelle etwas differenzierter dar. Eine Reihe von Curricula

machen zu diesem Punkt nur allgemeine Ausführungen, z. B.: „einfache Formver-

läufe erkennen und beschreiben“ (Baden-Württemberg, Realschule). In der Regel

wird jedoch konkret eine Auswahl von Formen benannt, die Schüler der sechsten

181

Jahrgangsstufe kennen und auf dieser Wissensbasis hörend er-kennen sollen. Ein

breiter Konsens besteht dabei in Bezug auf ‚Rondo’, ‚Kanon’ und ‚Liedformen’.

Darüber hinaus beinhalten einzelne Curricula bereits für die sechste Klassenstufe

die Formen ‚Concerto’, ‚Sonatenform’ und ‚Bluesschema’.

Für die Aufgabenentwicklung wurden nur Formen verwendet, die durch einen

Großteil der Curricula abgedeckt sind. Um darüber hinaus die unterrichtliche Re-

levanz der gewählten Formen noch weiter abzusichern, konnten die Ergebnisse

der Schulbuchanalysen verwendet werden. Unter Berücksichtigung beider Quel-

len erfolgte die Auswahl von ‚Kanon’, ‚Rondo’ und ‚Liedformen’. Insgesamt

wurden 13 Items zur Formwahrnehmung entwickelt, die sich größtenteils explizit

auf ein bestimmtes Formmodell beziehen, teilweise aber auch die Wahrnehmung

einzelner Formprinzipien fokussieren.

Tab. 35 zeigt, dass auch für die Items zur Formwahrnehmung eine große Varianz

der Itemschwierigkeiten vorliegt, sodass sich erneut die Frage nach den schwie-

rigkeitsgenerierenden Aufgabenmerkmalen stellt.

Tab. 35: Items zur Formwahrnehmung

Item-ID TH NR (%) �

D1-5c 6 15.53 1.60

D1-17a 5 37.34 1.09

D1-3a-2/2 6 25.78 0.89

D2-4f 8 26.86 0.60

D1-12abc 1 34.75 0.58

D1-9 8 29.75 0.44

D2-4i 8 34.30 0.19

D1-3b 6 41.33 0.13

D1-7 7 47.31 -0.33

D1-3a 6 59.11 -0.65

D2-4e 8 59.09 -1.03

D2-2-1/2 6 78.65 -1.85

D1-8 8 88.84 -3.05

Die Forschungslage zur musikalischen Formwahrnehmung ist relativ überschau-

bar. La Motte-Haber (2005a, S. 263) spricht von einer ‚stiefmütterlichen Behand-

lung’ der Thematik durch die Musikpsychologie. Die wenigen vorhandenen Ar-

beiten befassen sich meist mit größeren Formen (z. B. Sonatenhauptsatz) und un-

tersuchen dabei in der Regel die Auswirkung der Umstellung einzelner Formtei-

182

le.175 Eine direkte Nutzung dieser Arbeiten für die Beschreibung schwierigkeits-

generierender Aufgabenmerkmale erscheint daher nicht möglich. Sofern Form-

prinzipien eng an melodische Strukturen gebunden sind (z. B. Liedformen), kön-

nen teilweise jedoch Forschungsergebnisse zur Melodiewahrnehmung berücksich-

tigt werden (z. B. Kreutz, 2005).

Analyse 1: Segmentierung und Vergleich von Formteilen

Zur Modellfacette der Formwahrnehmung konnten im Rahmen der Aufgabenent-

wicklung grundlegende Aufgabenmerkmale formuliert und bei der Itemkonstruk-

tion berücksichtigt werden. Die vermuteten Merkmale ließen sich hierfür teilweise

direkt aus dem theoretischen Kompetenzmodell (vgl. 4.1) ableiten. In diesem Mo-

dellentwurf, der als Ausgangspunkt für die empirischen Projektphasen diente (vgl.

2.2.3), taucht die Formwahrnehmung auf zwei verschiedenen Niveaus auf. Auf

dem untersten Niveau (I) ist von „Erkennen einfacher Formen (z. B. Bildung von

Formteilen durch Zäsuren)“ die Rede, während auf Niveau II das „Erkennen mu-

sikalischer Grundformen (z. B. Erkennen wiederkehrender Formteile: ABA-Form,

einfache Variation)“ verortet ist. Hinter diesen Niveauzuordnungen steht die

Vermutung, dass die Wahrnehmung von Formabläufen schwieriger wird, wenn

nicht nur der Beginn eines neuen Formteils identifiziert werden muss, sondern

darüber hinaus die Teile miteinander in Beziehung gesetzt werden müssen.

Dementsprechend wurden zwei Gruppen von Items entwickelt, die sich grundsätz-

lich dadurch unterscheiden, dass bei der ersten Gruppe lediglich die Anzahl der

Formteile bestimmt werden muss, während in der zweiten Gruppe die Identifika-

tion von gleichen bzw. unterschiedlichen Teilen gefordert ist. Abb. 45 verdeut-

licht dies an zwei Beispielitems.

175 Karno & Kone�ni (1992) verwenden z. B. einen Sonatenhauptsatz einer Mozartsymphonie mit veränderter Reihenfolge der Formteile: Durchführung, Reprise, Exposition und Wiederholung der Exposition. Erstaunlicherweise fällt weder Experten noch Laien die Veränderung auf. Einige ähn-lich gelagerte Untersuchungen bestätigen, dass selbst trainierte Musiker bei Vertauschungen von Satzteilen die Musik immer noch einer entsprechenden Formkategorie zuordnen (La Motte-Haber, 2005a). Ob größere Formen überhaupt rein hörend wahrgenommen werden können, wird daher in der Musikpsychologie bezweifelt (La Motte-Haber, 2004, S. 258).

183

Abb. 45: Items D1-3a und D1-3b (Testheft 6)

Item 3a hat als Hörbeispiel das französische Volkslied „Au claire de la lune“. Die-

ses besteht aus insgesamt 16 Takten, wobei immer vier Takte einen Abschnitt (ei-

ne Phrase) bilden. Gespielt wird das Lied von einem Saxophon, wobei der Saxo-

phonist jeweils vor einem neuen Abschnitt atmet. Die vier Abschnitte des Liedes

sind somit relativ deutlich durch kurze Atemzäsuren voneinander abgesetzt. Dem-

gegenüber dient das Volkslied „Im Märzen der Bauer“ als Hörbeispiel für Item

3b. Das sechzehntaktige Lied ist ebenfalls in vier Abschnitte á vier Takte unter-

gliedert, wird dieses Mal jedoch von einer Klarinette gespielt.

Wie weiter oben bereits beschrieben, lautet die Hypothese, dass Item 3b schwieri-

ger zu lösen sein sollte, da hier nicht nur die Abschnitte identifiziert werden müs-

sen, sondern zusätzlich erkannt werden muss, dass der dritte Abschnitt sich von

den anderen Abschnitten unterscheidet. Die in Tab. 36 dargestellten Itemschwie-

rigkeiten stützen diese Hypothese.

Tab. 36: Vergleich der Itemschwierigkeiten der Items D1-3a und D1-3b (Testheft 6)

TH-6 Kurzbeschreibung NR (%) PZK �

D1-3b Liedform (A-A-B-A): Im Märzen der Bauer 41.33 21.77 0.89

D1-3a Anzahl Formabschnitte (4 : A-A-B-A): Au claire de la lune 59.11 45.48 -0.65

Zur Formulierung der Aufgabenmerkmale ist jedoch noch eine genauere Betrach-

tung der für die Aufgabenlösung relevanten Prozesse notwendig. Erneut scheint

hierbei das musikalische Gedächtnis eine entscheidende Rolle zu spielen. Denn

um Item 3b lösen zu können, müssen die ersten vier Takte der Melodie (A-Teil)

memoriert werden. Im Anschluss daran können die folgenden Abschnitte jeweils

mit dem memorierten ersten Abschnitt abgeglichen werden. Im Unterschied dazu

werden durch Item 3a keine besonderen Anforderungen an das musikalische Ge-

184

dächtnis gestellt. Es genügt hierbei die Segmentierung der Melodie in ihre Phra-

senabschnitte.176 Wenngleich die Segmentierung einer Melodie durchaus hoch-

komplexe Anforderungen beinhalten kann (Kreutz, 2005), so ist durch vorliegen-

de Melodie ein denkbar einfacher Fall gegeben. Da die Formabschnitte mit den

Melodiephrasen zusammenfallen, und diese wiederum durch die Atemzäsuren

deutlich segmentiert sind, genügt es, die Formteile anhand der Zäsuren ‚abzuzäh-

len’.177

Es können somit zwei grundlegende Prozesse beschrieben werden, die für die Lö-

sung eines Items zur Erfassung von Formwahrnehmung relevant sind: (1) Seg-

mentierung von Formteilen; die Hypothese lautet hierbei, dass ein Item umso

schwerer wird, je schwerer die Segmentgrenzen (= Ende/Anfang eines Formteils)

zu identifizieren sind. (2) Vergleich von Formteilen; vermutet wird, dass die Lö-

sung eines Items in dem Maße erschwert wird, indem erhöhte Anforderungen an

das musikalische Gedächtnis gegeben sind. Demgemäß ist zu erwarten, dass die

Schwierigkeit eines Items steigt, umso länger und informationsreicher die zu me-

morierenden Formteile sind. Gleichermaßen auszugehen ist von einer Relevanz

der Zeitspanne, über die hinweg ein Formteil im Gedächtnis behalten werden

muss. Beide Prozesse bzw. die dabei vermuteten Aufgabenmerkmale werden in

den folgenden Analysen noch genauer betrachtet und spezifiziert.

Vorab zeigt Tab. 37 eine Auswahl von Items, die entweder nur die Segmentierung

oder darüber hinaus auch den Vergleich von Formteilen zum Inhalt haben. Einer-

seits bestätigt sich auch hier, dass der Vergleich von Formteilen grundsätzlich hö-

here Anforderungen stellt. Andererseits wird aber auch deutlich, dass die katego-

riale Einteilung der beiden Itemgruppen in Items mit und ohne notwendigen Ver-

gleich von Formteilen nicht ausreicht für die Erklärung der unterschiedlichen I-

temschwierigkeiten; denn eine entsprechende Varianz liegt nicht nur zwischen

sondern auch innerhalb der Items einer Gruppe vor. Dies deutet daraufhin, dass

entweder unterschiedliche Ausprägungen der bereits skizzierten Merkmale vorlie-

176 Grundsätzlich möglich ist auch eine Segmentierung des Liedes in größere (2 x 8 Takte) oder kleinere (8 x 2 Takte) Abschnitte. Entsprechende Distraktoren wurden vermieden, um eine eindeu-tige Auswertung zu gewährleisten. 177 Stoffer (2005, S. 608) spricht in diesem Zusammenhang davon, dass bei in der Hierarchie rela-tiv hoch angesiedelten Segmentgrenzen mehrere physische Markierungen zusammenfallen.

185

gen, oder aber noch weitere Merkmale berücksichtigt werden müssen. Beiden

Vermutungen wird in den folgenden Analysen nachgegangen.

Tab. 37: Auswahl der Items zur Formwahrnehmung

Item-ID TH Kurzbeschreibung NR (%) �

D1-17a D1 Rondo (A-B-A-C-A) 5.75 2.43

D1-7 D1 Liedform (A-A-B-A) 29.78 0.43

D1-3b D1 Liedform (A-A-B-A) 50.80 -0.58

D1-3a D1 Anzahl Formabschnitte (4) 52.94 -0.67

D1-8 D1 Anzahl Formabschnitte (3) 70.22 -1.44

Analyse 2: Segmentierung von Abschnitten – Merkmal ‚Markierung von Segment-

grenzen’

Das in Abb. 46 dargestellte Item D1-3a („Au claire de la lune“) ist bereits aus A-

nalyse 1 bekannt.178 Zum Vergleich dient nun Item D1-8, bei dem ebenfalls die

Anzahl der Abschnitte erkannt werden muss. Das Hörbeispiel von Item 8 ist ein

kurzes Musikstück mit drei Abschnitten (Ausschnitt aus „El balado“ der Band „17

Hippies“). Die Segmentierung der Abschnitte wird auch hier jeweils relativ deut-

lich durch Atemzäsuren angezeigt.

Abb. 46: Items D1-3a und D1-8 (Testheft D1)

Im Rahmen der Aufgabenentwicklung war für beide Items ein vergleichbares

Schwierigkeitsniveau angenommen worden, denn die geforderten Wahrneh-

mungsfähigkeiten beschränken sich jeweils auf die Identifikation der Atemzäsu-

ren zur Segmentierung der Abschnitte. Aus Tab. 38 geht nun aber hervor, dass

durchaus ein gewisser Schwierigkeitsunterschied der Items vorliegt.

178 Das Item hat hier lediglich eine andere ID, da der Analyse ein anderes Testheft zugrunde liegt.

186

Tab. 38: Vergleich der Itemschwierigkeiten der Items D1-3a und D1-8 (Testheft D1)

TH-D1 Kurzbeschreibung NR (%) PZK �

D1-3a Anzahl Formabschnitte (4: A-A-B-A): Au claire de la lune 52.94 37.25 -0.67

D1-8 Anzahl Formabschnitte (3: A-B-A’): El balado 70.22 60.29 -1.44

Naheliegend wäre zunächst die Vermutung, dass die Schwierigkeitsdifferenz dar-

auf zurückgeführt werden kann, dass bei Item 8 ein Abschnitt weniger erkannt

werden muss. Diese Argumentation kann aber letztlich nicht überzeugen, da mit

einer erhöhten Anzahl an Abschnitten – sofern alle gleichermaßen eindeutig seg-

mentiert sind – keine erhöhten Anforderungen an die Wahrnehmung oder das mu-

sikalische Gedächtnis gestellt werden. Es liegt diesbezüglich zwischen den beiden

Items also kein qualitativer Unterschied in der Wahrnehmung vor, sondern ledig-

lich ein quantitatives ‚Mehr’ wahrzunehmender Ereignisse gleicher Qualität. So-

fern eine Testperson in der Lage ist, die Abgrenzung zweier Abschnitte anhand

einer Zäsur zu erkennen, so ist kein signifikanter Unterschied zu erwarten in Ab-

hängigkeit davon, ob diese Fähigkeit zweimal oder dreimal eingesetzt werden

muss.179

Zielführender ist ein genauer Vergleich der beiden Hörbeispiele hinsichtlich ihrer

klanglichen Struktur. Dabei fällt auf, dass die Segmentierung bei Item 8 außer

durch die Atemzäsuren auch noch durch die Instrumentierung unterstützt wird.

Der kurze Ausschnitt des Stücks „El balado“ umfasst insgesamt 24 Takte (ganz-

taktig gespieltes 3/8-Metrum), wobei jeweils 8 Takte einen Abschnitt bilden. Je-

der dieser Abschnitte ist unterschiedlich instrumentiert: Violine und gezupftes

Banjo (Abschnitt 1); Violine, Bratsche und gezupftes Banjo (Abschnitt 2); Trom-

pete und geschlagenes Banjo (Abschnitt 3).

Gemäß Stoffer (vgl. Fußnote 177) fallen bei Item 8 also mehr physische Markie-

rungen bei den Segmentgrenzen zusammen. Daran anschließend kann das schwie-

rigkeitsgenerierende Merkmal folgendermaßen beschrieben werden: Die I-

179 Direkt plausibel wird dies, wenn man sich z. B. vorstellt, dass Item 3a noch um eine zweite Strophe verlängert würde. Es ist nicht ersichtlich, warum Schüler, die in der ersten Strophe die Abschnitte richtig identifiziert haben, dies nicht auch in der zweiten Strophe ebenso korrekt tun sollten. Erst wenn ein Hörbeispiel (und entsprechend die Anzahl der Abschnitte) extrem viel län-ger ausfällt, sodass Konzentrationsschwächen und motivationale Einbußen zu erwarten sind, könn-te von einem Einfluss auf die Itemschwierigkeit ausgegangen werden. Dies ist aber sicherlich für vorliegenden Fall, bei dem ein Unterschied von lediglich einem zusätzlichen Abschnitt vorliegt, nicht gegeben.

187

temschwierigkeit ist abhängig von der Beschaffenheit der Segmentgrenzen

(Abschnittsende/-anfang). Je weniger physische Markierungen die Segmentgrenze

zwischen zwei Abschnitten kennzeichnen, desto schwieriger wird ein Item, da da-

durch die Wahrnehmung der Formabschnitte erschwert wird.

Analyse 3: Vergleich von Abschnitten – Merkmale ‚Komplexität/Länge eines

Formteils’ und ‚musikalisches Gedächtnis’

Die folgende Analyse greift die weiter oben formulierte Hypothese auf, dass die

Itemschwierigkeit ansteigt in Abhängigkeit von Komplexität und Umfang der zu

memorierenden Formteile.

In Abb. 47 sind zwei Items dargestellt, zu deren Lösung jeweils zunächst Ab-

schnitte segmentiert werden müssen, um dann die identifizierten Abschnitte mit-

einander vergleichen zu können. Es handelt sich beides Mal um eine A-A-B-A-

Form. Item D1-3b enthält als Hörbeispiel das bereits aus Analyse 1 bekannte

Volkslied „Im Märzen der Bauer“. Als Hörbeispiel für Item D1-2a dient der erste

Teil einer Mazurka von Chopin (op. 68, Nr. 3, T. 1-32).

Abb. 47: Items D1-2a und D1-3b (Testheft D1)

Beim Vergleich der beiden Hörbeispiele werden mehrere Unterschiede deutlich:

Während der Klarinettist (3b) die Formabschnitte mit deutlichen Atemzäsuren

markiert, setzt der Pianist (2a) die Abschnitte durch wechselnde Dynamik vonein-

ander ab.

Das Chopin-Hörbeispiel ist insgesamt länger (2a: 42sec., 3b: 26sec.), insbesonde-

re der zu memorierende A-Teil ist länger (2a: 10sec., 3b: 6sec.).

188

Außerdem ist die Informationsmenge und Komplexität des A-Teils deutlich höher,

was aus Abb. 48 ersichtlich ist.

Abb. 48: Vergleich der A-Teile von Item D1-2a (oben) und D1-3b (unten)

Gemäß der oben formulierten Hypothese sollte 2a eine höhere Itemschwierigkeit

aufweisen, da hier einerseits die Segmentgrenzen schwerer zu identifizieren sind,

andererseits aber vor allem höhere Anforderungen an das musikalische Gedächt-

nis gestellt werden. Die in Tab. 39 dargestellten Werte bestätigen diese Annahme.

Bei der Itemkonstruktion wurde eine relativ hohe Itemschwierigkeit für Item 2a

antizipiert. Um die Wahrnehmungsanforderungen nicht zu hoch zu setzen, wurde

daher das Hörbeispiel mit einer Wiederholung versehen. Dies dürfte entscheidend

dazu beitragen, dass der Schwierigkeitsunterschied von 2a und 3b nicht noch

deutlicher ausfällt, da das Hörbeispiel von Item 3b lediglich einmal gespielt wird.

Tab. 39: Vergleich der Itemschwierigkeiten der Items D1-2a und D1-3b (Testheft D1)

TH-D1 Kurzbeschreibung NR (%) PZK �

D1-2a Liedform (A-A-B-A): Chopin Mazurka 29.78 6.37 0.43

D1-3b Liedform (A-A-B-A): Im Märzen der Bauer 50.80 34.40 -0.58

Analyse 4: Merkmal ‚Einsatz von Fachwissen’

Für die Lösung der bislang betrachteten Items waren ausschließlich Wahrneh-

mungsfähigkeiten notwendig.180 Die Testpersonen mussten erkennen, wo ein Ab-

schnitt endet bzw. beginnt, und ob ein neuer Abschnitt dem vorausgegangenen

gleicht oder nicht. Es war dabei nicht relevant, ob ein wahrgenommener Formver-

lauf mit einem konkreten Formmodell (z. B. Rondo) in Verbindung gebracht wer- 180 Als Teil dieser Wahrnehmungsprozesse ist auch implizites (musikalisch-syntaktisches) Wissen anzusehen (Stoffer, 2005, S. 626 ff.; vgl. auch 4.2.2).

189

den kann. Explizite (deklarative) Wissensbestände waren also für die Aufgaben-

bearbeitung nicht erforderlich.181

Die Annahme erscheint plausibel, dass Items, die zur Bearbeitung zusätzliches

Fachwissen benötigen, grundsätzlich schwieriger zu lösen sein sollten als ver-

gleichbare Items ohne einen entsprechend notwendigen Einsatz von Wissen. Es

verwundert daher auch nicht, dass Studien zur Kompetenzerfassung in anderen

Schulfächern meist wissensbasierte schwierigkeitsgenerierende Merkmale formu-

lieren (z. B. ‚Einsatz von terminologischem Wissen’ o. ä.) und deren Einfluss

auch empirisch validieren können (z. B. Prenzel et al., 2002).

Auch für die KoMus-Items ist es naheliegend, von einem grundsätzlichen Einfluss

eines wissensbasierten Merkmals auszugehen. Sehr anschaulich wird dies bei dem

Vergleich zweier Items zur Erfassung der Formwahrnehmung (Abb. 49 und Abb.

50).

Abb. 49: Item D2-4e (Testheft 8)

Abb. 50: Item D2-4f (Testheft 8)

Beide Items haben als Hörbeispiel das gleiche Rondo (Mozart, KV 15gg). Für die

Lösung von Item 4e muss erkannt werden, dass das Stück aus mehreren Formtei-

len besteht, der A-Teil (das Ritornell) mehrfach wiederholt wird und zwischen

den Wiederholungen des A-Teils jeweils neue Teile (die Couplets) eingefügt sind.

Zur korrekten Bearbeitung von Item 4f ist grundsätzlich die gleiche Wahrneh-

mungsleistung erforderlich. Darüber hinaus muss eine Testperson nun aber auch

noch über das explizite Wissen verfügen, dass die wahrgenommene Abfolge von

181 Zu den verschiedenen Wissens- und Gedächtnisformen und deren Relevanz für den Umgang mit Musik siehe z. B. Bruhn, 2005.

190

Formteilen (A-B-A-C-A) dem Formmodell eines Rondos entspricht. Tab. 40 ver-

deutlicht den dadurch entstehenden Schwierigkeitsunterschied.

Tab. 40: Vergleich der Itemschwierigkeiten der Items D2-4e und D2-4f (Testheft 8)

TH-8 Kurzbeschreibung NR (%) PZK �

D2-4f Rondo (A-B-A-C-A): nur Fachterminologie 26.86 9.83 0.60

D2-4e Rondo (A-B-A-C-A): Umschreibung ohne Fachterminologie 59.09 45.45 -1.03

Die Analyse zeigt, dass der notwendige Einsatz expliziter Wissensbestände ver-

mutlich auch in Bezug auf musikspezifische Aufgaben ein schwierigkeitsgenerie-

rendes Merkmal darstellt. Wenngleich dieses Merkmal hier im Zusammenhang

mit der Formwahrnehmung beschrieben wurde, so ist es doch naheliegend, einen

Einfluss gleichermaßen auch für den gesamten Itempool anzunehmen (vgl. 7.3).182

Zusammenfassung

Auch in Bezug auf die Items zur Formwahrnehmung können verschiedene

schwierigkeitsgenerierende Aufgabenmerkmale identifiziert werden. Basierend

auf den vergleichenden Analysen und inhaltlichen Betrachtungen der einzelnen

Items lassen sich vier Merkmale formulieren, für die ein Einfluss auf die I-

temschwierigkeit vermutet wird. Demgemäß ist die Schwierigkeit der Items zur

Erfassung von Formwahrnehmung abhängig von

1. der physischen Markierung von Abschnitten. Es wird angenommen, dass die

Itemschwierigkeit steigt, umso weniger deutlich physische Markierungen die

Segmentgrenzen zwischen zwei Abschnitten kennzeichnen;

2. der notwendigen Nutzung des musikalischen Gedächtnisses. Sofern ein Form-

abschnitt (oder Teile davon) memoriert werden müssen, ist von einer erhöhten

Itemschwierigkeit auszugehen;183

182 Diese Annahme verweist auf eine wichtige Eigenschaft von Aufgabenmerkmalen: Sie müssen in gewissem Umfang über eine konkrete Aufgabe hinaus verallgemeinert werden können. Denn nur dann können mittels der Aufgabenmerkmale die Itemschwierigkeiten eines ganzen Tests vor-hergesagt werden. Mit dieser Thematik werden sich die folgenden Abschnitte und insbesondere Abschnitt 7.5 befassen. 183 In Bezug auf den KoMus-Itempool kennzeichnet dieses Merkmal den Unterschied zwischen der Erkennung von Abschnitten und dem Vergleich von Abschnitten. Dies gilt selbstverständlich nur für die vorgestellten Items und die Art, wie dort Formwahrnehmung erfasst wird. Da bei den KoMus-Items zur Abschnitterkennung die Segmentgrenzen immer durch relativ deutliche physi-sche Markierungen gekennzeichnet sind, spielt hierbei das musikalische Gedächtnis keine oder nur eine untergeordnete Rolle. Bei komplexeren Formen (z. B. Fuge, Variation) ist es hingegen häufig

191

3. der Länge und Komplexität der Formteile;184

4. dem für die Aufgabenlösung notwendigen expliziten Wissen.

In diesem und dem vorangegangenen Abschnitt (7.1) konnten einerseits verschie-

dene Merkmale beschrieben werden, die in genuinem Zusammenhang mit der

Wahrnehmung von Rhythmus und Form stehen. Andererseits erbrachten die Ana-

lysen aber auch Merkmale, die sich auf grundlegende Wahrnehmungsvorgänge,

Eigenschaften eines Hörbeispiels oder die Art einer Aufgabenstellung beziehen,

also vermutlich nicht ausschließlich auf die Rhythmus- und Formwahrnehmung

beschränkt sind, sondern auf übergeordneter Ebene anzusiedeln sind. Auf diese

Gruppe von schwierigkeitsgenerierenden Merkmalen soll in den folgenden beiden

Abschnitten näher eingegangen werden.

7.3 Wissensbasierte Aufgabenmerkmale

Zunächst mag es etwas verwundern, dass explizites Fachwissen185 im Rahmen ei-

nes Kompetenzmodells bzw. darauf bezogener Testaufgaben eine größere Rolle

spielt. Wird doch in der Diskussion um Input- und Outputsteuerung immer wieder

betont, dass mit dem Kompetenzbegriff eine Bewegung weg von der Vermittlung

einzelner Inhalte, von der Fokussierung auf Faktenwissen, hin zu einem an Fähig-

keiten und Fertigkeiten orientieren Lehr-/Lernkonzept verbunden ist. Betrachtet

man jedoch den Kompetenzbegriff genauer (vgl. 2.1.2), so wird deutlich, dass die-

ser keineswegs den Stellenwert von Wissen grundsätzlich infrage stellt. Vielmehr

geht es im Rahmen des Kompetenzkonzepts darum, den Erwerb von Wissen in

einen größeren und vor allem anwendungsbezogenen Zusammenhang zu stellen:

„Kompetenz stellt die Verbindung zwischen Wissen und Können […] her und ist

nicht möglich die Segmentgrenzen zu bestimmen, ohne z. B. ein Thema, Motiv o. ä. zu memorie-ren. 184 Ein Einfluss dieses Merkmals wird nur für Aufgaben vermutet, die einen Vergleich von Form-teilen verlangen. Sofern dieser nicht notwendig ist und auch zur Bestimmung der Segmentgrenzen kein musikalisches Gedächtnis erforderlich ist, sollte das Merkmal nicht schwierigkeitsrelevant sein. 185 Gemeint ist hier und im Folgenden immer Wissen, das sich speziell auf das Fach Musik be-zieht. In der Psychologie werden hierfür auch die Begriffe ‚bereichsspezifisches’ und ‚domänen-spezifisches’ Wissen verwendet. Abzugrenzen davon ist allgemeines Wissen, das sich auf viele verschiedene Domänen anwenden lässt (z. B. Wissen in Bezug auf den Umgang mit Computer und Internet).

192

als Befähigung zur Bewältigung von Situationen bzw. von Aufgaben zu sehen“

(Klieme et al., 2003, S. 73). Wissen ist also eine zentrale Facette von Kompetenz,

die jedoch keinen Wert an sich hat, sondern eher im Sinne einer Ressource ver-

standen wird, die Schüler in die Lage versetzt, mit den an sie gestellten Hand-

lungsanforderungen sinnvoll umgehen zu können (Criblez et al., 2009, S. 36).

Wenngleich die Verwendung des Kompetenzbegriffs in den aktuellen Musikcurri-

cula häufig relativ verkürzt erfolgt (vgl. 2.2.1; Knigge & Lehmann-Wermser,

2008), so ist es im Anschluss an den zuvor genannten Punkt doch absolut folge-

richtig, dass trotz einer stärkeren Fokussierung auf Fähigkeiten und Fertigkeiten

die dafür notwendige Wissensbasis nicht aus dem Blick gerät. Auf curricularer

Ebene werden daher musikbezogene Kompetenzen typischerweise beschrieben

mit Formulierungen wie „Schülerinnen und Schüler können XY“ und „Schülerin-

nen und Schüler verfügen über das Wissen XY“. Wichtig ist nun, dass diese bei-

den Kompetenzfacetten nicht isoliert voneinander betrachtet werden – was jedoch

für einige Curricula durchaus in mehr oder weniger starker Ausprägung zutrifft –

sondern miteinander in Verbindung gebracht werden. Entsprechende Formulie-

rungen lauten dann „Schülerinnen und Schüler wenden ihr erworbenes Wissen in

der Anforderungssituation XY (z. B. Improvisieren) an“. Ein konkretes Beispiel

ist bereits in den Itemanalysen zur Formwahrnehmung angeklungen (7.2, Analy-

se 4): Dort sollte die Fähigkeit, einen Formverlauf wahrzunehmen, in Verbindung

gebracht werden mit dem Fachwissen, dass bestimmte Konstellationen von Form-

teilen gewissen Formmodellen entsprechen, die wiederum terminologisch eindeu-

tig definiert sind (z. B. Rondo). Grundsätzlich zeigen sich die Curricula an diesem

Punkt sehr anschlussfähig in Bezug auf das Kompetenzkonzept, denn im Speziel-

len für die Kompetenz des hörenden Wahrnehmens wird in der Regel immer der

Bezug zu domänenspezifischen Wissensdimensionen hergestellt (z. B. musikhis-

torisches oder -theoretisches Wissen; vgl. auch 4.2.1).

Sofern ein Kompetenzmodell und ein darauf bezogenes Testverfahren beanspru-

chen, auf der theoretischen Basis des Kompetenzbegriffs konstruiert und curricu-

lar valide zu sein, so ist es sinnvoll und notwendig auch explizites Fachwissen bei

der Konstruktion von Testaufgaben mit einzubeziehen. Im Anschluss an die vori-

gen Ausführungen ist hierfür entscheidend, dass es sich dabei nicht um die isolier-

te Abfrage einzelner Inhalte handelt (z. B. „Wann wurde Mozart geboren?“), son-

dern das Wissen in konkreten Anforderungssituationen angewandt werden muss.

193

Dieser Grundsatz wurde für alle KoMus-Items eingehalten, sodass der Einsatz

von Wissen bei einem Item immer nur ein Aufgabenmerkmal unter anderen ist.

Die folgenden Ausführungen werden dies verdeutlichen.

In den Analysen zur Rhythmus- und Formwahrnehmung (7.1 und 7.2) konnten

meist mehrere Items miteinander verglichen werden, die in Bezug auf einen Groß-

teil der Aufgabencharakteristika identisch oder zumindest gut zu vergleichen wa-

ren. Ein vorliegender Unterschied der Itemschwierigkeiten konnte dadurch auf

wenige, meist ein einzelnes Aufgabenmerkmal zurückgeführt werden. Die so

formulierten hypothetischen Merkmale sind zwar noch nicht empirisch validiert,

durch eine erste Konfrontation mit empirischen Daten konnten aber deren grund-

sätzliche Plausibilität überprüft und die Hypothesen weiter ausdifferenziert wer-

den. Ein ähnliches Vorgehen ist für die im Folgenden diskutierten Merkmale nur

in begrenztem Umfang möglich. Dies liegt daran, dass in Bezug auf wissensba-

sierte Merkmale im KoMus-Itempool nur wenige Items vorliegen, die die Aufga-

bencharakteristika ähnlich systematisch variieren, wie dies für die Rhythmus- und

Formwahrnehmung gegeben ist. Dementsprechend müssen einige der folgenden

Hypothesen zunächst ohne einen Abgleich mit empirischem Datenmaterial formu-

liert werden. Eine statistische Analyse dieser Merkmale kann dann erst auf Test-

ebene erfolgen (vgl. 7.5)

Analyse 1: Wahrnehmung mit und ohne explizites Fachwissen

Diese erste Analyse greift noch einmal das bereits im Rahmen der Formwahr-

nehmung diskutierte Merkmal ‚Einsatz von Fachwissen’ in grundlegender Hin-

sicht auf (vgl. 7.2, Analyse 4).

Abb. 51: Items D2-1c-1 und D2-1c-2 (Testheft 6)

194

Abb. 51 zeigt zwei Items, die in Bezug auf die Wahrnehmung identische Anforde-

rungen stellen. Während bei Item 1c-1 jedoch kein Fachwissen für die Lösung des

Items notwendig ist, erfordert Item 1c-2 eine genaue Kenntnis des Begriffs ‚Tril-

ler’.

Gemäß der bereits formulierten Hypothese sollte ein Item, das die gleiche Wahr-

nehmungsleistung erfordert, darüber hinaus aber auch den Einsatz von Fachwis-

sen, deutlich schwerer sein. Die in Tab. 41 aufgeführten statistischen Werte bestä-

tigen erneut den Einfluss des relevanten Wissenseinsatzes auf die Itemschwierig-

keit.186

Tab. 41: Vergleich der Itemschwierigkeiten der Items D2-1c-1 und D2-1c-2 (Testheft 6)

TH-6 Kurzbeschreibung NR (%) PZK �

D2-1c-2 Triller-Hörbeispiel mit Fachterminologie 47.11 36.53 -0.12

D2-1c-1 Triller-Hörbeispiel ohne Fachterminologie 83.11 77.48 -1.95

Analyse 2: Qualität des Wissens

In der vorigen Analyse wurde deutlich, dass der notwendige Einsatz von Fachwis-

sen grundsätzlich relevant für die Itemschwierigkeit ist. Es ist naheliegend, hierbei

nicht nur von einer dichotomen Ausprägung des Merkmals auszugehen, sondern

das Merkmal noch weiter auszudifferenzieren in Bezug auf die Qualität des Wis-

sens. Gemeint ist hiermit, dass es vermutlich nicht nur einen Unterschied macht,

ob Wissen für die Aufgabenlösung notwendig ist oder nicht, sondern auch, in

welch elaborierter und abstrakter Form dieses Wissen vorliegen muss. Mindestens

zwei Abstufungen des Aufgabenmerkmals können so beschrieben werden: 1. Für

186 Die angestellten Überlegungen weisen über die Bedeutung des Fachwissens hinaus auch auf ei-ne grundsätzliche Problematik bei der Interpretation von Aufgabenlösungen hin. Während für den Teil der Schüler, die das Item 1b-2 korrekt lösen, festgehalten werden kann, dass sie sowohl zwei schnell abwechselnde Töne wahrgenommen haben als auch diese Wahrnehmung mit ihrem termi-nologischen Wissen in Verbindung bringen können, ist die Interpretation einer falschen Itembear-beitung viel schwieriger. Hierbei könnte man aufgrund der relativ niedrigen Wahrnehmungsanfor-derung zunächst vermuten, dass für die Aufgabenbearbeitung hauptsächlich das wissensbasierte Merkmal und kein wahrnehmungsbasiertes relevant ist und somit also ein fehlendes Fachwissen für die falsche Antwort verantwortlich sein sollte. Trotzdem wäre grundsätzlich auch der umge-kehrte Fall denkbar: Ein Schüler verfügt zwar über ein elaboriertes Wissen in Bezug auf Verzie-rungen, ist aber nicht in der Lage, in dem Hörbeispiel den für eine Trillerfigur charakteristischen schnellen Wechsel von Haupt- und Nebennote zu identifizieren. Dass es Schüler gibt, die über die entsprechende Wahrnehmungsfähigkeit nicht verfügen, zeigen die 16.89 % falschen Antworten bei Item 1b-1. Ob für eine fehlerhafte Bearbeitung des Items 1b-2 letztlich ein mangelndes Fachwis-sen oder eine fehlende Wahrnehmungsfähigkeit verantwortlich ist, kann somit also nicht aus den Daten erschlossen werden. An diesem Beispiel wird erneut deutlich, dass Testaufgaben in der Re-gel eben nur bedingt für fehler- und individualdiagnostische Zwecke einsetzbar sind.

195

die Lösung eines Items ist ein grobes, eher vages Begriffsverständnis notwendig

(z. B. wissen, dass Rondo ein Formmodell ist); 2. Für die Aufgabenbearbeitung

bedarf es eines sehr detaillierten, elaborierten Wissens (z. B. wissen, dass Rondos

häufig in der Wiener Klassik anzutreffen sind und u. a. die Abfolge A-B-A-C-A

von Refrain und Couplets aufweisen können). Bei Durchsicht der KoMus-Items

zeigt sich, dass solch eine zweistufige Kodierung des Aufgabenmerkmals prinzi-

piell gut anwendbar ist. Die folgenden beiden Items verdeutlichen dies exempla-

risch.

Abb. 52 zeigt eine modifizierte Fassung eines Items (D3-4a), bei dem nur noch

die für diese Analyse relevante Antwortalternative vorhanden ist (im Original hat

das Item acht Antwortalternativen und einen längeren Partiturausschnitt). Die

Schüler müssen bei jeder Antwortalternative entscheiden, ob die dort formulierte

Aussage zutrifft oder nicht. Um das Item lösen zu können, bedarf es des Wissens,

dass ein Bassschlüssel ein Notationssymbol ist und wie dieses grafisch dargestellt

wird. Weiteres Wissen in Bezug auf Notenschlüssel ist an dieser Stelle nicht not-

wendig.

Abb. 52 Item D3-4a (Testheft 7)

Abb. 53: Item D3-5 (Testheft 8)

196

Anders stellt sich die Situation für Item D3-5 dar. Hier genügt es nun nicht mehr,

lediglich die grafische Repräsentation eines Bassschlüssels zu kennen, vielmehr

muss eine Testperson den Unterschied zwischen Violin- und Bassschlüssel be-

nennen können. Erst wenn ein genaues Wissen darüber vorhanden ist, in welchem

Verhältnis notierte und klingende Musik bei dem jeweiligen Schlüssel stehen,

kann die Aufgabe gelöst werden.187

Analyse 3: Wechselwirkung von Wahrnehmung und Wissen

Die vorangegangenen Analysen haben den Einfluss von wissensbasierten Aufga-

benmerkmalen auf die Itemschwierigkeit verdeutlicht. Dabei war es jeweils so,

dass der Einsatz des Fachwissens eher additiv zu einer notwendigen Wahrneh-

mungsleistung hinzutrat. Die Wahrnehmung als solche wurde aber durch das rele-

vante Wissen nicht beeinflusst. Die folgende Analyse zeigt, dass durch einen ge-

forderten Wissenseinsatz auch veränderte Anforderungen an die Wahrnehmungs-

fähigkeiten entstehen können.

Abb. 54: Item D1-15c-1 (Testheft 3)

Abb. 55: Item D1-15g (Testheft 3)

187 Ein Vergleich der Itemschwierigkeiten ist an dieser Stelle nicht sinnvoll, da beide Items ein un-terschiedliches Format, aber auch eine Reihe von unterschiedlichen Aufgabenmerkmalen aufwei-sen.

197

In Abb. 54 und Abb. 55 sind zwei Items zu sehen, die beide die Wahrnehmung

des musikalischen bzw. emotionalen Ausdrucks von Musikstücken zum Inhalt ha-

ben.188 Bei Item D1-15c-1 muss der wahrgenommene Ausdruck einer kurzen Be-

schreibung zugeordnet werden. Die Aufgabenstellung von Item D1-15-g verlangt

außer einer vergleichbaren Wahrnehmungsleistung auch den Einsatz von Fach-

wissen: Es soll nun nicht nur ein passendes Adjektiv gefunden werden, darüber

hinaus müssen die Eigenschaften („musikalische Mittel“)189 der Musik beschrie-

ben werden, die zu dem Ausdrucksgehalt der Musik beitragen.

Als Hörbeispiel für Item 15g dient ein Ausschnitt aus Bizets Ouvertüre zu Car-

men. Eine als vollständig korrekt gewertete Antwort eines Schülers lautet z. B.

folgendermaßen: „Die Musik wirkt... fröhlich und festlich, denn… die Pauken und

Trompeten spielen laut und festlich. Das Trillern der Instrumente macht das Stück

fröhlich. Das Tempo ist außerdem recht schnell“. An dieser exemplarischen Schü-

lerantwort wird deutlich, dass Fachwissen in Bezug auf grundlegende musikali-

sche Parameter (Tempo, Dynamik, Instrumentation, Spielweise) notwendig ist.

Auch für dieses Item ist daher von einem Einfluss des Merkmals ‚Einsatz von

Fachwissen’ auszugehen, was durch Tab. 42 bestätigt wird. Die sehr große Diffe-

renz der Itemparameter von 2.96 logits dürfte jedoch nicht allein auf das notwen-

dige Wissen zurückzuführen sein.

188 Für die Aufgabenentwicklung zu dieser Modellfacette wurden musikpsychologische For-schungsarbeiten genutzt, die untersuchen, inwieweit die emotionale Ausdrucksqualität von Musik durch Rezipienten dekodiert werden kann (z. B. Kreutz, Ott & Vaitl, 2006; Sloboda & Juslin, 2005). Vor allem die dort vorgenommene Unterscheidung zwischen „Emotionsperzeption (Wahr-nehmung des emotionalen Ausdruckes in Musik ohne notwendigerweise selbst betroffen zu sein) und Emotionsinduktion (die emotionelle Reaktion des Musikhörers)“ (Gabrielsson, 2001/2002, S. 123) war für die Itemkonstruktion von entscheidender Bedeutung. Denn Inhalt eines Kompe-tenztests kann nicht die emotionale Reaktion eines Schülers sein, wohl aber dessen Wahrnehmung des in einem Musikstück intendierten Ausdrucks. Denn diese Wahrnehmungsfähigkeit ist an ob-jektive Strukturmerkmale musikalischer Kompositionen gebunden (Kreutz, Ott &Vaitl, 2006) und dadurch auch in gewissem Umfang durch den Musikunterricht beeinflussbar (Gembris, 2006, S. 135). In methodischer Hinsicht hat es sich hierbei als hilfreich erwiesen, ausschließlich Musik zu verwenden mit kategorial unterschiedlichem und sehr eindeutig zuzuordnendem Ausdruck. Als Orientierung für die Formulierung entsprechender Antwortalternativen diente der Adjektiv-Zirkel von Hevner (vgl. Gabrielsson & Lindström, 2001; s. auch Abb. 54). 189 Der Begriff ‚musikalische Mittel’ wurde in dem entsprechenden Testheft bereits bei einer vo-rangegangenen Aufgabe eingeführt und erklärt.

198

Tab. 42: Vergleich der Itemschwierigkeiten der Items D1-15c-1 und D1-15g (Testheft 3)

TH-3 Kurzbeschreibung NR (%) PZK �

D1-15g Erfassung des emotionalen Ausdrucks + musikalische Mittel 57.89 - 0.54

D1-15c-1 Erfassung des emotionalen Ausdrucks 94.74 93.43 -2.42

Dadurch, dass die Testpersonen aufgefordert werden, ihr Wissen in Bezug auf

musikalische Parameter mit dem wahrgenommenen emotionalen Ausdruck der

Musik zu verbinden, wird automatisch eine komplexere Wahrnehmungsleistung

notwendig. Denn während für die Zuordnung des musikalischen Ausdrucks zu ei-

nem passenden Adjektiv vermutlich ein eher ganzheitliches und relativ undiffe-

renziertes Hören ausreichend ist, muss zur Beschreibung der musikalischen Para-

meter die Aufmerksamkeit gezielt auf einzelne Details der Musik gelenkt werden.

Erst wenn z. B. eine Instrumentengruppe aus dem Gesamtklang isoliert werden

kann, ist es möglich, diese in ihrer Spielweise und deren Beitrag zum emotionalen

Ausdruck der Musik zu beschreiben (z. B. laut schmetternde Trompeten in hoher

Lage, die der Musik einen festlichen Duktus verleihen). Der Einsatz des Wissens

und die Wahrnehmung stehen hier also in einem reziproken Verhältnis. Dieses

Verhältnis kann als ein Zusammenspiel gedacht werden, bei dem einerseits das

Wissen die Wahrnehmung steuert (man weiß z. B., dass Dynamik und Tempo ent-

scheidend für die Wirkung einer Musik sind und richtet die Wahrnehmung des-

halb auf eben diese Parameter) oder aber andererseits die Wahrnehmung der Ak-

tivierung von Wissensbeständen vorausgeht (man hört z. B. eine laute, hohe Me-

lodie und richtet die Aufmerksamkeit auf deren weiteren Verlauf; daran anschlie-

ßend kommt das Wissen zum Einsatz, dass es sich hierbei um Trompeten handelt,

die im Forte spielen und deren schnelle Tonwechsel als Triller zu bezeichnen

sind). Die Musikpsychologie spricht hier von einem Zusammenspiel reizgeleiteter

‚bottom-up’ Prozesse und wissensgeleiteter ‚top-down’ Vorgänge (z. B. La Mot-

te-Haber, 2005b; Stoffer, 2005; vgl. auch 4.2.2).

Analyse 4: Verschiedene Wissensdimensionen

Bei Betrachtung des Kompetenzmodells und des darauf bezogenen Itempools

wird deutlich, dass das erforderliche Fachwissen verschiedenen inhaltlichen Wis-

sensdimensionen zugeordnet werden kann, so z. B. den Bereichen Musiktheorie

oder Musikgeschichte.

199

Prenzel et al. (2002) schlagen für wissensbasierte Aufgabenmerkmale eine Auf-

schlüsselung in aus didaktischer Sicht sinnvoll zu differenzierende Inhalte vor.

Solch ein Vorgehen erscheint in zweierlei Hinsicht sinnvoll:

(1) Durch eine Merkmalskodierung nach Inhalten ergibt sich ein höherer Diffe-

renzierungsgrad. Es kann so nicht nur festgestellt werden, ob der Einsatz von

Fachwissen prinzipiell schwierigkeitsgenerierend wirkt, sondern auch, ob ein e-

ventueller Einfluss an bestimmte Inhalte gebunden ist.

(2) Die inhaltliche Ausdifferenzierung der wissensbasierten Merkmale hat eine

Entsprechung in der fachlichen Struktur: Musikgeschichte und Musiktheorie sind

beispielsweise typische inhaltliche Dimensionen des Musikunterrichts, die sich

auf curricularer Ebene ebenso finden wie in Schulbüchern und didaktischen Mate-

rialien. Sofern die schwierigkeitsgenerierenden Merkmale einmal zur Beschrei-

bung und Generierung von Aufgaben, evtl. aber auch für die Festlegung von

Kompetenzniveaus verwendet werden, so erscheint es aus fachdidaktischer Per-

spektive höchst sinnvoll, bereits bei der Identifikation der Merkmale die fachli-

chen Dimensionen mitzudenken, die in Bezug auf eine spätere Ergebnisinterpreta-

tion und -rückmeldung für Lehrkräfte und Schüler relevant sein werden.

Im Anschluss an diese Überlegungen und unter Berücksichtigung der im KoMus-

Itempool repräsentierten Wissensinhalte werden in vorliegender Arbeit vier Wis-

sensdimensionen unterschieden und entsprechend als Merkmale kodiert: musik-

theoretisches, -historisches und -stilistisches Fachwissen sowie Wissen in Bezug

auf kulturelle und soziale Kontexte von Musik.

Zusammenfassung

Die Analysen und Ausführungen zu wissensbasierten Aufgabenmerkmalen haben

verdeutlicht, dass grundsätzlich von einem schwierigkeitsrelevanten Einfluss aus-

zugehen ist, wenn für die Lösung einer Aufgabe der Einsatz von Fachwissen not-

wendig ist. Das Merkmal ‚Einsatz von Fachwissen’ kann außerdem noch weiter

ausdifferenziert werden:

(1) Die Itemschwierigkeit ist nicht nur davon abhängig, ob das Merkmal grund-

sätzlich vorliegt, auch die Qualität des Wissens ist von Relevanz. Demgemäß ist

von einer steigenden Itemschwierigkeit auszugehen, umso detaillierter und elabo-

rierter das Wissen vorhanden sein muss.

200

(2) In inhaltlicher Hinsicht erscheint die Aufschlüsselung des Merkmals nach

Wissensdimensionen sinnvoll. Es ergeben sich somit vier wissensbasierte Merk-

male, die sich in Bezug auf die inhaltliche Dimension unterscheiden (musiktheo-

retisches, -historisches und -stilistisches Fachwissen sowie Wissen in Bezug auf

kulturelle und soziale Kontexte von Musik).

7.4 Merkmalsebene ‚Aufgabe’

7.4.1 Aufgabenmerkmal ‚Itemformat’

In Studien, die den Einfluss von Aufgabenmerkmalen auf die Aufgabenschwie-

rigkeit untersuchen, werden häufig die verwendeten Itemformate als Merkmale

beschrieben. Hinter dieser Vorgehensweise steht die Annahme, dass die Schwie-

rigkeit, beispielsweise einer Mathematik-Aufgabe, nicht nur von den mathemati-

schen Kompetenzen der Schüler abhängt, sondern auch durch das Itemformat be-

einflusst wird. Es wird angenommen, dass es Schülern grundsätzlich schwerer

fällt, eine Antwort eigenständig zu formulieren (freie Formate: halboffen, offen),

als eine vorgegebene Antwortalternative auszuwählen (gebundene Formate: Mul-

tiple-Choice-, Richtig-Falsch-, Zuordnungs-Items). Hierfür sind in der Regel zwei

Faktoren ausschlaggebend. Einerseits stellt ein freies Format erhöhte Anforderun-

gen an die sprachlichen Fähigkeiten (Textproduktion/Schreibleistung). Anderer-

seits spielen auch motivationale Aspekte eine Rolle, denn ein freies Aufgaben-

format ist in Bezug auf die rein technische Bearbeitung immer aufwendiger zu lö-

sen als ein gebundenes Format, bei dem z. B. lediglich eine Antwort angekreuzt

werden muss.

Eine Untersuchung des Zusammenhangs von Itemschwierigkeit und -format ist

daher aufschlussreich und wichtig, da so der Einfluss von diesen allgemeinen und

eher technischen Oberflächencharakteristika einer Aufgabe unterschieden werden

kann von den Aufgabenmerkmalen, die in genuinem Zusammenhang mit den an-

visierten musikspezifischen Kompetenzen stehen. Die Analyse von nicht kompe-

tenzspezifischen Merkmalen dient somit auch der Absicherung der Konstruktvali-

dität der Items bzw. des Kompetenztests.

Im Folgenden wird ein für die KoMus-Items evtl. vorhandener schwierigkeitsre-

levanter Einfluss des Merkmals ‚Itemformat’ mittels Korrelationsanalysen unter-

201

sucht. Gemäß der Hypothese, dass freie Formate schwierigkeitsgenerierend wir-

ken, sind dabei positive Korrelationen mit der Itemschwierigkeit zu erwarten.

Tab. 43: Verteilung der Item-Formate auf die einzelnen Testhefte

Gebundene Formate Freie Formate

Testheft Absolut % Absolut %

1 15 100 0 0

2 13 87 2 13

3 11 73 4 27

4 19 83 4 17

5 19 66 10 34

6 15 63 9 37

7 9 60 6 40

8 11 46 13 54

9 12 63 7 37

Gesamt 124 69 55 31

Tab. 43 gibt zunächst einen Überblick über die Verteilung der Itemformate inner-

halb der neun Testhefte. Während in den ersten vier Testheften hauptsächlich ge-

bundene Formate verwendet wurden, sind in den Testheften 5-9 jeweils mindes-

tens ein Drittel freie Aufgabenformate enthalten.

Aufgrund der ungünstigen Häufigkeitsverteilungen der Formate in den Testheften

1-4 werden für die Korrelationsanalysen nur die Testhefte 5-9 verwendet. Korre-

liert wird jeweils die dichotome Variable ‚Itemformat’ (Ausprägungen: gebun-

den/frei)190 mit der empirisch gemessenen Itemschwierigkeit (Itemparameter des

Rasch-Modells). In Tab. 44 sind die berechneten punktbiserialen Korrelationen

angegeben.

Tab. 44: Punktbiseriale Korrelation von Itemformat und Itemschwierigkeit

Itemformat

Itemschwierigkeit 0.140 0.553* 0.137 0.518** 0.447*

Testheft 5 6 7 8 9

* p<.05, ** p <.01

190 Kodiert ist die Variable mit 0 = gebundenes Format und 1 = freies Format.

202

Grundsätzlich bestätigen die Korrelationen den vermuteten Zusammenhang von

Itemformat und -schwierigkeit. Es liegen ausschließlich positive Korrelationen

vor, die bei Testheft 5 und 7 jedoch sehr schwach und nicht signifikant ausfallen.

Signifikante Korrelationen mittlerer Stärke liegen für die Testhefte 6, 8 und 9 vor.

Wie sind diese Ergebnisse zu interpretieren? Zunächst legen die Korrelationsana-

lysen auch für die KoMus-Items die Annahme eines Zusammenhangs von Item-

format und -schwierigkeit nahe. Zu fragen ist allerdings, ob der vermeintliche

schwierigkeitsgenerierende Einfluss des Itemformats tatsächlich auf das Format

als solches zurückgeführt werden kann. Denkbar wäre auch, dass in den Items mit

freiem Format weitere Merkmale repräsentiert sind, die eigentlich für die Schwie-

rigkeit verantwortlich sind, nur eben besonders häufig in Kombination mit den

freien Itemformaten auftreten. Diese Vermutung ist auch deshalb naheliegend, da

die Richtlinien zur Aufgabenentwicklung (vgl. 4.3) explizit eine Verwendung of-

fener Items für die Erfassung komplexerer Anforderungen und höherer Kompe-

tenzniveaus vorsehen. Vor diesem Hintergrund ist es zunächst wenig verwunder-

lich, dass die KoMus-Items mit freiem Format im Durchschnitt höhere I-

temschwierigkeiten aufweisen als gebundene Itemformate.191 Um die tatsächliche

Relevanz des Merkmals ‚Itemformat’ genauer bestimmen zu können, müsste der

Einfluss des Itemformats bei gleichzeitigem Einbezug weiterer schwierigkeitsre-

levanter Merkmale untersucht werden. Ein geeignetes statistisches Verfahren wä-

re hierfür beispielsweise die multiple lineare Regression (z. B. Bühner & Ziegler,

2009, S. 634 ff.). Anhand solch einer Analyse könnte beurteilt werden, ob das I-

temformat ein aussagekräftiger Prädiktor für die Itemschwierigkeit ist, oder aber

diese vielmehr von anderen (musik- bzw. wahrnehmungsspezifischen) Merkmalen

abhängt. Hierfür müssen aber zunächst tragfähige und für den gesamten Item-Pool

anwendbare Aufgabenmerkmale vorliegen, bevor diese dann für weitere Analyse-

schritte verwendet werden können (vgl. 7.5).

Vorerst wird das schwierigkeitsgenerierende Merkmal ‚Itemformat’ beibehalten,

jedoch in dem Bewusstsein, dass es sich bei den gefundenen Korrelationen um

Scheinkorrelationen handeln könnte.

191 Die punktbiseriale Korrelation entspricht konzeptuell einem t-Test für unabhängige Stichpro-ben (Bortz, 2005, S. 225 f.).

203

7.4.2 Aufgabenmerkmal ‚sprachliche Anforderungen’

Ein weiteres Merkmal, das auf der Ebene der technischen Oberflächencharakteris-

tika einer Aufgabe anzusiedeln ist, sind die sprachlichen Anforderungen, die

durch die textspezifische Beschaffenheit des Itemstamms aber auch der Antwort-

alternativen gegeben sind. Ähnlich wie bei dem Merkmal ‚Itemformat’ handelt es

sich hierbei nicht um ein musikspezifisches Merkmal: Der schwierigkeitsgenerie-

rende Einfluss steht in Zusammenhang mit den Lesefähigkeiten einer Testperson.

Direkt ersichtlich ist dies aus den beiden Beispielitems in Abb. 56 und Abb. 57.

Abb. 56: Item mit hohen sprachlichen Anforderungen

Abb. 57: Item mit niedrigen sprachlichen Anforderungen

Cohors-Fresenborg et al. (2004) sprechen in Bezug auf dieses Merkmal von einer

Art Filter, der zwischen der Aufgabenstellung und dem eigentlichen Bearbei-

tungsprozess eingeschoben ist:

„Denkbar ist der eine Extremfall, dass bei einer Aufgabe eine Testperson selbst zu ein-fachen Denkvorgängen nicht mehr veranlasst wird, weil sie gar nicht zu einer passen-den Vorstellung von der durch den Text gegebenen Aufgabe gelangt. Man stelle sich in diesem Fall die hohe sprachlogische Komplexität als einen Filter vor, der verhin-dert, dass es überhaupt zu einer sinnvollen Bearbeitung der Aufgabe kommt. Der um-gekehrte Extremfall, dass der Aufgabentext sofort durchsichtig ist, danach aber die Schwierigkeit der notwendigen Denkprozesse einsetzt, tritt sicherlich häufiger auf.“ (S. 120)

Anschaulich wird dieses Verständnis der sprachlichen Anforderungen einer Auf-

gabe in dem in Abb. 58 dargestellten Prozessmodell der Aufgabenbearbeitung.

204

Abgesehen von den mathematikspezifischen Teilen des Modells, lässt sich dieses

auch problemlos auf die KoMus-Items übertragen.

Abb. 58: Prozessmodell der Bearbeitung einer Mathe-matik-Aufgabe (nach: Cohors-Fresenborg et al., 2004, S. 121)

Geht man von einem Einfluss sprachlicher Anforderungen auf die Itemschwierig-

keit aus, so stellt sich die Frage, wie das entsprechende Merkmal genauer spezifi-

ziert werden kann. Prinzipiell wäre hier im Sinne einer Lesekompetenzbeschrei-

bung ein sehr hoher Differenzierungsgrad möglich. Wie differenziert das Merk-

mal letztlich beschrieben wird, ist primär von dem verwendeten Item-Pool abhän-

gig, aber auch davon, welche Varianz an sprachlichen Anforderungen in den I-

tems vorhanden ist. Dementsprechend sind in der Literatur verschiedene Merk-

malsspezifikationen zu finden. Cohors-Fresenborg et al. (2004) verwenden ein

globales Merkmal „sprachlogische Komplexität“, während Prenzel et al. (2002)

lediglich die Länge eines Aufgabentextes berücksichtigen. Nold & Rossa (2007)

hingegen differenzieren die sprachlichen Anforderungen durch zwei getrennte

Merkmale „Inhaltlicher Fokus“ und „Formalsprachliche Anforderungen“. Den

genannten Studien ist gemeinsam, dass zwar ein Zusammenhang von sprachlichen

Anforderungen und Aufgabenschwierigkeit gefunden wurde, gleichzeitig waren

es aber auch die Merkmale mit der geringsten Vorhersagekraft im Rahmen von

Regressionsanalysen.

Für vorliegende Arbeit erscheint eine Kombination der aufgeführten Merkmalsde-

finitionen sinnvoll, denn im KoMus-Itempool ist eine Reihe an Aufgaben vorhan-

205

den, die sich sowohl in Bezug auf die Textlänge als auch in Bezug auf die Anfor-

derungen an Wortschatz und Grammatik deutlich unterscheiden (vgl. Abb. 56 und

Abb. 57). Es werden somit zwei Merkmale spezifiziert:

(1) Das Merkmal ‚Textlänge’ bezieht sich sowohl auf den Itemstamm als auch auf

die Antwortalternativen. Die Items werden dabei klassifiziert in Items mit viel und

wenig Text. In Bezug auf die KoMus-Items genügt solch eine dichotome Kodie-

rung, da sich die Items in der Regel sehr deutlich hinsichtlich des Merkmals un-

terscheiden (z. B. Abb. 56 und Abb. 57).192

(2) Das Merkmal ‚formalsprachliche Anforderungen’ bezieht sich auf das in einer

Aufgabe verwendete Vokabular und die grammatikalischen Strukturen. Die Aus-

prägungen des Merkmals sind in Anlehnung an Nold & Rossa (2007) formuliert

und in folgender Tabelle dargestellt.

Tab. 45: Ausprägungen des Merkmals ‚formalsprachliche Anforderungen’

Ausprägung Deskriptoren

1 Wortschatz: weniger frequente Wörter, erweiterter Wortschatz

Grammatik: komplexere Strukturen

0 Wortschatz: hochfrequente Wörter

Grammatik: einfache syntaktische Strukturen (Parataxe, Verzicht auf komplexe Struktu-ren)

7.5 Zusammenfassung und Systematisierung der Aufgabenmerkmale

In den vergangenen Abschnitten wurde auf verschiedenen Ebenen eine Reihe von

Merkmalen identifiziert, die vermutlich einen schwierigkeitsgenerierenden Ein-

fluss ausüben. Es wurden entsprechende Hypothesen formuliert, die größtenteils

durch erste empirische Analysen weiter spezifiziert werden konnten. Im nun fol-

genden Abschnitt werden die Merkmale zusammengefasst und ihre Anwendbar-

keit auf den gesamten KoMus-Itempool überprüft. Die hierfür zu entwickelnde

192 Für den Fall, dass in einem Item-Pool eine große Anzahl an Items vorliegt, die eine mittlere Wortanzahl aufweisen, kann eine dreistufige Kodierung notwendig werden. In diesem Fall muss für jede Merkmalskategorie eine genaue Wortzahl angegeben werden, ab der ein Item in eine ent-sprechende Kategorie fällt. Noch genauer kann eine Kategorisierung vorgenommen werden unter Verwendung eines Lesbarkeitsindex, der nicht nur die reine Textlänge, sondern auch die durch-schnittliche Satzlänge und die Wortlänge erfasst (Köster, 2005). Für die KoMus-Items war solch ein differenziertes Vorgehen jedoch nicht notwendig.

206

Systematik dient in einem anschließenden Schritt der Einschätzung (Kodierung)

aller Items in Bezug auf die Ausprägungen der Aufgabenmerkmale. Die so ko-

dierten Merkmale werden dann abschließend für eine empirische Überprüfung des

schwierigkeitsgenerierenden Einflusses der Merkmale im Rahmen von Regressi-

onsanalysen verwendet (Abschnitt 7.6).

7.5.1 Systematisierung der Merkmale

In Kapitel 7 wurden mehrere Studien erwähnt, die jeweils fachdidaktikspezifische

Systematiken der Aufgabenmerkmale verwenden (u. a. Nold & Rossa, 2007;

Prenzel et al., 2002). Die in Abschnitt 7.1-7.4 dargestellten Analysen haben ge-

zeigt, dass auch in Bezug auf die KoMus-Items schwierigkeitsgenerierende Auf-

gabenmerkmale für verschiedene Bereiche vorliegen. Diese können auf drei über-

geordneten Ebenen systematisiert werden:

(1) Die erste Ebene ist – ähnlich wie bei Nold & Rossa (2007) und Prenzel et al.

(2002) – durch Merkmale gekennzeichnet, die Anforderungen an das Aufgaben-

verständnis stellen. Es geht hierbei um formale Aufgabencharakteristika wie das

Itemformat, aber auch um sprachliche Anforderungen, die aufgrund der Beschaf-

fenheit der Textteile eines Items entstehen. Auf der Merkmalsebene Aufgabe kön-

nen somit drei Aufgabenmerkmale unterschieden werden:

M1: Itemformat (7.4)193

M2: Textlänge (7.4)

M3: Formalsprachliche Anforderungen (7.4)

(2) Die zweite Ebene umfasst Anforderungen, die durch eine Aufgabe an die

Hörwahrnehmung und das musikalische Gedächtnis gestellt werden. Wahrneh-

mungs- und Gedächtnisanforderungen sind sehr eng miteinander verbunden, da

der Anforderungsgrad entscheidend mit dem Komplexitätsgrad der wahrzuneh-

menden Musik zusammenhängt. Beide Anforderungen können aber auch unab-

hängig voneinander auftreten, denn es gibt sowohl Aufgaben, die eine sehr diffe-

renzierte Wahrnehmung erfordern, gleichzeitig aber keine Anforderungen an das

193 Die Angaben in Klammer beziehen sich immer auf die Abschnitte in der vorliegenden Arbeit, in denen die entsprechenden Aufgabenmerkmale analysiert und beschrieben werden.

207

musikalische Gedächtnis stellen, als auch vice versa. Auf der Ebene Wahrneh-

mung und Gedächtnis werden daher zwei Merkmale spezifiziert:

M4: Anforderungen an die Hörwahrnehmung (7.1, A.2 u. B.1/2; 7.2, A.2/3)

M5: Anforderungen an das musikalische Gedächtnis (7.1, A.1; 7.2, A.1/3)

(3) Die dritte und letzte Ebene systematisiert Merkmale, die durch die Aktivierung

von Fachwissen gekennzeichnet sind. In Bezug auf die für das Lösen einer Auf-

gabe erforderliche Wissensbasis können auf der Ebene Fachwissen fünf Merkma-

le unterschieden werden:194

M6: Fachwissen – Notation (7.1, B.4)

M7: Fachwissen – Musiktheorie (7.2, A.4; 7.3)

M8: Fachwissen – Musikgeschichte (7.3)

M9: Fachwissen – Musikstile und -genres (7.3)

M10: Fachwissen – kultureller und sozialer Kontext von Musik (7.3)

Es ist offensichtlich, dass einige Merkmale, die in den Analysen identifiziert wer-

den konnten, in dieser Systematik zusammengefasst wurden. Dies betrifft z. B. die

Merkmale klangliche und rhythmische Komplexität sowie die Komplexität eines

Formteils, die nun gemeinsam das Merkmal M4 (Komplexitätsgrad Hörbeispiel)

bilden. Dies hat den Hintergrund, dass die Systematik auf alle Items anwendbar

sein soll. Daher wird diese von vornherein so konstruiert, dass alle Merkmale mit

einer gewissen Häufigkeit kodiert und somit in statistischen Analysen verwendet

werden können. Deshalb wäre es nicht sinnvoll ein Merkmal ‚rhythmische Kom-

plexität’ einzeln zu spezifizieren, da nur sehr wenige Items eine Ausprägung die-

ses Merkmals aufweisen. Einerseits geht mit dieser Vorgehensweise ein gewisser

Informationsverlust einher, denn es wird bei der anschließenden Kodierung dann

nicht mehr unterschieden, ob es sich bei dem wahrzunehmenden musikalischen 194 Einer kurzen Erläuterung bedarf die auf dieser Merkmalsebene vorgenommene Unterscheidung von Wissen in Bezug auf Notation und musiktheoretisches Wissen, denn Notationskenntnisse könnten auch unter die musiktheoretischen Wissensinhalte subsumiert werden. Die Unterschei-dung ist jedoch sinnvoll, da notationsbezogenes Wissen und dessen Anwendung als eigene Di-mension des Kompetenzmodells ausgewiesen ist (vgl. Kapitel 2.2.3). Dementsprechend existiert eine größere Anzahl Items, die explizit den unterschiedlich komplexen Einsatz von Notations-kenntnissen erfassen. Weitere musiktheoretische Wissensinhalte (z. B. Dynamik- und Tempobe-zeichnungen, Instrumentennamen, Formmodelle) spielen hingegen in allen Modelldimensionen ei-ne Rolle und wurden weit weniger systematisch variiert. Die Unterscheidung dieser beiden Merk-male ermöglicht somit letztlich auch eine differenziertere Untersuchung des schwierigkeitsrelevan-ten Einflusses verschiedener Wissensinhalte.

208

Phänomen beispielsweise um ein rhythmisch oder klanglich komplexes Phänomen

handelt. Andererseits kann somit aber zumindest auf übergeordneter Ebene der

schwierigkeitsgenerierende Einfluss des Komplexitätsgrades eines Hörbeispiels

bzw. der dadurch bedingten Anforderungen an die Hörwahrnehmung bestimmt

werden.195

Abb. 59 fasst die Zuordnung der Aufgabenmerkmale zu den verschiedenen

Merkmalsebenen noch einmal zusammen. Wie genau die Merkmale im Einzelnen

bestimmt sind und daran anschließend kodiert werden können, wird im folgenden

Abschnitt beschrieben.

Abb. 59: Systematisierung der schwierigkeitsgenerierenden Aufgabenmerkmale

7.5.2 Ausprägung und Kodierung der Merkmale

Ziel dieses Abschnitts ist es, die Aufgabenmerkmale zusammenzufassen und so

detailliert in Bezug auf deren Ausprägungen zu beschreiben, dass auf dieser Basis

alle KoMus-Items kodiert werden können. Die im Folgenden dargestellten Merk-

195 Sollte es im Erkenntnisinteresse einer Studie liegen, den Einfluss unterschiedlicher musikali-scher Parameter und deren Komplexitätsgrad auf die Itemschwierigkeit zu identifizieren, so müss-te eine entsprechend große Itemanzahl entwickelt werden, die systematisch die musikalischen Pa-rameter und unterschiedliche Ausprägungen von deren Komplexität kombiniert.

209

malsausprägungen und Deskriptoren sind das Ergebnis eines längeren iterativen

Prozesses, bei dem die formulierten Aufgabenmerkmale immer wieder an Item-

teilmengen erprobt und überarbeitet wurden. Einige Aufgabenmerkmale konnten

dabei direkt aus den Analysen übernommen werden, einzelne Merkmale mussten

jedoch unter Berücksichtigung der anvisierten Anwendung auf den gesamten

Itempool modifiziert oder ergänzt werden. Die entsprechenden Erläuterungen er-

folgen im Zusammenhang mit den einzelnen Aufgabenmerkmalen.

Im Anschluss an die in Abschnitt 7.4 angestellten Überlegungen sind die entspre-

chenden Ausprägungen und Deskriptoren der Aufgabenmerkmale ‚Itemformat’,

‚Textlänge’ und ‚formalsprachliche Anforderungen’ (Merkmalsebene Aufgabe) in

der Tab. 46 dargestellt:

Tab. 46: Ausprägungen und Deskriptoren der Aufgabenmerkmale M1-3 (Ebene ‚Aufgabe’)

M1: Itemformat

Ausprägung Deskriptoren

2 Freies Format: offene Items

1 Freies Format: halb-offene Items

0

Geschlossene Formate: Multiple-Choice-, Richtig-Falsch-, Zuordnungs-Items

M2: Textlänge

Ausprägung Deskriptoren

1 Aufgabe enthält viel Text (Itemstamm und Antwortalternativen)

0

Aufgabe enthält wenig Text

M3: Formalsprachliche Anforderungen

Ausprägung Deskriptoren

1 Wortschatz: weniger frequente Wörter, erweiterter Wortschatz

Grammatik: komplexere Strukturen

0 Wortschatz: hochfrequente Wörter

Grammatik: einfache syntaktische Strukturen (Parataxe, Verzicht auf komplexe Strukturen)

Im Rahmen der Analysen in Abschnitt 7.4 wurde das Aufgabenmerkmal ‚Item-

format’ (M1) lediglich dichotom (freies/gebundenes Format) kodiert. Zum Zwe-

cke der explorativen Untersuchung eines grundsätzlichen Einflusses des Itemfor-

mats auf die Itemschwierigkeit war dies zunächst ausreichend. Für die abschlie-

210

ßenden Analysen wird jedoch ein möglichst hoher Differenzierungsgrad innerhalb

der Merkmalsausprägungen angestrebt. Hierfür ist es naheliegend, die auch in an-

deren Studien häufig vorgenommene Unterscheidung von geschlossenen, halb-

offenen und offenen Items zu übernehmen (z. B. Prenzel et al., 2002).

Auf der nächsten Ebene werden die Anforderungen an die Hörwahrnehmung und

das musikalische Gedächtnis mit je spezifischen Merkmalsausprägungen be-

schrieben.

In Bezug auf das Merkmal ‚Hörwahrnehmung’ ist an dieser Stelle zu betonen,

dass die Deskriptoren sich nur auf die musikalischen Phänomene beziehen, deren

Wahrnehmung für die Aufgabenlösung zwingend erforderlich ist. Diese Vorge-

hensweise ist der Tatsache geschuldet, dass die Anforderungen an die Wahrneh-

mung zunächst durch die Aufgabenstellung und nicht durch das Hörbeispiel ge-

steuert werden. Dies wird sofort ersichtlich, wenn man sich den Fall vorstellt, dass

für zwei Items ein identisches Hörbeispiel verwendet wird, das beispielsweise ei-

ne hochkomplexe harmonische, rhythmische und vor allem formale Struktur auf-

weist. Die Aufgabenstellung des ersten Items lautet nun: „Notiere den Formver-

lauf des Stückes und benutze hierzu die Buchstaben A, B, A’ und C“; die Aufga-

benstellung des zweite Items lautet hingegen: „Passt der Begriff ‚forte’ oder ‚pia-

no’ besser zu dem Musikstück?“. In diesem Beispiel wird deutlich, dass obwohl

das Hörbeispiel objektiv betrachtet einen hohen Komplexitätsgrad aufweist, dieser

nur für die Lösung des ersten Items relevant ist. In Bezug auf das zweite Item ge-

nügt eine viel weniger differenzierte Wahrnehmung; entscheidender für die Lö-

sung dieses Items ist hingegen das fachterminologische Wissen in Bezug auf Dy-

namikbezeichnungen. Aus diesem Grund sind die Deskriptoren des Merkmals

zwar in Bezug auf die wahrzunehmende Musik formuliert, sie sind aber immer im

Zusammenhang mit der entsprechenden Aufgabenstellung anzuwenden.196

196 Nold & Rossa (2007, S. 184) gehen sehr ähnlich in Bezug auf die Einschätzung von schwierig-keitsgenerierenden Merkmalen für die DESI-Hörverstehensaufgaben vor. Sie verwenden hierbei das Konzept der ‚necessary information’, womit die Textbereiche bzw. Informationen gemeint sind, die eine Testperson unbedingt verstanden haben muss, um eine Aufgabe erfolgreich bearbei-ten zu können. Nold & Rossa beziehen sich hierbei auf Untersuchungen, die zeigen, dass es für die Lösung einer Aufgabe relativ unerheblich ist, wie ein Hörverstehenstext insgesamt beschaffen ist. Entscheidend für die Itemschwierigkeit sind fast ausschließlich die Charakteristika der ‚necessary information’. Es werden daher auch für die DESI-Hörverstehensaufgaben immer nur die Textbe-reiche in Bezug auf ihre schwierigkeitsgenerierenden Aufgabenmerkmale eingeschätzt, die auf-grund der Aufgabenstellung lösungsrelevant – also: ‚necessary informations’ – sind.

211

Die konkreten Ausprägungen und Deskriptoren der beiden Merkmale ‚Anforde-

rungen an die Hörwahrnehmung’ und ‚Anforderungen an das musikalische Ge-

dächtnis’ sind in Tab. 47 dargestellt.

Tab. 47: Ausprägungen und Deskriptoren der Aufgabenmerkmale M4-5 (Ebene ‚Wahrnehmung / Musikali-sches Gedächtnis’)

M4: Anforderungen an die Hörwahrnehmung

Ausprägung Deskriptoren

3 Stark verändertes musikalisches Material muss in seinem Bezug zum Ausgangsmaterial er-kannt werden; die Veränderung kann hierbei rhythmischer, klanglicher, melodischer oder harmonischer Natur sein.

2 Die wahrzunehmenden musikalischen Ereignisse weisen eine erhöhte klangliche, melodische und/oder rhythmische Komplexität auf; Segmentgrenzen sind weniger deutlich markiert.

1 Es müssen herausstechende Merkmale (‚salient features’) wahrgenommen werden; dies sind z. B. deutlich markierte Segmentgrenzen bei der Formwahrnehmung, starke Dynamikunter-schiede oder einzeln gespielte Instrumente.

0

Durch die Aufgabe werden keine Anforderungen an die Wahrnehmung gestellt (Aufgabe oh-ne Hörbeispiel).

M5: Anforderungen an das musikalische Gedächtnis

Ausprägung Deskriptoren

2 Es werden erhöhte Anforderungen an das musikalische Gedächtnis gestellt, da die Informati-onen über eine längere Zeitspanne hinweg behalten werden müssen, und/oder Interferenzen (z. B. Distraktoren) erschweren das Behalten des Wahrgenommenen im Gedächtnis.

1 Musikalische Ereignisse müssen im Gedächtnis behalten werden. Kennzeichen dieser Aus-prägung ist es, dass das Aufrechterhalten der Informationen im musikalischen Gedächtnis nicht erschwert ist (kurze Zeitspanne, geringe Informationsmenge, keine Interferenzen).

0 Für die Aufgabenlösung ist es nicht notwendig, die wahrgenommenen musikalischen Ereig-nisse im Gedächtnis zu behalten.

Die Deskriptoren des Aufgabenmerkmals ‚Anforderungen an das musikalische

Gedächtnis’ kombinieren die Analyseergebnisse aus Abschnitt 7.1 und 7.2.

Grundsätzlich unterschieden wird dabei, ob ein wahrgenommenes musikalisches

Ereignis im Gedächtnis behalten werden muss (Ausprägung 1/2) oder nicht (Aus-

prägung 0). Darüber hinaus ist das Merkmal weiter ausdifferenziert in Bezug auf

die konkreten Anforderungen an das musikalische Gedächtnis. Ausprägung 1 um-

fasst Anforderungen, bei denen ein klangliches Ereignis mit relativ begrenzter In-

formationsmenge über einen kurzen Zeitraum hinweg memoriert werden muss.

Ausprägung 2 hingegen ist gekennzeichnet durch erhöhte Anforderungen an das

212

musikalische Gedächtnis, da hier die Informationen über eine längere Zeitspanne

hinweg behalten werden müssen und/oder das Aufrechterhalten der Informationen

aufgrund von Interferenzen erschwert ist.197

Auch die Deskriptoren des Merkmals ‚Anforderungen an die Hörwahrnehmung’

basieren hauptsächlich auf den Analysen in Abschnitt 7.1 und 7.2. Die Unter-

scheidung von deutlichen und weniger deutlich markierten Segmentgrenzen (7.2)

findet sich ebenso in den Ausprägungen 1 und 2 wieder wie auch der schwierig-

keitsrelevante Einfluss einer gesteigerten klanglichen und rhythmischen Struktur

(7.1). Die dritte Ausprägung ist nicht aus den Analysen abgeleitet, wird jedoch

notwendig aufgrund einiger Items, die die Wahrnehmung von variiertem musika-

lischen Material erfassen. Ein Item mit dieser Merkmalsausprägung stellt bei-

spielsweise die Anforderung dar, eine zunächst einstimmige Melodie (z. B. einen

Liedausschnitt oder einen Teil einer Nationalhymne) später als Zitat (also mehr

oder weniger stark verändert) in einem polyphonen Orchestersatz wiederzuerken-

nen. Es ist offensichtlich, dass durch die Transformation des musikalischen Mate-

rials und den komplexen musikalischen Kontext hier deutlich höhere Anforderun-

gen an die Wahrnehmung gestellt werden als dies beispielsweise bei Items der

Fall ist, die die Wiedererkennung eines kurzen und einfachen Rhythmus in klang-

lich veränderter Form verlangen (vgl. 7.1). Um auch diese Wahrnehmungsanfor-

derungen differenziert abbilden zu können, wurde die Merkmalsausprägung 3 er-

gänzt.

Tab. 48 gibt einen Überblick über Ausprägungen und Deskriptoren aller wissens-

basierten Aufgabenmerkmale. Hierbei wird grundsätzlich unterschieden, ob das

Aufgabenmerkmal bei einem Item vorliegt (Ausprägung 1/2) oder nicht (Ausprä-

gung 0). Für die Deskriptoren der Merkmalsausprägungen 1 und 2 wurden die Er-

gebnisse aus Abschnitt 7.3 (insbesondere zur ‚Qualität des Wissens’) verwendet.

197 Diese erhöhten Anforderungen lassen sich gut mit dem in der Musikpsychologie häufig ver-wendeten Arbeitsgedächtnismodell von Baddeley (1986) in Verbindung bringen. Ein wichtiges Element in Baddeleys Modell sind sogenannte ‚Rehearsal-Prozesse’, die dazu dienen, Informatio-nen im Arbeitsgedächtnis aktiviert zu halten. Dies wird mittels häufigem inneren Wiederholen (‚rehearsal’) des Gedächtnisinhaltes erreicht (vgl. in Bezug auf musikpsychologische Anwendun-gen des Modells z. B. Lange, 2005; die spezielle Bedeutung von Rehearsal-Prozessen für die Rhythmuswahrnehmung ist bei Rammsayer, 2000 beschrieben). Während Rehearsal-Prozesse auf der Ausprägungsstufe 1 nur eine untergeordnete Rolle spielen, sind sie von besonderer Bedeutung, wenn Interferenzen auftreten oder die musikalische Information länger aufrechterhalten werden muss. In diesem Sinne könnte man die unterschiedlichen Merkmalsausprägungen auch in Abhän-gigkeit von den notwendigen Rehearsal-Prozessen beschreiben.

213

Es wird dementsprechend jeweils unterschieden, inwieweit ein differenziertes und

elaboriertes Fachwissen für eine erfolgreiche Aufgabenbearbeitung notwendig ist.

Tab. 48: Ausprägungen und Deskriptoren der Aufgabenmerkmale M6-10 (Ebene ‚Fachwissen’)

M6: Fachwissen – Notation

Ausprägung Deskriptoren

2 Eine Notation muss detailliert sowohl metrisch als auch in Bezug auf die Tonhöhenorga-nisation gelesen werden.

1 Das Notationskonzept muss grundsätzlich verstanden sein. Für die Aufgabenlösung ge-nügt jedoch eine grobe Orientierung im Notentext (z. B. an der Kontur eines Melodiever-laufs).

0 Für die Aufgabenlösung sind keine Notationskenntnisse erforderlich.

M7: Fachwissen – Musiktheorie

Ausprägung Deskriptoren

2 Elaboriertes Wissen und genaue Kenntnis spezieller Fachbegriffe notwendig.

1 Musiktheoretisches Wissen ist notwendig; es genügt jedoch ein grobes, eher vages Beg-riffsverständnis (z. B. wissen, dass „piano“ etwas mit Lautstärke zu tun hat).

0 Für die Aufgabenlösung ist kein musiktheoretisches Wissen erforderlich.

M8: Fachwissen – Musikgeschichte

Ausprägung Deskriptoren

1 Elaboriertes Wissen und genaue Kenntnis spezieller Fachbegriffe notwendig.

0 Für die Aufgabenlösung ist kein musikhistorisches Wissen erforderlich.

M9: Fachwissen – Musikstile und –genres

Ausprägung Deskriptoren

2 Elaboriertes Wissen und genaue Kenntnis spezieller Fachbegriffe notwendig.

1 Wissen in Bezug auf musikalische Stile/Genres ist notwendig; es genügt jedoch ein grobes, eher vages Begriffsverständnis bzw. das Wissen kann als Alltagswissen vor-ausgesetzt werden (z. B. Sprechgesang ist Kennzeichen von HipHop-Musik).

0 Für die Aufgabenlösung ist kein Wissen in Bezug auf musikalische Stile/Genres erfor-derlich.

M10: Fachwissen – kultureller und sozialer Kontext von Musik

Ausprägung Deskriptoren

1 Elaboriertes Wissen und genaue Kenntnis spezieller Fachbegriffe notwendig.

0 Für die Aufgabenlösung ist kein Wissen in Bezug auf kulturelle und soziale Kontexte von Musik erforderlich.

Die Merkmale M8 und M10 weisen nur dichotome Ausprägungen auf. Dies liegt

lediglich daran, dass für die jeweils fehlende Merkmalsausprägung keine Items

214

vorliegen. Ansonsten wäre für diese Merkmale selbstverständlich auch eine diffe-

renziertere Beschreibung möglich und sinnvoll.

Es wurde bereits darauf hingewiesen, dass das Wissen in Bezug auf Notation eine

Sonderstellung auf dieser Merkmalsebene einnimmt (s. o.). Die Merkmalsausprä-

gungen entsprechen hier der in Abschnitt 7.1 vorgenommenen Unterscheidung

zwischen der Fähigkeit, Musik figural und metrisch zu repräsentieren. Die Aus-

prägung 1 umfasst dementsprechend basale Anforderungen an die Notations-

kenntnisse. Notwendig ist ein grundsätzliches Verständnis des Notationskonzepts

(eine Note repräsentiert ein klangliches Ereignis, der zeitliche Verlauf von Musik

wird dabei horizontal von links nach rechts abgetragen, Tonhöhen werden vertikal

fixiert). Die Identifikation von konkreten Tondauern/-höhen oder Intervallverhält-

nissen ist nicht notwendig. Diese Art des detaillierten Lesens metrischer Notation

ist Inhalt der Merkmalsausprägung 2.198

7.5.3 Kodierung einzelner Beispielitems

In vorangegangenem Abschnitt wurden die Ausprägungen und Deskriptoren der

einzelnen Aufgabenmerkmale vorgestellt. Diese sollen nun im Folgenden für eine

Kodierung der KoMus-Items eingesetzt werden. Der Kodierungsprozess kann hier

nicht im Einzelnen dargestellt werden, zur Veranschaulichung des Prozesses die-

nen jedoch einige kommentierte Beispielitems.

Als erstes Beispiel (Abb. 60) wird ein Item zur Formwahrnehmung verwendet,

das bereits aus Abschnitt 7.2 (Analyse 4) bekannt ist und als Hörbeispiel ein Mo-

zart-Rondo (KV 15gg) enthält.

Abb. 60: Beispielitem 1 (Item D2-4f, Testheft 8)

198 Im Anschluss an die Analysen aus Abschnitt 7.1 müsste das Merkmal M6 eigentlich noch um eine weitere Ausprägung ergänzt werden, die die Anforderung des Schreibens von Notation auf Basis der Hörwahrnehmung enthält. Diese Merkmalsausprägung wurde nicht formuliert, da in Be-zug auf diese Anforderung nur zwei Items vorliegen.

215

Tab. 49 enthält die Kodierung des Beispielitems. Hierfür wurde das Item in Bezug

auf jedes schwierigkeitsgenerierende Aufgabenmerkmal (M1-10) eingeschätzt

und unter Verwendung der entsprechenden Deskriptoren eine Merkmalsausprä-

gung festgelegt.

Tab. 49: Kodierung von Beispielitem 1

Item 4a (TH 7)

Ausprägung 0 0 0 1 2 0 2 0 0 0

Merkmale M1 M2 M3 M4 M5 M6 M7 M8 M9 M10

Ebene Aufgabe Wahrnehmung/ Gedächtnis Fachwissen

Auf der Merkmalsebene ‚Aufgabe’ (M1-3) weist das Item jeweils die Ausprägung

‚0’ auf, da es sich um ein Multiple-Choice-Item handelt (M1), das Item sehr we-

nig Text enthält (M2) und die formalsprachlichen Anforderungen gering sind

(M3).

Die Anforderungen an die Hörwahrnehmung (M4) sind mit der Ausprägung ‚1’

kodiert, denn es muss zunächst erkannt werden, dass das Stück aus mehreren

Formteilen besteht, wobei die Segmentgrenzen deutlich markiert sind. Die klang-

liche, melodische und rhythmische Struktur ist dabei als wenig komplex einzu-

schätzen. Für die Aufgabenlösung ist des Weiteren der Einsatz des musikalischen

Gedächtnisses (M5) von Bedeutung, denn für das Erkennen des dritten Formteils

als Wiederholung des ersten Teils ist es erforderlich, den ersten Teil (Ritornell

bzw. A-Teil) im Gedächtnis zu behalten. Das Aufrechterhalten der musikalischen

Information (A-Teil) im Gedächtnis wird zudem erschwert durch Interferenzen,

da jeweils zwischen zwei A-Teilen ein B- bzw. C-Teil eingeschoben ist (Coup-

lets). Diese entsprechend hohen Anforderungen an das musikalische Gedächtnis

wurden daher mit der Ausprägung ‚2’ kodiert.

Außerdem muss eine Testperson für die erfolgreiche Bearbeitung des Items auch

noch über das explizite Wissen verfügen, dass die wahrgenommene Abfolge von

Formteilen (A-B-A-C-A) dem Formmodell eines Rondos entspricht. Das Item er-

fordert also detailliertes Wissen in Bezug auf einen musiktheoretischen Fachbeg-

riff, sodass das Merkmal M7 mit der entsprechenden Ausprägung kodiert ist. Die

anderen wissensbasierten Aufgabenmerkmale (M6, M8-10) sind hingegen nicht

relevant und folglich mit ‚0’ kodiert.

216

Das zweite Beispielitem ist in Abb. 61 dargestellt. Als Hörbeispiel dient eine Kla-

vierfassung der acht abgebildeten Takte. Der zu entdeckende Fehler besteht darin,

dass der Klavierschüler – entgegen der Dynamikvorschriften – am Anfang sehr

leise spielt, ab Takt 5 dann jedoch sehr laut.

Abb. 61: Beispielitem 2 (Item D3-9a,Testheft 7)

Aufgrund der Aufgabenstellung und des Vorhandenseins von nur zwei Fehlern ist

die Länge und Anzahl der möglichen Antworten stark eingeschränkt, wodurch ei-

ne völlig objektive Auswertung ermöglicht wird. Richtige Antworten sind z. B.

„Der Klavierschüler hat die Dynamik vertauscht“ oder „Am Anfang hätte er laut

spielen sollen und in der Mitte leise“. Es handelt sich hier also um ein halb-

offenes Itemformat, sodass das Merkmal M1 entsprechend mit ‚1’ zu kodieren ist.

Ansonsten sind keine Ausprägungen auf der Merkmalsebene ‚Aufgabe’ vorhan-

den, da weder eine umfangreiche Textmenge vorliegt (M2) noch besondere for-

malsprachliche Anforderungen an das Aufgabenverständnis gestellt werden (M3).

Tab. 50: Kodierung von Beispielitem 2

Item 4a (TH 7)

Ausprägung 1 0 0 1 0 1 2 0 0 0

Merkmale M1 M2 M3 M4 M5 M6 M7 M8 M9 M10

Ebene Aufgabe Wahrnehmung/ Gedächtnis Fachwissen

In Bezug auf die Hörwahrnehmung (M4) stellt das Item nur geringe Anforderun-

gen, da lediglich die sehr deutlichen Dynamikunterschiede (als ‚salientes Merk-

mal’) wahrgenommen werden müssen. Es ist dabei nicht notwendig das Wahrge-

nommene im musikalischen Gedächtnis zu behalten (M5).

Unter den wissensbasierten Merkmalen sind die Merkmale M6 und M7 für die

Aufgabenlösung relevant. Die Anforderungen bezüglich der Notationskenntnisse

217

(M6) sind dergestalt, dass die wahrgenommene Musik mindestens bis Takt 5 in

den Noten parallel mitverfolgt werden muss. Hierfür ist es nicht notwendig, die

Noten metrisch und in ihrem Intervallverhältnis zu lesen; es genügt eine grobe O-

rientierung an der Melodiekontur (Ausprägung ‚1’).199 Entscheidend für die Lö-

sung ist es, dass eine Testperson den erklingenden Takt 5 mit der Dynamikbe-

zeichnung unter dem notierten Takt 5 in Verbindung bringen kann. Die Dynamik-

bezeichnungen ‚forte’ und ‚piano’ bedingen darüber hinaus die Kodierung des

Merkmals M7 mit der Ausprägung ‚2’, denn nur wenn ein genaues Verständnis

dieser Fachtermini vorliegt, kann das Item gelöst werden.

Das dritte und letzte Beispielitem erfasst die Wahrnehmung von variiertem musi-

kalischen Material (Abb. 62).

Abb. 62: Beispielitem 3 (Item D1-5a, Testheft 6)

Das Thema (zum einfacheren Verständnis in der Aufgabe ‚Melodie’ genannt) ist

dem zweiten Satz der Sinfonie Nr. 94 von Joseph Haydn entnommen. Die als

Antwortalternativen fungierenden Hörbeispiele sind ebenfalls aus dem gleichen

Sinfoniesatz und enthalten sowohl Musikausschnitte ohne thematischen Bezug als

199 Weitaus höhere Anforderungen an die Notationskenntnisse (aber auch die Hörwahrnehmung) würden sich ergeben, wenn der Klavierschüler falsche Tonhöhen oder einen modifizierten Rhyth-mus spielte. Dann wäre es für die Aufgabenlösung tatsächlich unabdingbar, die Notation detailliert in Bezug auf die rhythmische und melodische Struktur zu lesen. Entsprechend müsste dann das Merkmal M6 mit ‚2’ kodiert werden.

218

auch Ausschnitte, in denen das Thema in variierter Fassung erklingt. Aufgabe der

Testpersonen ist es jeweils zu bestimmen, ob es sich bei den Antwortalternativen

um eine Variation des Themas handelt.

Tab. 51: Kodierung von Beispielitem 3

Item 4a (TH 7)

Ausprägung 0 1 0 3 2 0 1 0 0 0

Merkmale M1 M2 M3 M4 M5 M6 M7 M8 M9 M10

Ebene Aufgabe Wahrnehmung/ Gedächtnis Fachwissen

Bei diesem geschlossenen Item (M1 = 0) fällt zunächst die – im Vergleich zu den

bisherigen Items – relativ große Textmenge auf (M2 = 1). Die formalsprachlichen

Anforderungen (M3) könnten aufgrund einer Reihe von weniger frequenten Wör-

tern mit ‚1’ kodiert werden. Bei genauerer Betrachtung wird jedoch deutlich, dass

die betreffenden Wörter alle dem Bereich des musiktheoretischen Fachwissens

zugeordnet werden können. Aus diesem Grund wird die entsprechende Kodierung

auf der dritten Merkmalsebene vorgenommen.

Die entscheidenden Anforderungen dieses Items liegen ohne Zweifel auf der Ebe-

ne von Wahrnehmung (M4) und Gedächtnis (M5). Um die Aufgabe erfolgreich

bearbeiten zu können, muss die Testperson zunächst das Thema im musikalischen

Gedächtnis behalten. Aufgrund der Beschaffenheit der Distraktoren ergeben sich

dabei starke Interferenzen und gleichzeitig eine relativ lange Zeitspanne, über die

hinweg die Information im Gedächtnis aufrechterhalten werden muss (M5 = 2).

Auch für das Merkmal M4 liegt hier die höchste Ausprägung vor, denn das Item

erfordert eine sehr detaillierte Wahrnehmung einzelner Parameter, die darüber

hinaus immer mit dem ursprünglichen thematischen Material abgeglichen werden

müssen.

Wenngleich der zentrale Terminus ‚Variation’ im Aufgabentext erläutert wird, so

wird doch eine Reihe weiterer musiktheoretischer Begriffe verwendet (Melodie,

Rhythmus, Noten, Wiederholung). Keiner dieser Begriffe muss im Detail verstan-

den sein, ein grobes Begriffsverständnis ist für eine erfolgreiche Aufgabenbear-

beitung jedoch notwendig (M7 = 1).

Diese drei Beispiele mögen an dieser Stelle genügen, um das Vorgehen der Ko-

dierung zu verdeutlichen. Auf diese Weise wurden alle Items der neun Testhefte

219

in Bezug auf ihre schwierigkeitsgenerierenden Aufgabenmerkmale eingeschätzt

und kodiert, wobei sich die verwendeten Merkmale sowie die dazugehörigen De-

skriptoren als äußert praktikabel erwiesen haben. Es ist somit die Datenbasis ge-

geben, um in einem abschließenden Schritt die Aufgabenmerkmale einer statisti-

schen Analyse zu unterziehen.

7.6 Empirische Analyse der Zusammenhänge von Aufgabenmerkma-

len und -schwierigkeiten

Während in den vorangegangenen Abschnitten die Generierung, Spezifikation

und Systematisierung der Aufgabenmerkmale im Vordergrund stand, soll in die-

sem letzten Abschnitt der Zusammenhang von Aufgabenmerkmalen und

-schwierigkeiten systematisch mithilfe statistischer Analysen untersucht werden.

Ein geeignetes Verfahren, um die empirisch ermittelten Aufgabenschwierigkeiten

mit den Aufgabenmerkmalen in Beziehung zu setzen, ist die Regressionsanalyse

(vgl. Hartig, 2007). Hierbei wird untersucht, ob die Unterschiede der Aufgaben-

schwierigkeiten unter Verwendung der Aufgabenmerkmale erklärt werden kön-

nen. Das Ausmaß erklärter Unterschiede ist ein Indikator dafür, ob sich die ange-

nommenen schwierigkeitsgenerierenden Merkmale durch die tatsächlichen Auf-

gabenschwierigkeiten bestätigen lassen. Darüber hinaus kann auf Basis der Reg-

ressionsanalysen auch beurteilt werden, ob einzelne Merkmale besonders bedeut-

sam für die Aufgabenschwierigkeit sind oder aber Merkmale eine eher geringe

Erklärungskraft für die Schwierigkeit der Aufgaben besitzen.

7.6.1 Methodisches Vorgehen

Für die Berechnung der Regressionen muss zunächst eine Einschätzung der Items

hinsichtlich aller Merkmale vorliegen (vgl. vorigen Abschnitt zur Kodierung der

Merkmale). Da für Merkmale, die mehr als zwei Ausprägungen aufweisen, nicht

von Intervallskalenniveau ausgegangen werden kann, müssen die einzelnen Merk-

malsausprägungen in sogenannte ‚Dummy-Variablen’ umgewandelt werden, die

jeweils nur Werte von 1 und 0 annehmen (z. B. Bühner & Ziegler, 2009, S. 699).

So wird beispielsweise ein Merkmal mit drei Ausprägungen (z. B. M5: Anforde-

rungen an das musikalische Gedächtnis) in zwei Dummy-Variablen überführt, so-

220

dass eine Variable die mittlere Ausprägung und eine Variable die schwierigste

Merkmalsausprägung repräsentiert. Hierdurch ist es möglich, die angenommene

ordinale Abfolge der Merkmalsausprägungen einer empirischen Überprüfung zu

unterziehen (Hartig, 2007); d. h., es wird untersucht, ob eine mit ‚2’ kodierte Aus-

prägung tatsächlich schwieriger ist als eine mit ‚1’ kodierte Ausprägung des glei-

chen Merkmals.

Die so kodierten bzw. rekodierten Aufgabenmerkmale werden in der Regression

als Prädiktoren (unabhängige Variablen) verwendet. Als abhängige Variable, die

durch die Prädiktoren (Aufgabenmerkmale) vorhergesagt werden soll, dient die

empirisch ermittelte Schwierigkeit jedes Items (Itemparameter � des Rasch-

Modells), wobei die Items als ‚Fälle’ behandelt werden (Rauch & Hartig, 2007).

Als Analyseverfahren kommt eine multiple lineare Regression zum Einsatz, deren

allgemeine Modellgleichung (z. B. Bühner & Ziegler, 2009, S. 634 ff.) in Bezug

auf die Vorhersage der Itemschwierigkeit durch die Aufgabenmerkmale folgen-

dermaßen formalisiert werden kann (Hartig, 2007, S. 90):

iiMMimmii qqq �� ���������������� 110

�i = Schwierigkeit von Item i; �0 = Regressionskonstante; �m = Regressionsgewicht für Merkmal m; M = Anzahl der Aufgabenmerkmale qim = Kodierung des Merkmals m für Item i (0=liegt vor, 1=liegt nicht vor) i = Verbleibende Abweichung zwischen im Modell erwarteter und tatsächlicher Aufgaben-

schwierigkeit (Residuum)

Die Schwierigkeit jedes Items wird also als gewichtete Summe der in Bezug auf

ein entsprechendes Item vorhandenen Aufgabenmerkmale modelliert. Die einzel-

nen Regressionsgewichte (�m) stehen dabei für den Einfluss, den ein Aufgaben-

merkmal auf die Itemschwierigkeit ausübt. Demzufolge ist ein Item, bei dem das

Merkmal m vorliegt, um �m schwerer als ein Item ohne das entsprechende Merk-

mal. Die Werte der Regressionsgewichte �m werden in der Analyse so geschätzt,

dass die empirisch ermittelten Itemschwierigkeiten möglichst gut wiedergegeben

werden, das Residuum i also möglichst klein ist.

221

7.6.2 Datengrundlage

Der Anspruch vorliegender Arbeit ist es, dass die formulierten Aufgabenmerkma-

le auf den gesamten KoMus-Itempool angewendet werden können. Dass dies

prinzipiell möglich ist, konnte im Rahmen des Kodierungsprozesses überprüft und

sichergestellt werden (vgl. Abschnitt 7.5). Es liegt dementsprechend eine Ein-

schätzung aller Items hinsichtlich der jeweils vorhandenen schwierigkeitsgenerie-

renden Aufgabenmerkmale vor. Trotzdem ist aufgrund von statistischen Ein-

schränkungen der Einbezug aller Items in die Analysen nicht möglich, was im

Folgenden erläutert wird.

Grundsätzlich können innerhalb einer Regressionsanalyse nur Items verwendet

werden, die aus dem gleichen Testheft bzw. der gleichen Raschskalierung stam-

men und für die außerdem Raschhomogenität festgestellt wurde (Hartig, 2004,

S. 84). Diese Kriterien erfüllen die jeweils selektierten Items der Testhefte 1-9

(vgl. 6.1). Demnach wäre es prinzipiell möglich, alle selektierten Items zu berück-

sichtigen; es müssten dann entsprechend neun einzelne Regressionen berechnet

werden. Bei Durchsicht der selektierten Tests wird jedoch deutlich, dass durch

den Selektionsprozess pro Testheft teilweise nur noch eine geringe Itemmenge

vorliegt, was für Regressionsanalysen problematisch ist. Die Menge der Items

(‚Fälle’) ist deshalb von Bedeutung, da die Anzahl der Prädiktoren die Anzahl der

Fälle nicht übersteigen darf (Bühner & Ziegler, 2009, S. 682). Vielmehr sollten

deutlich mehr Fälle als Prädiktoren vorliegen, um möglichst genaue Parameter-

schätzungen zu erhalten und Verzerrungen durch Ausreißerwerte zu minimieren.

Zur Bestimmung eines geeigneten Verhältnisses von Prädiktoren zu Fällen sind in

der Literatur verschiedene Richtlinien zu finden (vgl. Bortz, 2005; Bühner &

Ziegler, 2009). Die Minimalforderung besteht darin, dass die Anzahl der Fälle

größer sein muss als die der Prädiktoren. Am strengsten ist die Forderung nach ei-

ner 15-fach größeren Anzahl der Prädiktoren. Das anzustrebende Verhältnis ist

nicht zuletzt aber auch von der konkreten Fragestellung und der geplanten Ver-

wendung der Ergebnisse abhängig. Aus diesem Grund scheint eine Orientierung

an Studien sinnvoll, die den Zusammenhang von Aufgabenmerkmalen und I-

temschwierigkeiten ebenfalls mittels regressionsanalytischen Verfahren untersu-

chen und dabei aussagekräftige Ergebnisse vorlegen konnten (z. B. Cohors-

Fresenborg et al., 2004; Neubrand, Klieme, Lüdtke & Neubrand, 2002; Nold &

Rossa, 2007; Prenzel et al., 2002). Bei Betrachtung der entsprechenden Studien

222

wird deutlich, dass in der Regel mindestens die doppelte, häufig die drei- bis fünf-

fache Anzahl an Items im Verhältnis zu den verwendeten Prädiktoren vorliegt.200

Daran anschließend wurde für vorliegende Arbeit als Kriterium für die Verwen-

dung eines Testhefts festgelegt, dass mindestens die doppelte Anzahl an Items im

Verhältnis zu den Prädiktoren vorliegen muss. Durch die Dummy-Kodierung der

zehn Aufgabenmerkmale (M1-10) entstehen 18 Prädiktoren, sodass in einem

Testheft mindestens 36 selektierte Items vorhanden sein müssten. Da jedoch in-

nerhalb eines einzelnen Testhefts nie alle Merkmalsausprägungen kodiert werden

können, reduziert sich auf Testheftebene die maximale Anzahl der Prädiktoren auf

10 bis 14 respektive die notwendige Itemzahl auf 20 bis 28.201 Berücksichtigt man

für jedes Testheft das festgelegte Mindestverhältnis, so kann knapp die Hälfte der

Testhefte (4, 5, 6 und 8; vgl. 6.1.3) in die Regressionsanalysen einbezogen wer-

den.

7.6.3 Durchführung der Regressionsanalysen

Für die Berechnung der Regressionen werden nur solche Merkmale als Prädikto-

ren verwendet, die mindestens bei zwei Items kodiert sind. Des Weiteren werden

Merkmale ausgeschlossen, für die ‚Kollinearität’ vorliegt. Von Kollinearität

spricht man, wenn zwei (oder auch mehrere) Prädiktoren sehr hoch miteinander

zusammenhängen (z. B. Bühner & Ziegler, 2009, S. 677 ff.). Dies zeigt sich in der

Regression daran, dass ein Merkmal keine zusätzliche Erklärungskraft mehr hat,

wenn ein anderes Merkmal bzw. andere Merkmale bereits berücksichtigt sind.

Kollinearitäten entstehen z. B. dann, wenn Merkmale immer oder zumindest sehr

häufig in Kombination auftreten (Hartig, 2007, S. 94). Ein entsprechender Fall

liegt beispielsweise in Testheft 5 vor. Dort weisen alle Items mit einer großen

Textmenge (M3) immer auch erhöhte formalsprachliche Anforderungen (M2) auf.

Auf Basis einer routinemäßigen Kollinearitätsdiagnose in SPSS (z. B. Bühner &

200 Teilweise stehen so umfangreiche Itempools zur Verfügung, bei gleichzeitiger Verwendung sehr sparsamer Regressionsmodelle, dass sich noch deutlich günstigere Verhältnisse von I-temstichprobe und Prädiktoren ergeben (z. B. Cohors-Fresenborg, Sjuts & Sommer, 2004; Isaac, Eichler & Hosenfeld, 2008). 201 Wenn z. B. innerhalb eines Testhefts kein Item vorliegt, das den Einsatz musiktheoretischen Wissens verlangt, dann kann das Merkmal M7 weder kodiert noch in die Regression einbezogen werden. Da das Merkmal drei Ausprägungen aufweist (also zwei Dummy-Variablen), verringert sich die Anzahl der Prädiktoren für dieses Testheft entsprechend um zwei Variablen. In gleicher Weise reduziert sich die Anzahl der Prädiktoren, wenn bei einem mehrstufigen Merkmal nicht alle Ausprägungen kodiert werden können.

223

Ziegler, 2009, S. 711) wurde das Merkmal M2 aus der Regression ausgeschlos-

sen. Dies bedeutet in inhaltlicher Hinsicht jedoch nicht, dass formalsprachliche

Anforderungen keine Bedeutung für die Aufgabenbearbeitung hätten. Durch die

Abhängigkeit der beiden Merkmale ergibt sich aber statistisch keine Erklärungs-

kraft für das Merkmal. Unter Berücksichtigung von Kollinearitäten und ausrei-

chend häufig kodierten Merkmalen gehen in die Regressionen mindestens 7 und

maximal 11 Aufgabenmerkmale als Prädiktoren ein (vgl. Tab. 52-Tab. 55).

Die durchgeführten Analysen sind in den Tab. 52-Tab. 55 dargestellt. Zur Über-

prüfung, inwieweit die Unterschiede der Itemschwierigkeiten durch die Aufga-

benmerkmale erklärt werden können, wird der Determinationskoeffizient R2 he-

rangezogen (jeweils unterste Zeile einer Tabelle). Der Determinationskoeffizient

beschreibt die gemeinsame Vorhersagekraft aller Merkmale durch den Anteil er-

klärter Varianz an der Gesamtvarianz der Itemschwierigkeiten. Beispielsweise

bedeutet ein Wert von R2 = 1.0, dass mithilfe der Prädiktoren eine perfekte Vor-

hersage der Itemschwierigkeiten möglich ist. Ein R2 = 0.45 würde bedeuten, dass

etwas weniger als die Hälfte der Gesamtvarianz (45 %) durch die Aufgaben-

merkmale erklärt werden kann.202

Außer der Einschätzung der gemeinsamen Erklärungskraft aller Aufgabenmerk-

male ermöglichen die Regressionsanalysen auch eine Beurteilung der Relevanz

einzelner Merkmale bzw. Merkmalsausprägungen. Hierzu werden die standardi-

sierten Regressionsgewichte �' herangezogen.203 Weist ein Merkmal ein hohes

Regressionsgewicht auf, so ist es besonders bedeutsam für die Itemschwierigkeit.

202 Die Höhe von R2 ist abhängig von der Anzahl der Prädiktoren und nimmt selbst bei irrelevanten Prädiktoren zu. Aus diesem Grund wird in der Literatur die Verwendung eines korrigierten Deter-minationskoeffizienten (R2

korr) vorgeschlagen, der die Anzahl der Prädiktoren und die Stichpro-bengröße (Anzahl der Items) berücksichtigt (z. B. Bühner & Ziegler, 2009, S. 654). In vorliegen-der Arbeit wird daher ausschließlich der korrigierte Koeffizient verwendet, der auch standardmä-ßig in SPSS ausgegeben wird. 203 Es werden die standardisierten Gewichte verwendet, da die unstandardisierten Regressionsge-wichte nicht direkt in ihrer Größe miteinander vergleichbar sind (Bühner & Ziegler, 2009, S. 662). Sie sind jedoch notwendig zur Vorhersage einer konkreten Itemschwierigkeit. Weist ein Aufga-benmerkmal beispielsweise ein unstandardisiertes Regressionsgewicht von 1.41 auf, so bedeutet dies, dass durch die Regression eine um 1.41 logits erhöhte Itemschwierigkeit für ein Item vorher-gesagt wird, bei dem das entsprechende Merkmal vorliegt. So können auch die Schwierigkeiten von Items mit mehreren Merkmalen vorhergesagt werden. Es müssen hierzu lediglich die unstan-dardisierten Regressionsgewichte der entsprechenden Merkmale addiert werden. Diese Verwen-dung der unstandardisierten Gewichte kommt insbesondere bei der Bildung von Kompetenzni-veaus auf Basis von Merkmalskombinationen zum Einsatz (z. B. Hartig, 2007). Für die vorliegen-de Arbeit dienen die unstandardisierten Regressionsgewichte jedoch lediglich zur Abschätzung der Größe des Standardfehlers.

224

Dementsprechend können die verschiedenen Merkmale (M1-10) hinsichtlich ihres

unterschiedlich großen Einflusses auf die Itemschwierigkeit verglichen werden.

Ebenso ist aber auch ein Vergleich der verschiedenen Ausprägungen eines einzel-

nen Merkmals möglich. Gemäß der hypothetisch angenommenen ordinalen

Merkmalsausprägungen, sollten höhere Ausprägungen eines Merkmals größere

Regressionsgewichte aufweisen als niedrigere Ausprägungen des gleichen Merk-

mals.

Bevor die Ergebnisse der Regressionen im Einzelnen betrachtet werden, bedarf es

noch einer Erläuterung der Analysen der Testhefte 4, 5 und 6, für die jeweils zwei

Regressionsanalysen berechnet wurden (Tab. 52-Tab. 54). Die erste Analyse

(Spalte 2-5 der entsprechenden Tabelle) enthält immer alle Merkmale, die bei den

Items der betreffenden Testhefte mindestens zweimal kodiert werden konnten. Bei

einigen Merkmalsausprägungen war jedoch der Standardfehler (Spalte S) größer

als der Absolutwert des Regressionsgewichts, sodass für das endgültige Regressi-

onsmodell (zweite Analyse, Spalte 6-9) die entsprechenden Prädiktoren nicht

mehr berücksichtigt wurden. Dadurch ergeben sich lediglich minimale Verände-

rungen der aufgeklärten Varianz sowie der Regressionsgewichte der verbliebenen

Prädiktoren.

225

Tab.

52:

Erg

ebni

sse

der m

ultip

len

Reg

ress

ions

anal

yse

zur V

orhe

rsag

e de

r Ite

msc

hwie

rigke

iten

von

Test

heft

4 du

rch

Auf

gabe

nmer

kmal

e (N

k = 2

3 Ite

ms)

E

inbe

zug

alle

r Mer

kmal

e

Einb

ezug

der

Mer

kmal

e m

it �

> S

Auf

gabe

nmer

kmal

e �

S

�'

p

� S

�'

p

Reg

ress

ions

kons

tant

e � 0

204

-1.4

63

.624

-

.033

-1.5

40

.150

-

< .0

01

M1

Item

form

at; A

uspr

ägun

g 2

(N=4

) 1.

575

.348

.3

68

.000

1.59

9 .2

80

.373

.0

00

M4

Hör

wah

rneh

mun

g; A

uspr

ägun

g 1

(N=1

3)

-.071

.6

08

-.022

.9

09

M4

Hör

wah

rneh

mun

g; A

uspr

ägun

g 2

(N=4

) 2.

456

.637

.5

73

.002

2.52

6 .2

92

.590

.0

00

M4

Hör

wah

rneh

mun

g; A

uspr

ägun

g 3

(N=5

) 2.

676

.673

.6

80

.001

2.75

1 .2

96

.699

.0

00

M5

Mus

ikal

isch

es G

edäc

htni

s; A

uspr

ägun

g 2

(N=3

) 1.

406

.373

.2

92

.002

1.40

9 .3

50

.292

.0

01

M9

Wis

sen

– S

til/G

enre

; Aus

präg

ung

1 (N

=3)

-.018

.3

29

-.004

.9

58

M9

Wis

sen

– S

til/G

enre

; Aus

präg

ung

2 (N

=2)

.924

.5

56

.116

.1

17

.9

30

.509

.1

17

.085

Erkl

ärte

Var

ianz

der

Item

schw

ierig

keit

R2 ko

rr =

.903

; p

< .0

01

R2 ko

rr =

.914

; p <

.001

� =

unst

anda

rdis

ierte

s Reg

ress

ions

gew

icht

; �’ =

stan

dard

isie

rtes R

egre

ssio

nsge

wic

ht; p

= e

xakt

e Ir

rtum

swah

rsch

einl

ichk

eit f

ür d

as R

egre

ssio

nsge

wic

ht; S

= S

tand

ardf

ehle

r

20

4 Die

Reg

ress

ions

kons

tant

e � 0

ent

spric

ht d

er e

rwar

tete

n Sc

hwie

rigke

it (in

logi

ts) d

es e

infa

chst

en It

ems,

wen

n al

so k

ein

schw

ierig

keits

gene

riere

ndes

Mer

kmal

vor

liegt

(alle

M

erkm

ale

mit

‚0’ k

odie

rt).

226

Tab.

53:

Erg

ebni

sse

der m

ultip

len

Reg

ress

ions

anal

yse

zur V

orhe

rsag

e de

r Ite

msc

hwie

rigke

iten

von

Test

heft

5 du

rch

Auf

gabe

nmer

kmal

e (N

k = 2

9 Ite

ms)

E

inbe

zug

alle

r Mer

kmal

e

Einb

ezug

der

Mer

kmal

e m

it �

> S

Auf

gabe

nmer

kmal

e �

S

�'

p

� S

�'

p

Reg

ress

ions

kons

tant

e � 0

-1

.657

.5

09

- .0

05

-1

.165

.2

28

- <

.001

M1

Item

form

at; A

uspr

ägun

g 1

(N=8

) .3

56

.366

.1

27

.344

M1

Item

form

at; A

uspr

ägun

g 2

(N=3

) 2.

125

.678

.5

15

.006

1.67

8 .5

78

.407

.0

09

M3

Text

läng

e (N

=3)

1.28

0 .6

73

.311

.0

74

.7

89

.485

.1

91

.119

M4

Hör

wah

rneh

mun

g; A

uspr

ägun

g 2

(N=1

0)

.633

.5

20

.240

.2

40

.5

88

.430

.2

23

.186

M4

Hör

wah

rneh

mun

g; A

uspr

ägun

g 3

(N=2

) 2.

823

.654

.5

70

.000

2.69

5 .5

71

.544

.0

00

M5

Mus

ikal

isch

es G

edäc

htni

s; A

uspr

ägun

g 2

(N=3

) 1.

898

.607

.4

61

.006

1.55

5 .5

10

.377

.0

06

M6

Wis

sen

– N

otat

ion;

Aus

präg

ung

1 (N

=2)

1.56

2 .9

20

.227

.1

08

1.

115

.837

.1

62

.198

M6

Wis

sen

– N

otat

ion;

Aus

präg

ung

2 (N

=3)

1.95

9 .5

31

.475

.0

02

2.

066

.485

.5

01

.000

M7

Wis

sen

– M

usik

theo

rie; A

uspr

ägun

g 1

(N=5

) .3

72

.594

.1

02

.539

M7

Wis

sen

– M

usik

theo

rie; A

uspr

ägun

g 2

(N=6

) .4

80

.551

.1

82

.396

M8

Wis

sen

– M

usik

gesc

hich

te (N

=2)

3.59

5 .9

20

.523

.0

01

3.

148

.837

.4

58

.001

Erkl

ärte

Var

ianz

der

Item

schw

ierig

keit

R2 ko

rr =

.644

; p =

.001

R

2 korr =

.664

; p <

.001

� =

unst

anda

rdis

ierte

s Reg

ress

ions

gew

icht

; �’ =

stan

dard

isie

rtes R

egre

ssio

nsge

wic

ht; p

= e

xakt

e Ir

rtum

swah

rsch

einl

ichk

eit f

ür d

as R

egre

ssio

nsge

wic

ht; S

= S

tand

ardf

ehle

r

227

Tab.

54:

Erg

ebni

sse

der m

ultip

len

Reg

ress

ions

anal

yse

zur V

orhe

rsag

e de

r Ite

msc

hwie

rigke

iten

von

Test

heft

6 du

rch

Auf

gabe

nmer

kmal

e (N

k = 2

4 Ite

ms)

E

inbe

zug

alle

r Mer

kmal

e

Einb

ezug

der

Mer

kmal

e m

it �

> S

Auf

gabe

nmer

kmal

e �

S

�'

p

� S

�'

p

Reg

ress

ions

kons

tant

e � 0

-2

.450

.5

57

- .0

01

-2

.042

.2

54

<

.001

M1

Item

form

at; A

uspr

ägun

g 1

(N=2

) .7

93

.472

.1

69

.115

.793

.4

67

.169

.1

10

M1

Item

form

at; A

uspr

ägun

g 2

(N=7

) 1.

070

.301

.3

75

.003

1.09

6 .2

96

.384

.0

02

M4

Hör

wah

rneh

mun

g; A

uspr

ägun

g 1

(N=9

) .4

37

.529

.1

63

.423

M4

Hör

wah

rneh

mun

g; A

uspr

ägun

g 2

(N=1

4)

1.77

5 .5

57

.675

.0

07

1.

385

.292

.5

27

.000

M5

Mus

ikal

isch

es G

edäc

htni

s; A

uspr

ägun

g 2

(N=4

) .8

78

.466

.2

52

.081

.890

.4

61

.256

.0

73

M6

Wis

sen

– N

otat

ion;

Aus

präg

ung

2 (N

=2)

.806

.6

25

.124

.2

18

.7

88

.618

.1

21

.222

M7

Wis

sen

– M

usik

theo

rie; A

uspr

ägun

g 1

(N=1

0)

.496

.2

96

.189

.1

15

.4

36

.283

.1

66

.145

M7

Wis

sen

– M

usik

theo

rie; A

uspr

ägun

g 2

(N=5

) 1.

869

.345

.5

85

.000

1.85

9 .3

41

.582

.0

00

M9

Wis

sen

– S

til/G

enre

; Aus

präg

ung

1 (N

=3)

1.93

7 .3

94

.494

.0

00

1.

950

.389

.4

97

.000

Erkl

ärte

Var

ianz

der

Item

schw

ierig

keit

R2 ko

rr =

.873

; p <

.001

R

2 korr =

.876

; p <

.001

� =

unst

anda

rdis

ierte

s Reg

ress

ions

gew

icht

; �’ =

stan

dard

isie

rtes R

egre

ssio

nsge

wic

ht; p

= e

xakt

e Ir

rtum

swah

rsch

einl

ichk

eit f

ür d

as R

egre

ssio

nsge

wic

ht; S

= S

tand

ardf

ehle

r

228

Tab. 55: Ergebnisse der multiplen Regressionsanalyse zur Vorhersage der Itemschwierigkeiten von Testheft 8 durch Aufgabenmerkmale (Nk = 23 Items)

Aufgabenmerkmale � S �' p

Regressionskonstante �0 -4.375 1.297 - .005

M1 Itemformat; Ausprägung 1 (N=5) 2.398 .766 .604 .007

M1 Itemformat; Ausprägung 2 (N=8) 2.235 .796 .708 .014

M4 Hörwahrnehmung; Ausprägung 1 (N=7) 1.444 1.061 .442 .195

M4 Hörwahrnehmung; Ausprägung 2 (N=11) 1.973 .952 .655 .057

M5 Musikal. Gedächtnis; Ausprägung 2 (N=4) 1.420 .783 .358 .091

M6 Wissen – Notation; Ausprägung 1 (N=3) 2.134 .814 .478 .020

M7 Wissen – Musiktheorie; Ausprägung 1 (N=5) 1.444 .685 .396 .054

M7 Wissen – Musiktheorie; Ausprägung 2 (N=8) 3.049 .670 .966 .000

Erklärte Varianz der Itemschwierigkeit R2korr = .628; p = .003

� = unstandardisiertes Regressionsgewicht; �’ = standardisiertes Regressionsgewicht; p = exakte Irrtums-wahrscheinlichkeit für das Regressionsgewicht; S = Standardfehler

7.6.4 Ergebnisse

Die Analysen ergeben für alle vier Testhefte hochsignifikante multiple Determi-

nationskoeffizienten (R2korr) und eine durchweg sehr starke Prädiktion der I-

temschwierigkeiten durch die Aufgabenmerkmale. Die Varianzaufklärung beträgt

dabei mindestens 62.8 %, für die Testhefte 4 und 6 liegt sie sogar bei über 80

bzw. 90 %. Empirisch kann also eindeutig ein Effekt der Aufgabenmerkmale auf

die Itemschwierigkeiten nachgewiesen werden.

Der vermutete schwierigkeitsgenerierende Einfluss der Aufgabenmerkmale lässt

sich hierbei für fast alle Merkmale empirisch validieren.205 Lediglich die Merkma-

le M2 (formalsprachliche Anforderungen) und M10 (Fachwissen – sozia-

le/kulturelle Kontexte) konnten aufgrund eines zu geringen Vorkommens nicht in

205 Wenngleich der größte Teil der Merkmale signifikante bzw. hochsignifikante Regressionsge-wichte aufweist, ist dies für die Beurteilung des Einflusses eines Merkmals oder dessen Einbezug in ein Regressionsmodell nicht von primärer Bedeutung. Es geht in den Analysen nicht darum, all-gemeingültige Modelle zu validieren, die Gültigkeit für Populationen von Items beanspruchen würden (vgl. auch Hartig, 2007, S. 95). Vielmehr ist es Ziel vorliegender Arbeit, Merkmale zu i-dentifizieren und validieren, die zur Beschreibung der spezifischen im KoMus-Projekt entwickel-ten Items herangezogen werden können. Kriterium für die Integration (oder auch den Ausschluss) eines Merkmals in ein Regressionsmodell und die Interpretation der daraus resultierenden Ergeb-nisse muss daher nicht notwendigerweise das Signifikanzniveau sein. Entscheidend ist vielmehr, ob die Größe und die Vorzeichen der Regressionsgewichte mit den theoretischen Annahmen be-züglich eines Merkmals korrespondieren (Bühner & Ziegler, 2009, S. 662).

229

die Analysen einbezogen werden bzw. mussten bedingt durch Kollinearitäten ent-

fernt werden.

Darüber hinaus lässt sich für fast alle mehrstufigen Merkmale (M1: Itemformat,

M4: Anforderungen an die Hörwahrnehmung, M6: Fachwissen – Notation, M7:

Fachwissen – Musiktheorie, M9: Fachwissen – Stil/Genre) zeigen, dass die als

schwieriger angenommenen Ausprägungen auch tatsächlich jeweils höhere Reg-

ressionsgewichte (�') aufweisen. Die einzige Ausnahme stellt das Merkmal M5

(Anforderungen an das musikalische Gedächtnis) dar, da hier ausschließlich die

Ausprägung ‚2’ in die Regressionen einbezogen werden konnte. Eine Überprü-

fung der ordinalen Abfolge der Ausprägungen des Merkmals M5 kann daher an

dieser Stelle nicht erfolgen.

Interessant ist auch ein Vergleich der Größe der Regressionsgewichte, also des

Einflusses der verschiedenen Merkmale. Betrachtet man jeweils die drei Merkma-

le mit dem größten Regressionsgewicht, so fällt auf, dass unter diesen immer das

Merkmal M4 (Anforderungen an die Hörwahrnehmung) vertreten ist; in den Test-

heften 4 und 5 ist es das Merkmal mit dem größten Einfluss. Da im Zentrum des

Kompetenztests und -modells die Erfassung der Hörwahrnehmung steht, ist dieses

Ergebnis zwar wenig verwunderlich, wirft aber trotzdem ein positives Licht auf

die Konstruktvalidität.

Besonders stark scheint außerdem der Einfluss des Merkmals M7 (Fachwissen –

Musiktheorie) zu sein. Sofern es in ein Regressionsmodell integriert werden konn-

te (Testhefte 6 und 8), ist es stets das Merkmal mit dem größten Regressionsge-

wicht. Ergänzt um die großen Regressionsgewichte der Merkmale M6 (Fachwis-

sen – Notation; vgl. Tab. 53), M8 (Fachwissen – Musikgeschichte; vgl. Tab. 53)

und M9 (Fachwissen – Stil/Genre; vgl. Tab. 54) bestätigt dies die in Abschnitt 7.3

postulierte Bedeutung der wissensbasierten Merkmale. Auch dieser Befund steht

in Einklang mit dem zugrunde gelegten Kompetenzkonstrukt, das sich nicht allein

auf Hörwahrnehmungsfähigkeiten beschränkt, sondern als Zusammenspiel von

Wahrnehmung und dem reflektierten Einsatz musikbezogener Wissensbestände

definiert ist (vgl. 4.2).

Das Merkmal M5 (Anforderungen an das musikalische Gedächtnis) hingegen

weist durchweg nur Regressionsgewichte mittlerer Größe auf. Die Schwierigkeit

eines Items scheint also stärker von den Anforderungen an die Hörwahrnehmung

230

und dem notwendigen Einsatz von Fachwissen abzuhängen und nur in geringerem

Maße von den Anforderungen an das musikalische Gedächtnis. Dieser Befund ist

jedoch mit äußerster Vorsicht zu interpretieren, da das Merkmal M5 in den Test-

heften nur sehr selten kodiert werden konnte.206

Abschließend können auch die Hypothesen in Bezug auf das Merkmal M1 (Item-

format) überprüft werden (vgl. Abschnitt 7.4). Grundsätzlich stützen die Analysen

die Annahme eines schwierigkeitsgenerierenden Einflusses des Itemformats. In

den Regressionen der Testhefte 6 und 8 zeigt sich ein Einfluss für beide Ausprä-

gungen (1: halb-offen, 2: offen), während in den Testheften 4 und 5 nur die Aus-

prägung ‚2’ in das Regressionsmodell aufgenommen werden konnte. Die Betrach-

tung der Regressionsgewichte ergibt außerdem einen höheren Einfluss für das of-

fene Itemformat. Schwieriger zu interpretieren ist die Größe der Regressionsge-

wichte in Bezug auf die anderen Merkmale. Während in den Regressionen der

Testhefte 4, 5 und 6 das Itemformat keinen besonders großen Einfluss aufweist,

stellt das offene Itemformat (M1, Ausprägung 2) mit �' = .708 den zweitstärksten

Prädiktor des Testhefts 8 dar (vgl. Tab. 55). Dieses Ergebnis verwundert zunächst,

bedeutet dies doch, dass das Itemformat einen stärkeren Einfluss auf die I-

temschwierigkeiten des Testhefts 8 hat als die Anforderungen an die Hörwahr-

nehmung (M4, Ausprägung 2: �' = .655). Zum besseren Verständnis ist eine ge-

nauere Betrachtung der betreffenden offenen Items notwendig. Hierbei zeigt sich,

dass fünf der acht Items der Modelldimension 2 (Verbalisierung und Umgang mit

Fachterminologie) zuzuordnen sind. Durch die Items wird hierbei explizit die Fä-

higkeit des ‚Sprechens über Musik’ erfasst. Bei der Auswertung der Items wird

bewertet, inwieweit die Testpersonen in der Lage sind, sich adäquat über Musik-

stücke und deren Ausführung zu äußern. Die sprachlichen Anforderungen, die bei

diesen Items maßgeblich zu einer hohen Itemschwierigkeit führen, sind also we-

niger durch das Itemformat – im Sinne eines technischen Oberflächencharakteris-

tikums einer Aufgabe – gegeben, sondern vielmehr als eine operationalisierte Fa-

cette des Kompetenzkonstrukts zu betrachten, die explizit sprachliche Anteile um-

fasst. Vor diesem Hintergrund erscheint das hohe Regressionsgewicht für das

Merkmal M1 (Ausprägung 2) plausibel. Gleichzeitig deuten die Überlegungen auf

206 Vgl. hierzu auch die Ausführungen zu den Einschränkungen und Grenzen der Regressionsana-lysen im folgenden Abschnitt.

231

einen evtl. Korrekturbedarf der Merkmalssystematik hin. Im Zuge einer Überar-

beitung der Systematik wäre zu überlegen, ob sinnvollerweise ein gesondertes

Merkmal ‚Anforderungen an die Verbalisierungsfähigkeit’ o. ä. einzuführen wäre,

um eine Konfundierung mit dem Einfluss des Itemformats zu vermeiden.

Einschränkungen und Grenzen der Analysen

Die Aussagekraft des eingesetzten regressionsanalytischen Verfahrens hat Gren-

zen. Dies gilt insbesondere unter Berücksichtigung der gegebenen Datenlage. Da

für die Analysen eine relativ kleine Itemanzahl im Verhältnis zur Anzahl der Prä-

diktoren verwendet wurde, sind die erzielten Ergebnisse mit Vorsicht zu interpre-

tieren. Vor allem die recht hohen Determinationskoeffizienten sind zu relativie-

ren, denn durch das ungünstige Verhältnis von Prädiktoren und Items ist eine ho-

he Varianzaufklärung relativ einfach zu erzielen (Cohors-Fresenborg et al., 2004,

S. 137). Dieser Effekt wird von der durchgeführten Korrektur des Koeffizienten

(R2korr) nur unzureichend aufgefangen (Bühner & Ziegler, 2009, S. 655).

Ebenso muss die Reichweite der validierten Merkmale vorerst offen bleiben. Dies

liegt zum einen daran, dass einzelne Merkmale nur bei einem sehr kleinen Anteil

der Items kodiert werden konnten, wodurch teilweise relativ große Standardfehler

der Regressionsgewichte auftreten. Zum anderen liegen für jedes Testheft andere

Kombinationen und Häufigkeiten der Merkmale vor. Während beispielsweise in

Testheft 8 das Merkmal M7 bei 13 Items kodiert werden konnte, kommt es bei

den Items des Testhefts 4 kein einziges Mal vor. Dies liegt daran, dass die Aufga-

benmerkmale im Hinblick auf den gesamten Itempool spezifiziert wurden, in den

Testheften aber Itemteilmengen vorliegen, die jeweils nur einzelne Facetten und

Dimensionen des Kompetenzmodells abbilden. Dementsprechend ergibt sich auch

für jedes Testheft ein spezifisches Regressionsmodell. Ein Vergleich der Regres-

sionsgewichte ist zwischen den Testheften daher nicht sinnvoll. Dass z. B. das

Merkmal M7 (Ausprägung 2) in Testheft 8 mit �' = .966 das nominell größte Reg-

ressionsgewicht aufweist, muss nicht bedeuten, dass das Merkmal auch in Bezug

auf den ganzen Itempool den größten schwierigkeitsgenerierenden Einfluss hat.

Für die im vorangegangenen Abschnitt erfolgten Interpretationen wurden daher

die Merkmale bezüglich ihres Regressionsgewichts immer nur innerhalb eines

Testhefts verglichen. Über alle Testhefte hinweg wurde lediglich auf einer sehr

globalen Ebene versucht, Auffälligkeiten unter den Merkmalen mit besonders

232

starkem Einfluss zu identifizieren (z. B. dass das Merkmal ‚Anforderungen an die

Hörwahrnehmung’ immer zu den einflussstärksten Merkmalen gehört). Ein ge-

nauerer Vergleich des Einflusses aller Merkmale ist erst auf Basis der Pilotie-

rungsdaten möglich (s. auch folgender Abschnitt).

Über die genannten Punkte hinaus sind auch grundsätzliche Einschränkungen der

verwendeten regressionsanalytischen Methode anzumerken. Die Annahme eines

linear-additiven Zusammenhangs von Aufgabenmerkmalen und Itemschwierig-

keit, wie er durch die multiple lineare Regression modelliert wird, ist zunächst ein

relativ einfaches Modell (Hartig, 2007, S. 96). Zudem ist keineswegs zwingend

davon auszugehen, dass sich Aufgabenmerkmale rein additiv zu einer Gesamt-

schwierigkeit ergänzen (Hartig, 2004, S. 90). Ebenso denkbar wären Wechselwir-

kungen von Aufgabenmerkmalen, also dass z. B. die Kombination zweier be-

stimmter Merkmale eine deutlich höhere Itemschwierigkeit ergibt als eine einfa-

che Addition der einzelnen Merkmalsschwierigkeiten (unstandardisierte Regressi-

onsgewichte; vgl. auch Fußnote 203). In der DESI-Studie konnte zwar gezeigt

werden, dass ein linear-additives Modell durchaus angemessen sein kann für die

Beschreibung des Zusammenhangs von Aufgabenmerkmalen und Itemschwierig-

keit (Hartig, 2007, S. 96). Trotzdem wäre in weiterführenden Untersuchungen zu

überprüfen, ob solch eine Modellierung die optimale Methode in Bezug auf die

Merkmale der KoMus-Items darstellt oder eher Modelle mit Wechselwirkungs-

termen zu berücksichtigen wären.

Zusammenfassung und Ausblick

Trotz der einschränkenden Faktoren können auf Basis der Regressionsanalysen

folgende Befunde zusammengefasst werden:

(1) Die Analysen zeigen, dass sich empirisch ein schwierigkeitsgenerierender Ef-

fekt der Aufgabenmerkmale auf die Itemschwierigkeiten nachweisen lässt. Die in

den Regressionen durchweg hohen Varianzaufklärungen (.628 � R2korr � .914)

sind aufgrund der Datenbasis mit der gebotenen Vorsicht zu interpretieren, deuten

jedoch auf eine starke Vorhersagekraft der Merkmale hin.

(2) Der Großteil der identifizierten Merkmale konnte in die Regressionsmodelle

einbezogen und dadurch validiert werden. Lediglich die Überprüfung des Einflus-

ses der beiden Merkmale M2 (formalsprachliche Anforderungen) und M10

233

(Fachwissen – soziale/kulturelle Kontexte) war aufgrund der Datenlage nicht

möglich und muss daher weiterführenden Untersuchungen vorbehalten bleiben.

(3) Die in den Abschnitten 7.1-7.4 formulierten Hypothesen in Bezug auf die or-

dinalen Ausprägungen der Aufgabenmerkmale werden durch die Analysen bestä-

tigt. Als schwieriger eingeschätzte Merkmalsausprägungen weisen dementspre-

chend höhere Regressionsgewichte (�') auf. Einzig für das Merkmal M5 (Anfor-

derungen an das musikalische Gedächtnis) konnte die ordinale Abfolge der Merk-

malsausprägungen nicht überprüft werden, da hierfür nicht genug Items mit der

Ausprägung ‚1’ vorlagen.207

(4) Betrachtet man den Einfluss der einzelnen Merkmale, so ist es nur sehr be-

grenzt möglich diese hinsichtlich ihrer Stärke miteinander zu vergleichen. Ten-

denziell scheint sich aber anzudeuten, dass die Schwierigkeit eines Items vor al-

lem durch die Anforderungen an die Hörwahrnehmung (M4) und das notwendige

Fachwissen (M6-10) beeinflusst wird. Ebenso zeigt sich ein schwierigkeitsgene-

rierender Einfluss der Anforderungen an das musikalische Gedächtnis (M5), der

vermutlich aber weniger stark ist. Auch für das Itemformat bestätigt sich der an-

genommene Effekt auf die Itemschwierigkeit. Für die Ausprägung ‚2’ (offenes

Format) wäre jedoch in weiterführenden Analysen zu untersuchen, ob eine Kon-

fundierung mit der musikbezogenen Verbalisierungsfähigkeit vorliegt.

Es wurde bereits mehrfach darauf hingewiesen, dass die erzielten Erkenntnisse

von zunächst begrenzter Reichweite sind, was hauptsächlich durch die verwendete

Datengrundlage bedingt ist. Es ist daher vorgesehen, die in vorliegender Arbeit

identifizierten Aufgabenmerkmale auch in die Analysen der Pilotierungsdaten

einzubeziehen. Da dort die Itemschwierigkeiten (�i) aller Items innerhalb einer

gemeinsamen Raschskalierung geschätzt werden, ergibt sich die Möglichkeit, alle

Items und alle Aufgabenmerkmale innerhalb einer Regressionsanalyse zu ver-

wenden. Daraus folgt ein deutlich günstigeres Verhältnis von Prädiktoren und I-

tems sowie eine ausreichend häufige Kodierung der einzelnen Merkmale. Auf

dieser Datengrundlage ist es dann möglich, eine endgültige empirische Validie-

207 Das Aufgabenmerkmal wird trotzdem vorerst mit drei Ausprägungen erhalten. Die Validierung der ordinalen Abfolge muss jedoch im Rahmen der Auswertung der Pilotierung erfolgen.

234

rung der Merkmalssystematik und der verschiedenen Merkmalsausprägungen

vorzunehmen.208

Im Zuge dieser Analysen kann evtl. auch eine Modifikation der Merkmalssyste-

matik notwendig werden. Durch die Verwendung der Pilotierungsdaten besteht

die Möglichkeit, die durch das Regressionsmodell vorhergesagten ( i�̂ ) mit den

empirischen Itemschwierigkeiten ( i� ) abzugleichen. Interessant sind dann vor al-

lem die Items, deren Schwierigkeit durch das Modell schlecht vorhergesagt wird.

An diesen Items könnte sich zeigen, ob die Merkmalssystematik evtl. um weitere

Merkmale erweitert werden muss und/oder die bestehenden stärker auszudifferen-

zieren sind (vgl. Cohors-Fresenborg et al., 2004, S. 137 ff.).

Die validierte und evtl. modifizierte Merkmalssystematik wird auch eine wichtige

Rolle für die endgültige Ausformulierung des Kompetenzmodells spielen. Inner-

halb dieses Prozesses müssen u. a. zwei entscheidende Schritte durchgeführt wer-

den: 1. die Definition von Schwellen zwischen den Kompetenzniveaus; 2. die kri-

terienorientierte Beschreibung der verschiedenen Modelldimensionen und

-niveaus. Prinzipiell denkbar wäre die Verwendung der Aufgabenmerkmale für

beide Schritte. Hartig (2004, 2007) beschreibt ausführlich Vorgehen und Möglich-

keiten der Schwellendefinition mittels Aufgabenmerkmalen. Stark verkürzt darge-

stellt müssen hierbei zuerst die für ein Niveau charakteristischen Merkmalskom-

binationen identifiziert werden. Daran anschließend können die (unstandardisier-

ten) Regressionsgewichte der Merkmale einer entsprechenden Kombination ad-

diert werden, um so einen konkreten Logitwert zu erhalten (= erwartete Schwie-

rigkeit i�̂ eines Items, bei dem die Merkmalskombination vorliegt). Dieser Wert

verankert die Merkmalskombination auf der Kompetenzskala und markiert so den

Beginn eines Kompetenzniveaus. Solch ein Vorgehen ist insbesondere dann nahe-

liegend, wenn A-priori-Beschreibungen der Aufgabenmerkmale vorliegen und

diese auch für die Itemkonstruktion verwendet wurden (z. B. Nold & Rossa,

2007). Für das KoMus-Projekt lag jedoch keine systematische Beschreibung von

Aufgabenmerkmalen der Itementwicklung zugrunde, sodass für die Schwellende-

208 Erste Analysen auf Basis der Pilotierungsdaten wurden bereits durchgeführt. Eine Veröffentli-chung der genauen Ergebnisse erfolgt jedoch erst im Kontext der Abschlusspublikationen des KoMus-Projekts (Jordan, Knigge, Lehmann-Wermser, Lehmann & Niessen, i. Vorb.; Knigge & Jordan, i. Vorb.). An dieser Stelle kann lediglich angedeutet werden, dass die in vorliegender Ar-beit erzielten Befunde auch durch die weiterführenden Analysen bestätigt werden.

235

finition ein anderes Verfahren eingesetzt wird, das an dieser Stelle jedoch nicht

weiter ausgeführt werden kann (vgl. Jordan et al., i. Vorb.).

Gleichwohl ist die Verwendung der Aufgabenmerkmale für die Beschreibung der

Modelldimensionen und -niveaus geplant. Hierfür werden zuerst die Niveau-

schwellen festgelegt. Anschließend können die Items innerhalb eines Kompetenz-

niveaus auf charakteristische Merkmalskombinationen hin untersucht werden. In-

teressant sind dabei vor allem die Kombinationen, die zwei benachbarte Niveaus

voneinander unterscheiden. Ist beispielsweise ein Merkmal auf einem unteren Ni-

veau überhaupt nicht repräsentiert, taucht aber auf dem höheren Niveau gehäuft

auf, so scheint dieses Merkmal geeignet, den Unterschied der beiden Niveaus in-

haltlich zu beschreiben.209 Ähnlich kann auch in Bezug auf die Dimensionen des

Modells und deren inhaltlicher Abgrenzung vorgegangen werden. Sowohl für die

inhaltliche Spezifikation der Dimensionen als auch der Niveaus ist noch eine wei-

tere Eigenschaft der Aufgabenmerkmale interessant. Es kann nämlich in eine Be-

schreibung nicht nur einbezogen werden, ob ein Merkmal oder eine Merkmals-

kombination vorliegt oder nicht, sondern auch die Erklärungskraft der Merkmale

in Bezug auf die Itemschwierigkeiten. Demgemäß können die vorhersagenstärks-

ten Merkmale (größte Regressionsgewichte) auch in inhaltlicher Hinsicht entspre-

chend ‚gewichtet’ und bei der Modellierung berücksichtigt werden.

Nicht zuletzt können Aufgabenmerkmale auch ein hilfreiches ‚Werkzeug’ für die

Entwicklung neuer Items sein. In Bezug auf diesen letzten Punkt könnte die in

vorliegender Arbeit entwickelte Merkmalssystematik auch über das KoMus-

Projekt hinaus von Bedeutung sein. So könnten die Merkmale beispielsweise im

Kontext von weiterführenden Forschungen dazu verwendet werden, um Items für

209 Durch die Verwendung von Aufgabenmerkmalen für die Niveaubeschreibung kann nicht nur eine hohe inhaltliche Differenzierung erreicht werden, es ist darüber hinaus auch möglich, Fehl-spezifikationen des Modells zu entdecken oder vermeintliche Inkonsistenzen zwischen Niveaube-schreibung und den auf einem Niveau empirisch verorteten Items. Helmke & Hosenfeld (2003) beschreiben dies sehr anschaulich am Beispiel eines mathematikbezogenen Kompetenzmodells: „Die Berücksichtigung derjenigen Merkmale, die nachweislich mit der empirischen Aufgaben-schwierigkeit zusammenhängen, erlaubt eine inhaltlich klarere Interpretation der Kompetenzstu-fen, da z. B. zwischen rein inhaltlichen und formal-gestalterischen Anforderungen der Aufgaben unterschieden werden kann. Fallen beispielsweise viele Aufgaben zur Addition und Subtraktion im Zahlenraum bis 1000 in eine Kompetenzstufe, so liegt es nahe diese Stufe entsprechend zu definie-ren. Dies erscheint jedoch auf den ersten Blick nicht angemessen, wenn auch eine größere Zahl von Aufgaben dieses Inhalts der nächst höheren Stufe zuzuordnen sind. Weiß man jedoch, dass diese Aufgaben z. B. alle einen langen Aufgabentext besitzen und dass die Aufgabentextlänge nachweislich mit der Aufgabenschwierigkeit in Verbindung steht, dann ist die ursprüngliche Defi-nition der Kompetenzstufe durchaus plausibel“ (S. 10).

236

eine jüngere oder ältere Stichprobe (z. B. Schüler der neunten Jahrgangsstufe) zu

generieren. Oder aber im Zentrum des Forschungsinteresses steht eine möglichst

differenzierte Leistungserfassung in Bezug auf einen bestimmten Bereich des

Kompetenzmodells (z. B. sehr leistungsstarke Schüler auf hohen Kompetenzni-

veaus). In beiden Fällen wäre es möglich, für die zu entwickelnden Aufgaben spe-

zifische ‚Anforderungsprofile’ zu erstellen, die aus verschiedenen Kombinationen

der Aufgabenmerkmale bestehen. Mittels solch einer ‚merkmalsbasierten’ Aufga-

benkonstruktion könnte a priori bestimmt werden, welche Aufgaben leichter oder

schwerer sein sollten und worauf diese Unterschiede zurückzuführen sind. Aufga-

ben könnten dementsprechend explizit für ein bestimmtes Kompetenzprofil bzw.

Kompetenzniveau entwickelt werden, was eine effektivere und genauere Item-

konstruktion ermöglichen würde.

Ohne an dieser Stelle noch weiter ins Detail zu gehen, ist doch ersichtlich, welche

Bedeutung Aufgabenmerkmale im Prozess der Modellierung einer Kompetenz

einnehmen können, womit gleichzeitig der Bogen zurück an den Anfang des Ka-

pitels geschlagen wird: Die Überlegungen und Analysen der vorangegangenen

Abschnitte (7.1-7.6) haben gezeigt, dass durch die detaillierte Beschreibung von

schwierigkeitsgenerierenden Aufgabenmerkmalen ein tieferes Verständnis der zur

Aufgabenbearbeitung notwendigen Prozesse und damit ein besseres Verständnis

des anvisierten Kompetenzkonstrukts ermöglicht wird (vgl. Hartig & Jude, 2007,

S. 31). Dieses Verständnis erlaubt eine präzisere Interpretation von Testdaten so-

wie eine differenzierte Formulierung eines Kompetenzmodells und kann nicht zu-

letzt für die zukünftige Konstruktion von Items und Tests genutzt werden.

237

8 Diskussion und Zusammenfassung

Im folgenden letzten Kapitel werden die wesentlichen Ergebnisse der vorliegen-

den Arbeit noch einmal zusammengefasst und diskutiert. Es werden Probleme und

Grenzen der modellbasierten Aufgabenentwicklung und -analyse sowie weiterge-

hende methodische Überlegungen dargestellt. Die Arbeit schließt mit Ausführun-

gen zur curricularen Validität der entwickelten Testaufgaben und einem Ausblick

auf die Verwendungsmöglichkeiten der Aufgaben.

8.1 Zusammenfassung der Ergebnisse

Aufgabenentwicklungsprozess und Itempool

Als zentrales Ergebnis der vorliegenden Arbeit ist festzuhalten, dass mittels des

gewählten methodischen Vorgehens ein psychometrisch hochwertiger Itempool

(179 Items) generiert werden konnte, der die Strukturen des theoretischen Kompe-

tenzmodells abbildet, auf unterrichtlicher und curricularer Ebene verankert ist und

dabei sowohl eine Differenzierung über das gesamte Fähigkeitsspektrum (von

Schülern der sechsten Jahrgangsstufe) ermöglicht als auch den strengen testtheo-

retischen Annahmen des Rasch-Modells genügt (vgl. 6.1.3).

Hierbei hat sich die Konzeption der modellbasierten Aufgabenentwicklung als

kooperativer Prozess von schulischer Praxis und Fachwissenschaft und unter

Verwendung psychometrischer Methoden der Testkonstruktion bewährt (vgl. 4.3):

� Auf grundlegender methodischer Ebene betrifft dies zunächst die modellba-

sierte Vorgehensweise. Durch das stark theoriegeleitete Vorgehen konnte die

Aufgabenentwicklung einerseits musikpsychologisch fundiert und an den cur-

ricularen Vorgaben für das Fach Musik ausgerichtet werden (vgl. 4.2). Ande-

rerseits wurden durch die Verwendung eines theoretischen Modells den Auf-

gaben starke Annahmen auferlegt – vor allem hinsichtlich ihrer Schwierigkeit

–, die sich im Rahmen der statistischen Auswertungen bestätigen mussten. Es

erfolgte somit bereits im Prozess der Aufgabenentwicklung eine ständige

Rückkopplung zwischen Empirie und Theorie, die häufig zu einer Überarbei-

tung von Aufgaben führte, teilweise aber auch die Notwendigkeit von Modifi-

kationen am theoretischen Modell nahelegte.

238

� Des Weiteren konnten durch die verwendete Kombination klassischer und

probabilistischer Analysemethoden (vgl. 5.2) die Messeigenschaften der Auf-

gaben auf umfassende Weise untersucht und somit die angestrebte psychomet-

rische Qualität des Itempools im Rahmen der Itemselektion sichergestellt wer-

den (vgl. 6.1). Deutlich wurde hierbei, dass es über die statistischen Verfahren

hinaus der fachwissenschaftlichen Reflexion bedarf (vgl. 6.2).

� Von großer Bedeutung für den Aufgabenentwicklungsprozess war die Koope-

ration mit Lehrkräften. Durch die Beteiligung von Lehrern aus nahezu allen

Schulformen konnte die unterrichtliche Relevanz und ein möglichst gutes Pas-

sungsverhältnis der Aufgaben in Bezug auf die anvisierte Schülerpopulation

(Jahrgangsstufe sechs) sichergestellt werden. Darüber hinaus war es möglich,

über die ganze Entwicklungsphase hinweg Feldtests in den Schulen der Ko-

operationslehrer durchzuführen. Die entwickelten bzw. überarbeiteten Aufga-

ben konnten so kontinuierlich einer empirischen Überprüfung an Stichproben

mittlerer Größe (� pro Test N = 215) unterzogen werden.

Schwierigkeitsgenerierende Aufgabenmerkmale

Ein weiteres wichtiges Ergebnis der vorliegenden Arbeit stellt die Identifikation,

Systematisierung und Validierung von schwierigkeitsgenerierenden Aufgaben-

merkmalen dar (vgl. Kap. 7). Mittels umfassender Itemanalysen gelang es, ver-

schiedene Aufgabenmerkmale zu identifizieren, für die von einem schwierigkeits-

relevanten Einfluss auszugehen ist. Diese wurden auf drei übergeordneten Ebenen

systematisiert: Merkmalsebene ‚Aufgabe’ (Merkmale: Itemformat, Textlänge,

formalsprachliche Anforderungen), Merkmalsebene ‚Wahrnehmung und Ge-

dächtnis’ (Merkmale: Anforderungen an die Hörwahrnehmung, Anforderungen an

das musikalische Gedächtnis) und Merkmalsebene ‚Fachwissen’ (Notationskennt-

nisse, musiktheoretisches Wissen, musikhistorisches Wissen, musikstilistisches

Wissen, Wissen in Bezug auf kulturelle und soziale Kontexte von Musik). An-

schließend erfolgte die empirische Validierung der Aufgabenmerkmale. Trotz

verschiedener einschränkender Faktoren aufgrund der Datenlage (vgl. 7.6.4) kön-

nen auf Basis der empirischen Analysen (multiple lineare Regression) folgende

Befunde zusammengefasst werden:

� Die Analysen zeigen, dass sich empirisch ein schwierigkeitsgenerierender Ef-

fekt der oben genannten Aufgabenmerkmale auf die Itemschwierigkeiten

239

nachweisen lässt. Die in den Regressionen durchweg hohen Varianzaufklärun-

gen deuten auf eine starke Vorhersagekraft der Merkmale hin.

� Der Großteil der identifizierten Merkmale kann validiert werden. Lediglich

die Überprüfung des Einflusses von formalsprachlichen Anforderungen und

dem Einsatz von Fachwissen in Bezug auf soziale/kulturelle Kontexte war

aufgrund der Datenlage nicht möglich.

� Die formulierten Hypothesen in Bezug auf die ordinalen Ausprägungen der

Aufgabenmerkmale werden durch die Analysen bestätigt. Als schwieriger ein-

geschätzte Merkmalsausprägungen weisen auch empirisch eine höhere

Schwierigkeit auf.

� Die Einflussstärke der einzelnen schwierigkeitsgenerierenden Merkmale auf

die Itemschwierigkeit kann aufgrund methodischer Einschränkungen nur sehr

begrenzt miteinander verglichen werden. Tendenziell scheint sich aber anzu-

deuten, dass die Schwierigkeit eines Items vor allem durch die Anforderungen

an die Hörwahrnehmung und das notwendige Fachwissen beeinflusst wird.

Ebenso zeigt sich ein schwierigkeitsgenerierender Einfluss der Anforderungen

an das musikalische Gedächtnis, der vermutlich aber weniger stark ist.

8.2 Grenzen der durchgeführten Analysemethoden und weiterfüh-

rende methodische Überlegungen210

Für die Item- und Testanalyse wurden verschiedene statistische Methoden sowohl

der klassischen als auch der probabilistischen Testtheorie verwendet (vgl. Kap. 5).

In den folgenden Ausführungen werden einerseits die Grenzen von einzelnen ein-

gesetzten Verfahren diskutiert und andererseits Perspektiven für weiterführende

Analysemethoden eröffnet.

Differential Item Functioning (DIF)

DIF-Analysen sind ein hilfreiches Mittel, um die ‚Fairness’ von Items abzusichern

(vgl. 5.2.6). Idealerweise sollten die Items eines Tests kein DIF aufweisen, sodass

210 Eine ausführliche Diskussion der methodischen Einschränkungen der Regressionsanalysen im Rahmen der Validierung der schwierigkeitsgenerierenden Aufgabenmerkmale wurde bereits in Abschnitt 7.6.4 geführt. Es erfolgen daher an dieser Stelle keine zusätzlichen Ausführungen.

240

die Lösungswahrscheinlichkeiten der Items vollständig aufgrund von Personenfä-

higkeit und Itemschwierigkeit erklärt werden können. Ist dies nicht der Fall, so

deutet sich eine Benachteiligung bzw. Übervorteilung einer bestimmten Gruppe

von Testpersonen an, für die entsprechende ‚biased’ Items ‚zu leicht’ oder ‚zu

schwer’ sind.

Der Einsatz dieser Analysemethode konnte in der vorliegenden Arbeit nur in sehr

begrenztem Umfang erfolgen (es wurde ausschließlich ‚Gender-DIF’ untersucht),

da einerseits die Stichprobengrößen zu klein waren und andererseits nur wenige

Gruppenvariablen erhoben wurden (vgl. 6.1.1). Für weiterführende Analysen

könnten neben dem Geschlecht u. a. die Schulform und der Migrationshintergrund

der Schüler von Interesse sein. Noch bedeutsamer wäre allerdings die Untersu-

chung von DIF hinsichtlich der außerschulischen musikalischen Aktivitäten. Es

wäre beispielsweise zu untersuchen, ob Schüler, die in der Freizeit keine weitere

musikalische Förderung erhalten (z. B. Instrumentalunterricht oder Singen in ei-

nem Chor), in Bezug auf einen Teil der Items benachteiligt werden. Entsprechen-

de Analysen können für den Itempool im Rahmen der Pilotierungsstudie des Ko-

Mus-Projekts durchgeführt werden (vgl. 2.2.3). Hier werden zusätzlich zu den

Kompetenztests auch verschiedene weitere Instrumente zur Erhebung von Hinter-

grundvariablen der Schüler (u. a. sozio-ökonomischer Status, musikalisches

Selbstkonzept, musikbezogene Freizeitbeschäftigungen) eingesetzt. Dadurch kann

einerseits der Einfluss dieser Variablen untersucht werden, andererseits ist es im

Rahmen von DIF-Analysen aber auch möglich, Interaktionen zwischen den Vari-

ablen zu modellieren (z. B. Knoche & Lind, 2004).

Auswertung von offenen Items

Items mit offenem Format stellen besondere Anforderungen an die Auswertung

(insbesondere in Bezug auf die Objektivität), da diese nicht standardisiert durch-

geführt werden kann. Für die entwickelten offenen Items wurden daher zunächst

Kodieranweisungen erstellt, auf deren Basis die Auswertung (Kodierung) der I-

tems erfolgte. Aufgrund von begrenzten personellen Ressourcen wurde die Kodie-

rung der offenen Items im Rahmen der vorliegenden Arbeit lediglich von einer

Person durchgeführt (in der Regel vom Autor selbst). Dieses Vorgehen war zu-

nächst ausreichend, um die Anwendbarkeit der Kodieranweisungen zu überprüfen

und einen Einbezug der Items in die statistischen Analysen zu ermöglichen. Die

241

Absicherung der Objektivität der Auswertung konnte so jedoch nicht erfolgen.

Hierfür werden in der Literatur Auswertungsverfahren vorgeschlagen, bei denen

die offenen Items von mehreren Personen (Ratern) kodiert werden (z. B. Wirtz &

Caspar, 2002). In der anschließenden statistischen Analyse kommen Überein-

stimmungskoeffizienten zum Einsatz, die das Ausmaß der Übereinstimmung der

Rater in Form der Interrater-Reliabilität angeben. Um die Auswertungsobjektivität

auch für die offenen Items sicherzustellen, sollte solch ein Vorgehen für weiter-

führende Analysen berücksichtigt werden.

Umgang mit ‚problematischen’ Items: ‚cognitive labs’

Im Rahmen der durchgeführten Itemanalysen musste eine größere Anzahl von I-

tems ausgeschlossen oder überarbeitet werden aufgrund von schlechten bzw. theo-

retisch nicht plausiblen statistischen Kennwerten (vgl. 6.1.2). In diesem Zusam-

menhang wurden in der Regel weiterführende inhaltliche Itemanalysen durchge-

führt, um die möglichen Gründe für die schlechten bzw. unerwarteten Kennwerte

zu identifizieren (vgl. 6.2). Es wurde innerhalb der vorliegenden Arbeit mehrfach

deutlich, dass durch die Analysen oftmals nicht abschließend geklärt werden

kann, welche (Teil-) Kompetenzen für eine Aufgabenlösung notwendig sind oder

welche Lösungsstrategien von den Schülern eingesetzt werden. Denkbar wäre ei-

nerseits, dass ein entsprechendes Item das anvisierte Konstrukt nur unzulänglich

misst bzw. viel eher ein nicht anvisiertes Konstrukt erfasst wird (z. B. Intelligenz,

sprachliche Kompetenzen oder allgemeine Problemlösefähigkeiten). Andererseits

ist es aber auch möglich, dass die theoretischen Annahmen in Bezug auf die

Struktur der Kompetenz zu revidieren sind. In jedem Fall ist eine Überarbeitung

der Items oft nur schwer möglich, so lange ein genaueres Verständnis der für die

Aufgabenbearbeitung notwendigen Prozesse fehlt. Die einfachste Lösung im Um-

gang mit solch problematischen Items besteht darin, diese aus einem Test zu ent-

fernen. Dies ist jedoch einerseits ein relativ unökonomisches Vorgehen, da die

Neukonstruktion von Items sehr aufwendig ist, andererseits würde dadurch die

Möglichkeit vergeben, ein genaueres Verständnis der Testaufgaben bzw. der dafür

benötigten Kompetenzen zu erlangen. Wilson schlägt dementsprechend eine al-

ternative Vorgehensweise vor: „What to do about item misfit? Delete? Better – try

to understand” (Wilson, 2005). Ein möglicher methodischer Zugang ist hierbei die

242

Durchführung von ‚think aloud interviews’ bzw. von ‚cognitive labs’ (Wilson,

2005, S. 54 ff.).

‚Lautes Denken’ als übergeordneter Begriff bezeichnet eine empirische For-

schungsmethode, bei der Personen aufgefordert werden, „ihre Gedanken laut aus-

zusprechen, während sie sich einer Aufgabe oder Tätigkeit widmen“ (Bilandzic,

2005, S. 362). Aus den Audio- und Videoaufnahmen solcher Erhebungssituatio-

nen werden ‚verbal protocols’ erstellt, die dann ausgewertet werden können (vgl.

Ericsson & Simon, 1999). Eine spezifischere Form der ‚thinking aloud technique’

stellen ‚cognitive labs’ dar. Diese Methode ist charakterisiert durch den Gegens-

tandsbezug und daraus folgend durch bestimmte methodische und methodologi-

sche Besonderheiten (z. B. Zucker, Sassmann & Case 2004, S. 2 ff.). Besonders

geeignet sind ‚cognitive labs’, um die Gründe für Ungereimtheiten und Probleme

bei Testaufgaben aufzudecken (ebd.).

Vor diesem Hintergrund wurden ‚cognitive labs’ bereits im Rahmen einer kleinen

Teilstudie des KoMus-Projekts explorativ und mit wenigen Items eingesetzt (vgl.

Knigge et al., im Druck). Hierbei zeigte sich ein großes Potential in Bezug auf die

Aufgabenentwicklung und insbesondere -überarbeitung. Für die Durchführung

von zukünftigen Testentwicklungen wäre ein systematischer und den gesamten

Prozess der Aufgabenentwicklung begleitender Einsatz von ‚cognitive labs’ anzu-

streben.

Verwendete Testmodelle und mögliche Ergänzungen

Im Rahmen der vorliegenden Arbeit wurden ausschließlich unidimensionale

Rasch-Modelle (dichotomes und ordinales Rasch-Modell) für die Skalierung der

Tests verwendet (vgl. 5.1.2). Es konnte dabei für alle selektierten Items die Gel-

tung des Rasch-Modells inferenzstatistisch abgesichert werden (vgl. 6.1). Trotz-

dem stellt sich die Frage, ob evtl. andere Testmodelle die Daten besser abbilden

könnten. Diese Frage ist aus zwei Gründen naheliegend: (1) Die Struktur des the-

oretischen Kompetenzmodells ist mehrdimensional, (2) die Itemanalysen – insbe-

sondere im Rahmen der Identifikation der schwierigkeitsgenerierenden Aufga-

benmerkmale (vgl. Kap. 7) – konnten zeigen, dass für die Lösung einer Aufgabe

oftmals verschiedene Teilkompetenzen notwendig sind. Vor allem für komplexere

Aufgabenstellungen könnte daher die Annahme von mehreren latenten Variablen

zutreffender sein, als die Annahme einer einzelnen Kompetenzdimension (vgl.

243

Robitzsch, 2009, S. 54 f.). Vor diesem Hintergrund wäre insbesondere die Ver-

wendung von multidimensionalen Rasch-Modellen in Betracht zu ziehen (z. B.

Hartig, 2008b; Hartig & Höhler, 2008; Rost, 2004). Eine Anwendung entspre-

chender Modelle (z. B. ‚Between-Item-Modell’, ‚Within-Item-Modell’) konnte in

der vorliegenden Arbeit nicht erfolgen. Zuvorderst lag dies daran, dass in den ein-

zelnen Testheften jeweils schwerpunktmäßig nur einzelne Dimensionen des

Kompetenzmodells vertreten waren. Die übrigen Dimensionen waren hingegen

nur durch einzelne Items repräsentiert. Auf dieser Datenbasis erschien die An-

wendung multidimensionaler Testmodelle nicht sinnvoll. Für die Analysen im

Rahmen der Pilotierungsstudie sind entsprechende Auswertungsverfahren jedoch

vorgesehen (vgl. Jordan et al., 2010).

Im Rahmen der Diskussion von Testmodellen ist abschließend noch das Problem

der Ratewahrscheinlichkeit zu nennen. Diese wird innerhalb der verwendeten

Rasch-Modelle nicht berücksichtigt. Es ist daher problematisch, in einem Test I-

tems mit verschiedenen Formaten zu skalieren, da sich hierdurch in der Regel zu

niedrige Itemschwierigkeiten für MC-Items ergeben (Robitzsch, 2009, S. 45).

Prinzipiell ist auch im Rasch-Modell die Berücksichtigung der Ratewahrschein-

lichkeit möglich, was aber häufig zu Problemen bei der Interpretation der Ergeb-

nisse führt (z. B. Hartig, 2004). Trotzdem handelt es sich hierbei um ein nicht zu

unterschätzendes Problem, vor allem wenn die Items zur Bildung von Kompe-

tenzniveaus herangezogen werden. Neuere statistische Verfahren stellen hierfür

zunehmend Alternativen bereit, die jedoch teilweise an sehr hohe Anforderungen

an die Stichprobengröße gekoppelt sind. Aber auch für moderate Stichprobengrö-

ßen liegen mittlerweile Ansätze vor, die für zukünftige Testkonstruktionen zu be-

rücksichtigen wären (vgl. Robitzsch, 2009, S. 46).

8.3 Testaufgaben zur Erfassung der Hörwahrnehmung: Technische

Herausforderungen und mögliche Optimierungen

Die im Rahmen der vorliegenden Arbeit durchgeführten Tests erfolgten aus-

schließlich als Gruppentestung im ‚Papier-Bleistift-Format’ (vgl. 5.3.2). D. h., die

Hörbeispiele wurden von einem Testleiter mittels einer zentralen Audioeinheit

abgespielt und die Schüler notierten die Antworten in ein Testheft. Die Rückmel-

dungen der Kooperationslehrer, die bei den Testdurchführungen als Testleiter

244

fungierten, erbrachten hierbei wichtige Erkenntnisse, die auf Probleme und Opti-

mierungsmöglichkeiten des Testdesigns hindeuten:

(1) Problematisch erschienen zuvorderst die je nach Schule differierenden Bedin-

gungen in Bezug auf das Abspielen der Hörbeispiele. Zum Einen ist hier die teil-

weise stark schwankende Qualität der Tontechnik-Ausstattung in den verschiede-

nen Schulen zu nennen. Zum Anderen betrifft dies die unvermeidliche Tatsache,

dass die Schüler in unterschiedlichem Abstand und Winkel zu der Schallquelle

saßen. Vor allem in großen Klassen führte dies teilweise dazu, dass einige Schüler

die Hörbeispiele zu leise oder undeutlich wahrnahmen. Weiterhin beeinträchtigten

bereits kleinere Störungen im Klassenraum die Konzentration und machten es

einzelnen Schülern nur schwer möglich, die Hörbeispiele zu verfolgen (z. B. ge-

nügt schon ein herunterfallender Bleistift, um eine Rhythmus-

Wahrnehmungsaufgabe entscheidend zu beinträchtigen).

(2) Durch die Nutzung einer zentralen Audioeinheit konnten die Tests von allen

Schülern nur in einem einheitlichen Tempo bearbeitet werden, was möglicherwei-

se zu einer Unterforderung von leistungsstarken und zu einer Überforderung von

leistungsschwachen Schülern führte.

(3) Ein weiteres von den Lehrern häufig genanntes Problem war das Abschreiben.

Dieses in schulischen Kontexten bekannte Phänomen schien durch die Art der

Testdurchführung besonders begünstigt: Wenn z. B. bei einem MC-Item mit vier

Hörbeispielen dasjenige ausgewählt werden soll, welches zu den im Testheft ab-

gedruckten Noten passt, dann ist allein aufgrund des Zeitpunkts der Antwortabga-

be (und einer entsprechenden Handbewegung) ersichtlich, welches Hörbeispiel

(Antwortalternative) ein Schüler für die richtige Lösung hält. So berichteten die

Lehrer davon, dass bei vergleichbaren Aufgaben häufig Teile der Klasse so lange

mit der Antwort warteten, bis ein oder mehrere als besonders leistungsstark einge-

schätzte Schüler ihre Lösung notiert hatten.

Im Sinne der Durchführungsobjektivität eines Tests erscheinen die genannten

Punkte problematisch, sodass für zukünftige Testdurchführungen eine Modifikati-

on des Testdesigns zu überlegen ist. Von zentraler Bedeutung könnten an dieser

Stelle die jüngsten Entwicklungen auf dem Gebiet des ‚Technology Based As-

sessment’ (TBA) sein (z. B. Hartig & Klieme, 2007). Die Lösung der genannten

Probleme wäre evtl. durch ein computerbasiertes Verfahren möglich, bei dem die

245

Hörbeispiele individuell über Kopfhörer abgespielt werden. Neben den musikspe-

zifischen könnten hierbei weitere allgemeine Vorteile eines technologiebasierten

Verfahrens genutzt werden: So ermöglicht diese Testform eine Verbesserung der

Testgütekriterien (vor allem der Objektivität, in Abhängigkeit des zu erfassenden

Konstrukts aber auch der Validität) sowie eine vereinfachte Datenerfassung (vgl.

Jude & Wirth, 2007). Auf Basis der an dieser Stelle zusammengefassten Erfah-

rungen und Überlegungen wurde im Rahmen des KoMus-Projekts beschlossen,

die Testdurchführung für die Pilotierungsstudie auf ein computerbasiertes Verfah-

ren umzustellen (vgl. Jordan et al., 2010).

8.4 Curriculare Validität der entwickelten Aufgaben

Die Inhaltsvalidität ist ein Hauptgütekriterium in Bezug auf die Qualität eines

Testverfahrens (z. B. Bühner, 2006, S. 36 ff.; vgl. auch 3.1 und 4.2.1). Insbeson-

dere im Kontext der Erfassung von schulbezogenen Leistungen bzw. Kompeten-

zen kommt der Inhaltsvalidität, hier häufig bezeichnet als curriculare Validität, ei-

ne zentrale Bedeutung zu (Hartig & Jude 2007, S. 23). Mit curricularer Validität

ist die Gültigkeit eines Tests und dessen Testaufgaben hinsichtlich eines bestimm-

ten Curriculums gemeint. Um diese Gültigkeit beanspruchen zu können, müssen

die Testaufgaben die auf curricularer Ebene geforderten Kompetenzen möglichst

umfassend abdecken. Da innerhalb eines Tests jedoch nur eine begrenzte Anzahl

an Aufgaben eingesetzt werden kann, ist es von entscheidender Bedeutung, dass

die verwendeten Aufgaben die Menge möglicher Aufgaben (‚Itemuniversum’)

hinreichend gut repräsentieren (Hartig et al., 2007, S. 141 f.). Denn nur wenn die

curriculare Validität eines Tests sichergestellt ist, ist eine Verallgemeinerung der

Testergebnisse über die konkret verwendeten Testaufgaben hinaus zulässig (‚Rep-

räsentationsschluss’; vgl. Hartig et al., 2007, S. 142).

Vor diesem Hintergrund wurde im Rahmen der Aufgabenentwicklung eine mög-

lichst hohe curriculare Validität der Testaufgaben angestrebt. Hierfür war einer-

seits die Verankerung des Testkonstrukts auf curricularer Ebene von Bedeutung

(vgl. 4.2.1). Andererseits konnte durch die Einbindung von Kooperationslehrern

aus verschiedenen Bundesländern und Schulformen in den Entwicklungsprozess

deren fachpraktische Expertise und Kenntnis der jeweiligen Curricula genutzt

werden. Trotz solch eines Vorgehens ist jedoch nicht sichergestellt, ob die ange-

246

strebte curriculare Validität durch die Testaufgaben tatsächlich gegeben ist. Wäh-

rend für einen Teil der Testgütekriterien eine statistische Überprüfung erfolgen

kann, ist dies grundsätzlich für die Inhaltsvalidität nicht bzw. nur indirekt mög-

lich. Eine Möglichkeit, die Prüfung der curricularen Validität trotzdem möglichst

objektiv vorzunehmen, ist das Einholen externer Expertenurteile (Hartig & Jude

2007, S. 23). In der Regel werden hierfür Fachdidaktiker und Curriculum-

Experten gebeten, die Aufgaben auf Ratingskalen hinsichtlich ihrer Relevanz und

Repräsentativität in Bezug auf die anvisierten Kompetenzen (Lehrziele) einzu-

schätzen (z. B. Dubberke & Harks, 2007). Ergibt die statistische Auswertung der

Expertenurteile eine hohe Relevanz der Aufgaben (berechnet als Median der Ra-

tings) und gleichzeitig eine hohe Übereinstimmung zwischen den Experten (be-

rechnet mittels Übereinstimmungskoeffizienten), so kann von der curricularen

Validität der Aufgaben ausgegangen werden.

Für die vorliegende Arbeit ist festzuhalten, dass die curriculare Validität der Test-

aufgaben ein zentrales Kriterium im Rahmen des Entwicklungsprozesses war. Ei-

ne Überprüfung der angestrebten Validität mittels Expertenurteilen konnte in die-

sem Zusammenhang jedoch nicht durchgeführt werden. Ein entsprechendes Vor-

gehen ist im Rahmen der Pilotierungsstudie geplant. Dort sollen sowohl die Leh-

rer der teilnehmenden Klassen als auch Curriculum-Experten aus verschiedenen

Ländern um eine Einschätzung der Aufgaben gebeten werden.

8.5 Ausblick

In den vorangegangenen Abschnitten wurden die Ergebnisse der vorliegenden

Arbeit zusammengefasst, diskutiert und teilweise bereits Perspektiven aufgezeigt

in Bezug auf weiterführende methodische Ansätze und Optimierungsmöglichkei-

ten der Testkonstruktion und -durchführung. Im folgenden abschließenden Ab-

schnitt soll ein Ausblick über die Arbeit hinaus gegeben werden. Zunächst sind

hierfür die erzielten Ergebnisse in den größeren Kontext des KoMus-Projekts ein-

zubetten. Die Arbeit ist integraler Bestandteil des Gesamtprojekts, sodass die Er-

gebnisse innerhalb des Projekts weitere Verwendung finden werden.

Hauptsächlich betrifft dies den entwickelten Itempool, der im Rahmen der Pilotie-

rungsstudie in der dritten Phase des KoMus-Projekts für die Validierung des

247

Kompetenzmodells eingesetzt wird (vgl. 2.2.3). In diesem Zusammenhang werden

die Items auch einem erneuten Selektionsprozess unterzogen, um die Endform des

anvisierten Testinstruments erstellen zu können. Diese abschließende Itemselekti-

on ist vor allem deshalb notwendig, da die zum jetzigen Zeitpunkt vorliegenden

179 Items nicht innerhalb einer realistischerweise zur Verfügung stehenden Test-

zeit bearbeitet werden können. Um einen in der Praxis einsetzbaren Kompetenz-

test zu erhalten, muss daher nochmals ca. die Hälfte der Items selektiert werden.

Darüber hinaus sind auch die in der vorliegenden Arbeit identifizierten schwierig-

keitsgenerierenden Aufgabenmerkmale von Bedeutung für das Gesamtprojekt. Im

Rahmen der Modellvalidierung wird ein wichtiger Schritt die Bildung von empi-

risch abgesicherten Kompetenzniveaus sein. Ähnlich dem in der DESI-Studie

praktizierten Vorgehen (vgl. Hartig, 2007; Nold & Rossa, 2007) ist auch für das

KoMus-Projekt geplant, hierbei Aufgabenmerkmale zur Charakterisierung der

Kompetenzniveaus einzusetzen.

Im Zentrum der vorliegenden Arbeit und auch des KoMus-Projekts steht zunächst

ausschließlich die Test- und Modellkonstruktion. Mittelfristig ist jedoch nach den

Anwendungsmöglichkeiten der entwickelten Testaufgaben bzw. des Kompetenz-

tests und -modells zu fragen: Eine Verwendung des Kompetenztests und -modells

ist vor allem im Rahmen von Schulleistungsmessungen naheliegend, aufgrund der

Konzeption des Testinstruments insbesondere für den Bereich des ‚large-scale-

assessments’. Somit wäre es im deutschen musikpädagogischen Kontext erstmalig

möglich, großflächiger und evtl. repräsentativ Daten in Bezug auf den musikali-

schen Leistungsstand von Schülern im Kompetenzbereich ‚Wahrnehmen und

Kontextualisieren von Musik’ zu erheben. Es wären verschiedene Verwendungs-

möglichkeiten der dabei erhobenen Daten im Bereich der Qualitätssicherung

denkbar. Zuvorderst wird in diesem Zusammenhang meist an die Nutzung der Er-

gebnisse auf Systemebene gedacht – also beispielsweise für die Bildungsplanung

oder für Schulverwaltungen. In der Bildungsforschung und -administration setzt

sich jedoch zunehmend die Überzeugung durch, dass die durch die aktuellen Re-

formprozesse intendierte Qualitätssicherung bzw. -steigerung von schulischem

Unterricht nur erzielt werden kann, wenn die Ergebnisse der empirischen Schul-

leistungsforschung insbesondere auch auf der Ebene der Schul- und Unterrichts-

entwicklung verwendet werden (z. B. Klieme, 2009). Dadurch ergibt sich automa-

tisch die Frage nach geeigneten Rückmeldeformaten für die Testergebnisse. Wäh-

248

rend auf erziehungswissenschaftlicher Ebene mittlerweile ein breiter Diskurs zu

dieser Thematik existiert (z. B. Kuper & Schneewind, 2006; Hosenfeld & Groß

Ophoff, 2007), sind musikspezifische Forschungen hierzu bislang noch nicht

durchgeführt worden. Gerade in diesem Zusammenhang könnte sich ein großes

Anwendungspotential der erzielten Ergebnisse ergeben: Denn durch die Verbin-

dung eines Testinstruments mit einem Kompetenzmodell entstehen nicht nur viel-

fältige Möglichkeiten der Kompetenzdiagnostik, sondern auch die Möglichkeit

von sehr differenzierten Rückmeldungen (vgl. Rupp, Leucht & Hartung, 2006).

Des Weiteren könnten die in der vorliegenden Arbeit und im KoMus-Projekt er-

zielten Ergebnisse auch auf curricularer und unterrichtlicher Ebene Verwendung

finden. Wie in Abschnitt 2.2.1 dargestellt, fehlt in den Musik-Curricula bislang

noch eine präzise Beschreibung von Kompetenzen und deren Systematisierung in

Form von Kompetenzmodellen. Ebenso wurden bisher keine Aufgaben vorgelegt,

die empirisch abgesichert die Dimensionen und Graduierungen der geforderten

Kompetenzen abbilden. Für eine Verwendung des KoMus-Kompetenzmodells

und der darauf bezogenen Aufgaben in diesem Zusammenhang könnte insbeson-

dere den schwierigkeitsgenerierenden Aufgabenmerkmalen eine wichtige Funkti-

on zukommen. Denn die Übertragung von Kompetenzmodellen auf konkretes Un-

terrichtsgeschehen ist ein komplexer Prozess. Für ein besseres Verständnis der

verschiedenen Dimensionen und Niveaus von Kompetenzmodellen werden daher

im Rahmen von Bildungsstandards illustrative Aufgaben vorgeschlagen (Klieme

et al., 2003). So nützlich diese Aufgaben – so sie denn existieren – sind, so geben

sie den Lehrkräften in der Regel doch nur in sehr begrenztem Umfang Hinweise,

welche Charakteristika eine Aufgabe konstituieren, in welchem konkreten Ver-

hältnis diese zur anvisierten Kompetenz stehen, und vor allem, wie Aufgaben zu

konstruieren sind, die ähnliche Kompetenzen erfassen sollen. Schwierigkeitsgene-

rierende Aufgabenmerkmale könnten an dieser Stelle ein äußerst hilfreiches Ve-

hikel für die Variierung von Aufgabenstellungen und eine der konkreten Schüler-

schaft angemessene Konstruktion von z. B. Klassenarbeiten sein. Es fehlen bis-

lang Berichte bezüglich solch unterrichtspraktisch relevanter Anwendungen. Dies

dürfte hauptsächlich an den aktuell noch kaum vorhandenen Kompetenzmodellen

mit durch schwierigkeitsgenerierende Merkmale beschriebenen Aufgabenpools

liegen. Wo entsprechende Forschungen vorliegen, wird teilweise aber bereits in

249

die Richtung von unterrichtsrelevanten Anwendungen gedacht (z. B. Cohors-

Fresenborg et al., 2004; Nold et al., 2007).

Die vorliegende Arbeit und auch das KoMus-Projekt insgesamt stellen lediglich

erste Schritte in Richtung einer empirisch basierten musikspezifischen Kompe-

tenzerfassung und -modellierung dar. Die vorangegangenen Ausführungen haben

ausschnitthaft das Potential aber auch die damit verbundenen und erst noch zu lei-

stenden umfassenden Forschungstätigkeiten in diesem Kontext skizziert. Wenn-

gleich Sigrid Abel-Struth (1985) am Ende ihres „Grundriss der Musikpädagogik“

noch viele weitere Arbeitsfelder vor Augen hatte, so scheint ihr abschließender

Satz auch für das größtenteils noch offene Feld der Erforschung musikalischer

Kompetenzen zutreffend: „Insgesamt ergibt sich ziemlich viel Arbeit“ (S. 624).

250

Literaturverzeichnis

A

Abel-Struth, S. (1978). Ziele des Musik-Lernens: Teil I: Beitrag zur Entwicklung ihrer Theorie. Musikpädagogik: Forschung und Lehre: Bd. 12. Mainz: Schott.

Abel-Struth, S. (1985). Grundriss der Musikpädagogik. Mainz: Schott.

Ackeren, I. van (2003). Nutzung großflächiger Tests für die Schulentwicklung: Erfahrun-gen aus England, Frankreich und den Niederlanden. Bildungsreform: Bd. 3. Berlin: BMBF.

Adams, R. (2002). Scaling PISA Cognitive Data. In R. Adams & M. Wu (Hrsg.), PISA 2000. Technical Report (S. 99-108). Paris: OECD.

Adams, R. & Carstensen, C. H. (2002). Scaling Outcomes. In R. Adams & M. Wu (Hrsg.), PISA 2000. Technical Report (S. 149-162). Paris: OECD.

Allen, N. L., Jenkins, F. & Schoeps, T. L. (2004). The NAEP 1997 Arts Technical Analy-sis Report, Educational Testing Service. ETS-NAEP 04-T01. Verfügbar unter: http://www.ets.org/Media/Research/pdf/ETS-NAEP-04-T01.pdf [6.1.2008].

Amelang, M. & Schmidt-Atzert, L. (2006). Psychologische Diagnostik und Intervention (4., vollst. überarb. und erw. Aufl.). Heidelberg: Springer.

Anderson, L. W., Krathwohl, D. R. & Airasian, P. W. (2001). A Taxonomy for Learning, Teaching, and Assessing: A Revision of Bloom's Taxonomy of Educational Objectives. New York: Longman.

Andrews, F. M. & Deihl, N. C. (1967). Development of a technique for identifying ele-mentary school children’s musical concepts. Coop Research Project 5-0233. Washing-ton D.C.

Arbeitsgruppe Internationale Vergleichsstudie (2003). Vertiefender Vergleich der Schul-systeme ausgewählter Pisa-Teilnehmerstaaten. Bildungsforschung: Bd. 2. Bonn: BMBF.

Asmus, E. P. (1999). Music Assessment Concepts. Music Educators Journal, Special Fo-cus: Assessment in Music Education, 86 (2), 19-24. Verfügbar unter: http://www.jstor.org/stable/3399585 [15.8.2008].

Auhagen, W. (2005). Rhythmus- und Tempoempfinden. In H. de La Motte-Haber & G. Rötter (Hrsg.), Musikpsychologie (Handbuch der Systematischen Musikwissenschaft, S. 231-249). Laaber: Laaber.

Ayala, R. J. de (2009). The theory and practice of item response theory. New York: Guil-ford.

B

Baddeley, A. D. (1986). Working Memory. Oxford: Oxford University Press.

Bähr, J. (2001). Zur Entwicklung musikalischer Fähigkeiten von Zehn- bis Zwölfjährigen: Evaluation eines Modellversuchs zur Kooperation von Schule und Musikschule. Göt-tingen: Cuvillier.

Bähr, J. (2003). Qualitätsentwicklung und Qualitätssicherung im Musikunterricht. AfS-Magazin (15), 7-13. Verfügbar unter: http://www.afs-musik.de/pdf/AfS-Mag15_Baehr.pdf [10.1.2007].

Bähr, J. (2004a). Bildungsstandards für den Musikunterricht? In M. Ansohn & J. Terhag (Hrsg.), Musikkulturen - fremd und vertraut (Musikunterricht heute, S. 404-419). Ol-dershausen: Lugert.

251

Bähr, J. (2004b). Standards - Voraussetzungen und Ziele. Musik & Bildung (4), 56-57.

Bähr, J. (2005). Bildungsstandards für den Musikunterricht. In W. Jank (Hrsg.), Musik-Didaktik. Praxishandbuch für die Sekundarstufe I und II (S. 139-142). Berlin: Cornel-sen Scriptor.

Baumert, J., Bos, W. & Lehmann, R. (Hrsg.). (2000). Mathematische und naturwissen-schaftliche Grundbildung am Ende der Pflichtschulzeit. TIMSS/III: Bd. 1. Opladen: Leske + Budrich.

Baumert, J., Klieme, E., Neubrand, M., Prenzel, M., Schiefele, U., Schneider, W. et al. (Hrsg.). (2001). PISA 2000: Basiskompetenzen von Schülerinnen und Schülern im in-ternationalen Vergleich. Opladen: Leske + Budrich.

Baumert, J., Köller, O., Lehrke, M. & Brockmann, J. (2000). Anlage und Druchführung der dritten Internationalen Mathematik- und Naturwissenschaftsstudie zur Sekundar-stufe II (TIMSS/III) - Technische Grundlagen. In J. Baumert, W. Bos & R. Lehmann (Hrsg.), Mathematische und naturwissenschaftliche Grundbildung am Ende der Pflichtschulzeit (TIMSS/III, S. 31-84). Opladen: Leske + Budrich.

Baumert, J. & Lehmann, R. (1997). TIMSS - Mathematisch-naturwissenschaftlicher Un-terricht im internationalen Vergleich: Deskriptive Befunde. Opladen: Leske + Bu-drich.

Bausch, K. R., Burwitz-Melzer, E., Königs, F. G. & Krumm, H.-J. (Hrsg.). (2006). Auf-gabenorientierung als Aufgabe: Arbeitspapiere der 26. Frühjahrskonferenz zur Erfor-schung des Fremdsprachenunterrichts. Tübingen: Narr.

Bayrhuber, H. (2007a). Einführung - Beitrag der Fachdidaktiken zur Qualitätsverbesse-rung im Bildungssystem. In H. Bayrhuber (Hrsg.), Kompetenzentwicklung und As-sessment (Forschungen zur Fachdidaktik, S. 9-15). Innsbruck: Studien-Verl.

Bayrhuber, H. (Hrsg.). (2007b). Kompetenzentwicklung und Assessment. Forschungen zur Fachdidaktik: Bd. 9. Innsbruck: Studien-Verl.

Beck, B. & Klieme, E. (Hrsg.). (2007). Sprachliche Kompetenzen - Konzepte und Mes-sung: DESI-Studie (Deutsch Englisch Schülerleistungen International). DESI Ergeb-nisse: Bd. 1. Weinheim: Beltz.

Benner, D. (2007). Unterricht - Wissen - Kompetenz: Zur Differenz zwischen didakti-schen Aufgaben und Testaufgaben. In D. Benner (Hrsg.), Bildungsstandards. Instru-mente zur Qualitätssicherung im Bildungswesen. Kontroversen - Beispiele - Perspek-tiven (S. 124-138). Paderborn: Schöningh.

Bilandzic, H. (2005). Lautes Denken. In L. Mikos & C. Wegener (Hrsg.), Qualitative Medienforschung. Ein Handbuch (S. 362–370). Konstanz: UVK.

Bloom, B. S. (Hrsg.). (1956). The Taxonomy of Educational Objectives: Handbook I: Cognitive Domain. New York: McKay.

Blum, W. (2006). Einführung. In W. Blum, C. Drüke-Noe, R. Hartung & O. Köller (Hrsg.), Bildungsstandards Mathematik: konkret. Sekundarstufe I: Aufgabenbeispiele, Unterrichtsanregungen, Fortbildungsideen (S. 14-32). Berlin: Cornelsen Scriptor.

Bond, T. G. & Fox, C. M. (2007). Applying the Rasch model: Fundamental measurement in the human sciences (2. Aufl.). Mahwah, NJ: Lawrence Erlbaum.

Borries, B. von (2007). Von der Curriculumdebatte um 1970 zur Kompetenzdebatte um 2005. In A. Körber, W. Schreiber & A. Schöner (Hrsg.), Kompetenzen historischen Denkens. Ein Strukturmodell als Beitrag zur Kompetenzorientierung in der Ge-schichtsdidaktik (Kompetenzen, S. 317-333). Neuried: ars una.

Borsboom, D., Mellenbergh, G. J. & van Heerden, J. (2004). The Concept of Validity. Psychological Review, 111 (4), 1061-1071.

252

Bortz, J. (2005). Statistik für Human- und Sozialwissenschaftler (6., vollst. überarb. und aktual. Aufl.). Springer-Lehrbuch. Heidelberg: Springer.

Bortz, J. & Döring, N. (2006). Forschungsmethoden und Evaluation für Human- und So-zialwissenschaftler (4. überarb. Aufl.). Heidelberg: Springer.

Böttcher, W. (2006). Bildungsstandards und Evaluation im Paradigma der Outputsteue-rung. In W. Böttcher, G. Holtappels & M. Brohm (Hrsg.), Evaluation im Bildungswe-sen. Eine Einführung in Grundlagen und Praxisbeispiele (S. 39-50). Weinheim: Ju-venta.

Boyle, J. D. & Radocy, R. E. (1987). Measurement and evaluation of musical experi-ences. New York: Schirmer Books.

Brophy, T. S. (2000). Assessing the developing child musician: A guide for general music teachers. Chicago: GIA.

Brophy, T. S. (Hrsg.). (2008). Assessment in Music Education: Integrating Curriculum, Theory, and Practice – Proceedings of the 2007 Florida Symposium on Assessment in Music Education. Chicago: GIA.

Brophy, T. S. (Hrsg.). (2010). The Practice of Assessment in Music Education: Frame-works, Models, and Designs: Proceedings of the 2009 Florida Symposium on Assess-ment in Music Education. Chicago: GIA.

Brügelmann, H. (2003). Das kurze Gedächtnis großer Reformer. Die Deutsche Schule, 95 (2), 168-171.

Bruhn, H. (1993a). Rhythmus in Wahrnehmung und musikbezogener Handlung. In H. Bruhn, R. Oerter & H. Rösing (Hrsg.), Musikpsychologie. Ein Handbuch (S. 291-299). Reinbek: Rowohlt.

Bruhn, H. (1993b). Tonpsychologie - Gehörpsychologie - Musikpsychologie. In H. Bruhn, R. Oerter & H. Rösing (Hrsg.), Musikpsychologie. Ein Handbuch (S. 439-451). Reinbek: Rowohlt.

Bruhn, H. (1994). Test. In S. Helms, R. Schneider & R. Weber (Hrsg.), Neues Lexikon der Musikpädagogik. Sachteil (S. 274-276). Regensburg: Bosse.

Bruhn, H. (2000). Kognitive Aspekte der Entwicklung von Rhythmus. In K. Müller & G. Aschersleben (Hrsg.), Rhythmus. Ein interdisziplinäres Handbuch (S. 227-244). Bern: Huber.

Bruhn, H. (2005). Wissen und Gedächtnis. In R. Oerter & T. H. Stoffer (Hrsg.), Allge-meine Musikpsychologie (Enzyklopädie der Psychologie, S. 537-590). Göttingen: Ho-grefe.

Bühner, M. (2006). Einführung in die Test- und Fragebogenkonstruktion (2., aktual. und erw. Aufl.). München: Pearson Studium.

Bühner, M. & Ziegler, M. (2009). Statistik für Psychologen und Sozialwissenschaftler. München: Pearson Studium.

C

Campbell, M. R. (1991). Musical learning and the development of psychological proc-esses in perception. Council for Research in Music Education (107), 35-38.

Caspari, D., Grotjahn, R. & Kleppin, K. (2008). Kompetenzorientierung und Aufgaben: Zur Unterscheidung zwischen Lern- und Testaufgaben. In B. Tesch, E. Leupold & O. Köller (Hrsg.), Bildungsstandards Französisch: konkret. Sekundarstufe I: Grundla-gen, Aufgabenbeispiele und Unterrichtsanregungen (S. 85-87). Berlin: Cornelsen Scriptor.

253

Cohors-Fresenborg, E., Sjuts, J. & Sommer, N. (2004). Komplexität von Denkvorgängen und Formalisierung von Wissen. In M. Neubrand (Hrsg.), Mathematische Kompeten-zen von Schülerinnen und Schülern in Deutschland. Vertiefende Analysen im Rahmen von PISA 2000 (S. 109-144) . Wiesbaden: VS Verlag.

Colwell, R. (1969). Music achievement tests 1 and 2. Chicago: Follet Educational Corp.

Colwell, R. (1970a). Music achievement tests 3 and 4. Chicago: Follet Educational Corp.

Colwell, R. (1970b). The evaluation of music teaching and learning. New York: Engle-wood Cliffs.

Colwell, R. (1979). Silver Burdett Music Competency Tests. Morristown: Silver Burdett.

Colwell, R. (1999a). The 1997 Assessment in Music: Red Flags in the Sunset. Arts Edu-cation Policy Review, 100 (6), 33-39.

Colwell, R. (1999b). The Future of Assessment. Journal of Aesthetic Education, 33 (4), 53-75.

Colwell, R. (2002). Assessment's Potential in Music Education. In R. Colwell & C. P. Richardson (Hrsg.), The new handbook of research on music teaching and learning. A project of the Music Educators National Conference (S. 1128-1158). New York: Ox-ford Univ. Press.

Colwell, R. (2004). Evaluation in the arts is sheer madness. Arts Praxis (1). Verfügbar unter: http://steinhardt.nyu.edu/music/artspraxis/sheer_madness [12.2.2008].

Criblez, L., Oelkers, J., Reusser, K., Berner, E., Halbheer, U. & Huber, C. (2009). Bil-dungsstandards. Lehren lernen - Basiswissen für die Lehrerinnen- und Lehrerbildung. Zug: Klett und Balmer.

Cvetko, A. & Knigge, J. (im Druck). Musik- und (Fremd-) Sprachenunterricht – Interdis-ziplinäre Perspektiven in Schule und Forschung. In P. Graf & A. Fernandez-Castillo (Hrsg.), Schüler auf dem Weg nach Europa. Interkulturelle Bildung und Mehrspra-chigkeit in der Schule. Bad Heilbrunn: Klinkhardt.

D

Davier, M. von (1997). Methoden zur Prüfung probabilistischer Testmodelle. IPN Schrif-tenreihe: Bd. 157. Kiel: IPN.

Davier, M. von (2001). WINMIRA (Version 2001). University Ave, St. Paul: Assessment Systems Corporation.

DESI-Konsortium (Hrsg.). (2008). Unterricht und Kompetenzerwerb in Deutsch und Englisch: Ergebnisse der DESI-Studie. Weinheim: Beltz.

Dubberke, T. & Harks, B. (2008). Zur curricularen Validität der DESI-Aufgaben: Ergeb-nisse eines Expertenratings. In DESI-Konsortium (Hrsg.), Unterricht und Kompetenz-erwerb in Deutsch und Englisch. Ergebnisse der DESI-Studie (S. 26-33). Weinheim: Beltz.

Dubs, R. (2007). Education Standards: Attempting a Critical Judgement of Development - A Reflection of the Symposium. In D. Waddington, P. Nentwig & S. Schanze (Hrsg.), Making it comparable. Standards in science education (S. 405-430). Münster: Waxmann.

E

Ehmke, T., Leiß, D., Blum, W. & Prenzel, M. (2006). Entwicklung von Testverfahren für die Bildungsstandards Mathematik: Rahmenkonzeption, Aufgabenentwicklung, Feld- und Haupttest. Unterrichtswissenschaft, 34 (3), 220-238.

Eikenbusch, G. (Hrsg.). (2008) Aufgabenkultur [Themenheft]. Pädagogik, 60 (3).

254

Ericsson, K. A. & Simon, H. A. (1999). Protocol analysis: Verbal reports as data (3. überarb. Aufl.). Cambridge: Mit Press.

F

Fisher, R. (2009). Debating Assessment in Music Education. Research and Issues in Mu-sic Education, 6 (1). Verfügbar unter: http://www.stthomas.edu/rimeonline/vol6/fisher1.htm [6.3.2010].

Flämig, M. (2004). Diskussionspapier zu Standards und Musikunterricht, Bundesfach-gruppe Musikpädagogik. Verfügbar unter: http://www.bfg-musikpaedagogik.de/Dateien/Diskussionspapier.pdf [17.11.2007].

Füller, K. (1974). Lernzielklassifikation und Leistungsmessung im Musikunterricht: Stu-dien zur Entwicklung einer Lernzieltaxonomie und zur objektivierten Leistungserfas-sung im Fach Musik. Weinheim: Beltz.

G

Gabrielsson, A. (2001/2002). Perceived emotion and felt emotion: Same or different? In I. Deliège (Hrsg.). Current Trends in the Study of Music and Emotion. Musicæ Scien-tiæ, 123-148.

Gabrielsson, A. & Lindström, E. (2001). The influence of musical structure on emotional expression. In P. N. Juslin & J. Sloboda (Hrsg.), Music and emotion. Theory and re-search (S. 223-248). Oxford: Oxford Univ. Press.

Gembris, H. (1998). Grundlagen musikalischer Begabung und Entwicklung. Forum Mu-sikpädagogik: Bd. 20. Augsburg: Wißner.

Gembris, H. (2005). Die Entwicklung musikalischer Fähigkeiten. In H. de La Motte-Haber & G. Rötter (Hrsg.), Musikpsychologie (Handbuch der Systematischen Musik-wissenschaft, S. 394-456). Laaber: Laaber.

Gembris, H. (2006). The Development of Musical Abilities. In R. Colwell (Hrsg.), MENC handbook of musical cognition and development (S. 124-164). New York: Ox-ford Univ. Press.

Geuen, H. (2006). Kompetenzvermittlung und Bildungsstandards: Probleme und Chan-cen für den allgemein bildenden Musikunterricht, Ministerium für Schule und Weiter-bildung des Landes Nordrhein-Westfalen. Verfügbar unter: http://www.schulministerium.nrw.de/BP/Schueler/Veranstaltungen_Akademien/Materialien_zu_vergangenen_Veranstaltungen/KunstMusikBildungSchule/Geuen.html [6.11.2007].

Geuen, H. & Orgass, S. (2007). Partizipation - Relevanz - Kontinuität: Musikalische Bil-dung und Kompetenzentwicklung in musikdidaktischer Perspektive. Aachen: Shaker.

Gordon, E. (1971). Iowa Tests of Musical Literacy. Iowa: Univ. of Iowa (Publications Order Department).

Granzer, D., Böhme, K. & Köller, O. (2008). Kompetenzmodelle und Aufgabenentwick-lung für die standardisierte Leistungsmessung im Fach Deutsch. In A. Bremerich-Vos, D. Granzer & O. Köller (Hrsg.), Lernstandsbestimmung im Fach Deutsch. Gute Auf-gaben für den Unterricht (S. 10-49). Weinheim: Beltz.

Gudmundsdottir, H. R. (1999). Children’s auditory discrimination of simultaneous melo-dies. Journal of Research in Music Education, 47 (2), 101-110.

255

H

Haft, H. & Hopmann, S. (1987). Lehrplanarbeit in der Bundesrepublik Deutschland: Ver-änderungen zwischen 1970 und heute. Die Deutsche Schule, 79 (4), 506-518.

Hargreaves, D. J. (1982). Preference and prejudice in music: A psychological approach. Popular Music and Society, 8, 13-18.

Hartig, J. (2004). Methoden zur Bildung von Kompetenzstufenmodellen. In H. Moos-brugger, D. Frank & W. Rauch (Hrsg.), Qualitätssicherung im Bildungswesen (Riez-lern-Reader, S. 74-93). Frankfurt: Inst. für Psychologie.

Hartig, J. (2007). Skalierung und Definition von Kompetenzniveaus. In B. Beck & E. Klieme (Hrsg.), Sprachliche Kompetenzen - Konzepte und Messung. DESI-Studie (Deutsch Englisch Schülerleistungen International) (DESI Ergebnisse, S. 83-99). Weinheim: Beltz.

Hartig, J. (2008). Kompetenzen als Ergebnisse von Bildungsprozessen. In N. Jude, J. Hartig & E. Klieme (Hrsg.), Kompetenzerfassung in pädagogischen Handlungsfel-dern. Theorien, Konzepte und Methoden (Bildungsforschung, S. 15-25). Bonn: BMBF.

Hartig, J. (2008b). Psychometric Models for the Assessment of Competencies. In J. Har-tig, E. Klieme & D. Leutner (Hrsg.), Assessment of Competencies in Educational Set-tings (S. 69-90). Göttingen: Hogrefe & Huber.

Hartig, J., Frey, A. & Jude, N. (2007). Validität. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S. 135-163). Heidelberg: Springer.

Hartig, J. & Höhler, J. (2008). Representation of Competencies in Mulitdimensional IRT Models with Within-Item and Between-Item Multidimensionality. Zeitschrift für Psy-chologie, 216 (2), 89-101.

Hartig, J. & Jude, N. (2007). Empirische Erfassung von Kompetenzen und psychometri-sche Kompetenzmodelle. In J. Hartig & E. Klieme (Hrsg.), Möglichkeiten und Vor-aussetzungen technologiebasierter Kompetenzdiagnostik. Eine Expertise im Auftrag des Bundesministeriums für Bildung und Forschung (Bildungsforschung, S. 17-36). Berlin: BMBF.

Hartig, J. & Klieme, E. (2006). Kompetenz und Kompetenzdiagnostik. In K. Schweizer (Hrsg.), Leistung und Leistungsdiagnostik (S. 127-143). Heidelberg: Springer Medi-zin.

Hartig, J. & Klieme, E. (Hrsg.). (2007). Möglichkeiten und Voraussetzungen technologie-basierter Kompetenzdiagnostik: Eine Expertise im Auftrag des Bundesministeriums für Bildung und Forschung. Bildungsforschung: Bd. 20. Berlin: BMBF.

Helmke, A. & Hosenfeld, I. (2003). Vergleichsarbeiten - Standards - Kompetenzstufen: Begriffliche Klärung und Perspektiven für VERA. Verfügbar unter: http://www.mbjs.brandenburg.de/media/lbm1.a.4365.de/vera_standards_kompetenzstufen.pdf [5.1.2010].

Herget, W. (2006). Typen von Aufgaben. In W. Blum, C. Drüke-Noe, R. Hartung & O. Köller (Hrsg.), Bildungsstandards Mathematik: konkret. Sekundarstufe I: Aufgaben-beispiele, Unterrichtsanregungen, Fortbildungsideen (S. 178-193). Berlin: Cornelsen Scriptor.

Hosenfeld, I. & Groß Ophoff, J. (Hrsg.). (2007) Nutzung und Nutzen von Evaluationsstu-dien in Schule und Unterricht [Themenheft]. Empirische Pädagogik, 21 (4).

256

Huber, C., Späni, M., Schmellentin, C. & Criblez, L. (2006). Bildungsstandards in Deutschland, Österreich, England, Australien, Neuseeland und Südostasien: Litera-turbericht zu Entwicklung, Implementation und Gebrauch von Standards in nationalen Schulsystemen, Fachhochschule Nordwestschweiz Pädagogische Hochschule Aarau. Verfügbar unter: http://www.fhnw.ch/ph/ife/download/fberichte/literaturanalysefhnw.pdf [6.3.2010].

I

Imberti, M. (1969). L’acquisition des structures tonales chez l’enfant. Paris: Klincksieck.

Isaac, K., Eichler, W. & Hosenfeld, I. (2008). Ein Modell zur Vorhersage von Aufgaben-schwierigkeiten im Kompetenzbereich Sprache und Sprachgebrauch untersuchen. In B. Hofmann & R. Valtin (Hrsg.), Checkpoint Literacy. Tagungsband 2 zum 15. Euro-päischen Lesekongress 2007 Berlin (S. 12-27). Berlin: Dt. Ges. für Lesen und Schrei-ben.

J

Jones, R. L. (1976). The development of the child’s conception of meter in music. Jour-nal of Research in Music Education, 24 (3), 142-154.

Jordan, A.-K., Knigge, J. & Lehmann-Wermser, A. (2010). Projekt KoMus: Entwicklung von Kompetenzmodellen in einem ästhetischen Fach. In A. Gehrmann, U. Hericks & M. Lüders (Hrsg.), Bildungsstandards und Kompetenzmodelle – Eine Verbesserung der Qualität von Schule, Unterricht und Lehrerbildung (S. 209-222). Bad Heilbrunn: Klinkhardt.

Jordan, A.-K., Knigge, J., Lehmann-Wermser, A., Lehmann, A. C. & Niessen, A. (i. Vorb.). Entwicklung und Validierung eines Kompetenzmodells im Fach Musik – Wahrnehmen und Kontextualisieren von Musik.

Jude, N. & Wirth, J. (2007). Neue Chancen bei der technologiebasierten Erfassung von Kompetenzen. In J. Hartig & E. Klieme (Hrsg.), Möglichkeiten und Voraussetzungen technologiebasierter Kompetenzdiagnostik. Eine Expertise im Auftrag des Bundesmi-nisteriums für Bildung und Forschung (Bildungsforschung, S. 49–56). Berlin: BMBF.

K

Kaiser, H. J. (1995). Die Bedeutung von Musik und Musikalischer Bildung. Musikforum, 31 (83), 17-26.

Kaiser, H. J. (2001). Kompetent, aber wann?: Über die Bestimmung von "musikalischer Kompetenz" in Prozessen ihres Erwerbs. Musik & Bildung (3), 5-10.

Kaiser, H. J. & Nolte, E. (1989). Musikdidaktik: Sachverhalte - Argumente - Begründun-gen: Ein Lese- und Arbeitsbuch. Mainz: Schott.

Karno, M. & Kone�ni, V. (1992). The effect of structural interventions in the first move-ment of Mozart's symphony in g-Minor KV 550. Music Perception, 10 (1), 63-72.

Kelava, A. & Moosbrugger, H. (2007). Deskriptivstatistische Evaluation von Items (Ite-manalysen) und Testwertverteilung. In H. Moosbrugger & A. Kelava (Hrsg.), Testthe-orie und Fragebogenkonstruktion (S. 73-98). Heidelberg: Springer.

Klieme, E. (2004a). Begründung, Implementation und Wirkung von Bildungsstan-dards: Aktuelle Diskussionslinien und empirische Befunde. Zeitschrift für Pädagogik, 50 (5), 625-634.

Klieme, E. (2004b). Was sind Kompetenzen und wie lassen sie sich messen? Pädagogik, 56 (6), 10-13.

257

Klieme, E. (2007). Bildungsstandards, Leistungsmessung und Unterrichtsqualität. In P. Labudde (Hrsg.), Bildungsstandards am Gymnasium. Korsett oder Katalysator? (S. 75-84). Bern: h.e.p.

Klieme, E. (2009). Leitideen der Bildungsreform und der Bildungsforschung. Pädagogik (5), 44-47.

Klieme, E., Avenarius, H., Blum, W., Döbrich, P., Gruber, H., Prenzel, M. et al. (Hrsg.). (2003). Zur Entwicklung nationaler Bildungsstandards: Eine Expertise. Bildungsfor-schung: Bd. 1. Berlin: BMBF.

Klieme, E. & Hartig, J. (2007). Kompetenzkonzepte in den Sozialwissenschaften und im erziehungswissenschaftlichen Diskurs. In M. Prenzel, I. Gogolin & H.-H. Krüger (Hrsg.), Kompetenzdiagnostik. Zeitschrift für Erziehungswissenschaft. (Sonderheft 8), 11-29. Wiesbaden: Verlag für Sozialwissenschaften.

Klieme, E. & Leutner, D. (2006a). Kompetenzmodelle zur Erfassung individueller Lern-ergebnisse und zur Bilanzierung von Bildungsprozessen: Überarbeitete Fassung des Antrags an die DFG auf Einrichtung eines Schwerpunktprogramms. Verfügbar unter: http://www.kompetenzdiagnostik.de/images/Dokumente/antrag_spp_kompetenzdiagnostik_ueberarbeitet.pdf [14.2.2010].

Klieme, E. & Leutner, D. (2006b). Kompetenzmodelle zur Erfassung individueller Lern-ergebnisse und zur Bilanzierung von Bildungsprozessen. Zeitschrift für Pädagogik, 52, 876-903.

Klieme, E., Maag Merki, K. & Hartig, J. (2007). Kompetenzbegriff und Bedeutung von Kompetenzen im Bildungswesen. In J. Hartig & E. Klieme (Hrsg.), Möglichkeiten und Voraussetzungen technologiebasierter Kompetenzdiagnostik. Eine Expertise im Auf-trag des Bundesministeriums für Bildung und Forschung (Bildungsforschung, S. 5-15). Berlin: BMBF.

Knigge, J. (2008). Hinweise zur Erstellung von Testaufgaben für das KoMus-Projekt. Bremen: Universität Bremen (unveröffentlichtes Papier).

Knigge, J. & Jordan, A.-K. (i. Vorb.). Assessing competencies of 6th graders in Germany – a model based approach to item-development.

Knigge, J. & Lehmann-Wermser, A. (2008). Bildungsstandards für das Fach Musik - Ei-ne Zwischenbilanz. Zeitschrift für Kritische Musikpädagogik, Sonderedition: Bil-dungsstandards und Kompetenzmodelle für das Fach Musik?, 60-98. Verfügbar unter: http://www.zfkm.org/sonder08-knigge-lehmannwermser.pdf [4.1.2009].

Knigge, J. & Lehmann-Wermser, A. (2009). Kompetenzorientierung im Musikunterricht. Musik & Unterricht (94), 56-60. Verfügbar unter: http://www.musik.uni-bremen.de/fileadmin/mediapool/musik/dateien/Knigge_Lehmann-Wermser_2009.pdf [4.11.2009].

Knigge, J., Niessen, A. & Jordan, A.-K. (im Druck). Erfassung der Kompetenz „Musik wahrnehmen und kontextualisieren“ mit Hilfe von Testaufgaben – Aufgabenentwick-lung und -analyse im Projekt KoMus. In N. Knolle (Hrsg.), Evaluationsforschung in der Musikpädagogik (Musikpädagogische Forschung ). Essen: Die Blaue Eule.

Knoche, N. & Lind, D. (2004). Eine differenzielle Itemanalyse zu den Faktoren Bil-dungsgang und Geschlecht. In M. Neubrand (Hrsg.), Mathematische Kompetenzen von Schülerinnen und Schülern in Deutschland. Vertiefende Analysen im Rahmen von PI-SA 2000 (S. 73–86). Wiesbaden: VS Verlag.

Köhler, M. (2004). Standards - ganz konkret. Musik & Bildung (4), 57-58.

Köller, O. (2008). Bildungsstandards – Verfahren und Kriterien bei der Entwicklung von Messinstrumenten. Zeitschrift für Pädagogik, 54 (2), 163-173.

258

Köller, O., Böhme, K., Winkelmann, H., Bremerich-Vos, A., Granzer, D., Vock, M. et al. (2005). Hinweise zur Erstellung von Testaufgaben für das Projekt "Evaluation der Standards Deutsch in der Grundschule" ESDeG (Primarbereich, Jahrgang 4). Berlin: IQB (unveröffentlichtes Papier).

Körber, A. (2007). Grundbegriffe und Konzepte: Bildungsstandards, Kompetenzen und Kompetenzmodelle. In A. Körber, W. Schreiber & A. Schöner (Hrsg.), Kompetenzen historischen Denkens. Ein Strukturmodell als Beitrag zur Kompetenzorientierung in der Geschichtsdidaktik (Kompetenzen, S. 54-86). Neuried: ars una.

Köster, J. (2005). Wodurch wird ein Text schwierig? Ein Test für die Fachkonferenz. Deutschunterricht (5), 34-39.

Kormann, A. (2005). Musiktests. In R. Oerter & T. H. Stoffer (Hrsg.), Spezielle Musik-psychologie (Enzyklopädie der Psychologie, S. 369-407). Göttingen: Hogrefe.

Krämer, O. (2005). Gemeinsame Lernvereinbarungen über Standards hinaus: Mit Schüle-rinnen und Schülern festlegen, was sie lernen wollen. Diskussion Musikpädagogik (27), 23-27.

Kreutz, G. (1995). Aspekte musikalischer Formwahrnehmung. In H. de La Motte-Haber & R. Kopiez (Hrsg.), Der Hörer als Interpret (Schriften zur Musikpsychologie und Musikästhetik, S. 125-147). Frankfurt am Main: Lang.

Kreutz, G. (2005). Melodiewahrnehmung: Funktionen von Arbeitsgedächtnis und Auf-merksamkeit. In H. de La Motte-Haber & G. Rötter (Hrsg.), Musikpsychologie (Hand-buch der Systematischen Musikwissenschaft, S. 185-207). Laaber: Laaber.

Kreutz, G., Ott, U. & Vaitl, D. (2006). Spezifität des emotionalen Ausdrucks klassischer Musikstücke: Ergebnisse einer Befragung von Musikstudenten. In K.-E. Behne, G. Kleinen & H. de La Motte-Haber (Hrsg.), Inter- und multimodale Wahrnehmung (Mu-sikpsychologie. Jahrbuch der DGM, S. 104-124). Göttingen: Hogrefe.

Kuper, H. & Schneewind, J. (Hrsg.). (2006). Rückmeldung und Rezeption von For-schungsergebnissen. Zur Verwendung wissenschaftlichen Wissens im Bildungssystem. Münster: Waxmann.

L

La Motte-Haber, H. de (2004). Kognitive Informationsverarbeitung und Musikverstehen. In C. von Blumröder & W. Steinbeck (Hrsg.), Musik und Verstehen (Spektrum der Musik, S. 254-261). Laaber: Laaber.

La Motte-Haber, H. de (2005a). Formwahrnehmung. In H. de La Motte-Haber & G. Röt-ter (Hrsg.), Musikpsychologie (Handbuch der Systematischen Musikwissenschaft, S. 263-267). Laaber: Laaber.

La Motte-Haber, H. de (2005b). Modelle der musikalischen Wahrnehmung: Psychophy-sik - Gestalt - Invarianten - Mustererkennen - Neuronale Netze - Sprachmetapher. In H. de La Motte-Haber & G. Rötter (Hrsg.), Musikpsychologie (Handbuch der Syste-matischen Musikwissenschaft, S. 55-73). Laaber: Laaber.

Labudde, P. (Hrsg.). (2007). Bildungsstandards am Gymnasium: Korsett oder Katalysa-tor? Bern: h.e.p.

Lange, E. B. (2005). Musikpsychologische Forschung im Kontext allgemeinpsychologi-scher Gedächtnismodelle. In H. de La Motte-Haber & G. Rötter (Hrsg.), Musikpsycho-logie (Handbuch der Systematischen Musikwissenschaft, S. 74-100). Laaber: Laaber.

Lehmann, A. C. (2005). Vomblattspiel und Notenlesen. In R. Oerter & T. H. Stoffer (Hrsg.), Allgemeine Musikpsychologie (Enzyklopädie der Psychologie, S. 877-911). Göttingen: Hogrefe.

259

Lienert, G. A. & Raatz, U. (1994). Testaufbau und Testanalyse (5., völlig neubearb. und erw. Aufl.). Weinheim: Beltz.

Lind, D. & Knoche, N. (2004). Testtheoretische Modelle und Verfahren bei PISA-2000-Mathematik. In M. Neubrand (Hrsg.), Mathematische Kompetenzen von Schülerinnen und Schülern in Deutschland. Vertiefende Analysen im Rahmen von PISA 2000 (S. 51-69). Wiesbaden: VS Verlag.

Lohmann, W. (1997). Leistungserfassung – Leistungsbeurteilung / Leistungsbewertung. In S. Helms, R. Schneider & R. Weber (Hrsg.), Handbuch des Musikunterrichts. Se-kundarstufe I (S. 49-55). Kassel: Bosse.

Lütgert, W. (2001). Leistungsdiagnose und Leistungsbeurteilung im Fach Musik. In W. Lütgert, K.-J. Tillmann & J. Kassing-Koch (Hrsg.), Leistungsbewertung in den Fä-chern Bildende Kunst, Sport, Musik und Darstellendes Spiel. Eine Expertise zum schulpädagogischen und fachdidaktischen Diskussionsstand. Hamburg: Freie und Hansestadt Hamburg, Behörde für Schule, Jugend und Berufsbildung, Amt für Schule. [18-28].

M

Manturzewska, M. & Kaminska, B. (1993). Human musical development. In A. Langen & W. Piel (Hrsg.), Musik und Heilpädagogik. Frankfurt: Lang.

Meißner, R. (1999). Leistungsbewertung im Musikunterricht: Positionen, Aufgaben und Tests für die Klassen 5 bis 12. Musik in der Schule (2), 66-74.

Meißner, R. (1987). Informelle Tests: Die Bewertung der Schülerleistung. In H. de La Motte-Haber (Hrsg.), Psychologische Grundlagen des Musiklernens (Handbuch der Musikpädagogik, S. 431-469). Kassel: Bärenreiter.

Mislevy, R. J., Steinberg, L. S. & Almond, R. G. (2002). On the Roles of Task Model Variables in Assessment Design. In S. H. Irvine (Hrsg.), Item generation for test de-velopment (S. 97-128). Mahwah: Lawrence Erlbaum.

Moosbrugger, H. (2007). Item-Response-Theorie (IRT). In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S. 215-259). Heidelberg: Springer.

Moosbrugger, H. & Kelava, A. (2007). Qualitätsanforderungen an einen psychologischen Test (Testgütekriterien). In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S. 7-26). Heidelberg: Springer.

Murphy, R. (2007). Harmonizing Assessment and Music in the Classroom. In L. Bresler (Hrsg.), International handbook of research in arts education (Springer international handbook of research in arts education, Bd. 1, S. 361-380). Dordrecht: Springer.

Music Educators National Conference (Hrsg.). (1994). The School Music Program: A New Vision. The K-12 National Standards, Pre-K standards, and what they mean to music educators. Reston VA: Music Educators National Conference. [30.1.2007].

N

National Assessment Governing Board. (1994). Arts Education Assessment Framework, 1997: NAEP Arts Education Consensus Project. Washington. Verfügbar unter: http://www.nagb.org/pubs/artsed.pdf [17.10.2007].

Nauck-Börner, C. (1987). Wahrnehmung und Gedächtnis. In H. de La Motte-Haber (Hrsg.), Psychologische Grundlagen des Musiklernens (Handbuch der Musikpädago-gik, S. 13-115). Kassel: Bärenreiter.

Neubrand, M. (Hrsg.). (2004). Mathematische Kompetenzen von Schülerinnen und Schü-lern in Deutschland: Vertiefende Analysen im Rahmen von PISA 2000. Wiesbaden: VS Verlag.

260

Neubrand, M., Klieme, E., Lüdtke, O. & Neubrand, J. (2002). Kompetenzstufen und Schwierigkeitsmodelle für den PISA-Test zur mathematischen Grundbildung. Unter-richtswissenschaft, 30 (2), 100-119.

Niessen, A. (2008). Leistungsmessung oder individuelle Förderung? Zur Funktion und Gestaltung von Aufgaben im Unterricht. In H.-U. Schäfer-Lembeck (Hrsg.), Leistung im Musikunterricht. Beiträge der Münchner Tagung 2008 (Musikpädagogische Schrif-ten der Hochschule für Musik und Theater München, S. 134-152). München: Allitera.

Niessen, A. & Lehmann-Wermser, A. (2005). Bildungsstandards in Musik. Diskussion Musikpädagogik (27), 8-13.

Niessen, A., Lehmann-Wermser, A., Knigge, J. & Lehmann, A. C. (2008). Entwurf eines Kompetenzmodells 'Musik wahrnehmen und kontextualisieren'. Zeitschrift für Kriti-sche Musikpädagogik, Sonderedition: Bildungsstandards und Kompetenzmodelle für das Fach Musik?, 3-33. Verfügbar unter: http://www.zfkm.org/sonder08-niessenetal.pdf [27.4.2009].

Nold, G. & Rossa, H. (2007). Hörverstehen. In B. Beck & E. Klieme (Hrsg.), Sprachliche Kompetenzen - Konzepte und Messung. DESI-Studie (Deutsch Englisch Schülerleis-tungen International) (DESI Ergebnisse, S. 178-196). Weinheim: Beltz.

Nold, G. & Willenberg, H. (2007). Lesefähigkeit. In B. Beck & E. Klieme (Hrsg.), Sprachliche Kompetenzen - Konzepte und Messung. DESI-Studie (Deutsch Englisch Schülerleistungen International) (DESI Ergebnisse, S. 23-41). Weinheim: Beltz.

O

OECD. (2005). PISA 2003: Technical Report. Verfügbar unter: http://www.oecd.org/dataoecd/49/60/35188570.pdf [7.1.2010].

Oelkers, J. & Reusser, K. (2008). Qualität entwickeln – Standards sichern – mit Differenz umgehen. Bildungsforschung: Bd. 27. Berlin: BMBF.

Oerter, R. & Bruhn, H. (1997). Künstlerische Fächer: Das Beispiel Musik. In F. E. Wei-nert (Hrsg.), Enzyklopädie der Psychologie. Themenbereich D: Praxisgebiete, Ser. 1: Pädagogische Psychologie, Bd. 3 (S. 535-570). Göttingen: Hogrefe.

Oster, M. (2000). Arrangieren - Inszenieren - Interpretieren: Ein Forschungsprojekt zur geschlechts(un)typischen musikalischen Sozialisation. In F. Hoffmann, J. Bowers & R. Heckmann (Hrsg.), Frauen- und Männerbilder in der Musik. Festschrift für Eva Rieger zum 60. Geburtstag (S. 217-230). Oldenburg: bis.

P

Persky, H. R., Sandene, B. A. & Askew, J. M. (1998). The NAEP 1997 Arts Report Card: Eighth Grade Findings From the National Assessment of Educational Progress. Washington: National Center for Education Statistics. Verfügbar unter: http://nces.ed.gov/pubsearch/pubsinfo.asp?pubid=1999486 [2.7.2007].

Pflederer, M. & Sechrest, L. (1968). Conservation-type responses of children to musical stimuli. Council for Research in Music Education (13), 19-36.

Picht, G. (1964). Die deutsche Bildungskatastrophe: Analyse und Dokumentation. Olten: Walter.

Pick, A. D. & Palmer, C. F. (1993). Development of the perception od musical events. In T. J. Tighe & W. J. Dowling (Hrsg.), Psychology and music. The understanding of melody and rhythm . Hillsdale: LEA.

PISA-Konsortium Deutschland (Hrsg.). (2007). PISA 2006: Die Ergebnisse der dritten internationalen Vergleichsstudie. Münster: Waxmann.

261

Pistone, N. R. (2002). Envisioning arts assessment: A process guide for assessing arts education in school districts and states Washington. Washington, DC: Arts Education Partnership and Council of Chief State School Officers.

Pongratz, L. A., Reichenbach, R. Wimmer, M. (Hrsg.). (2007). Bildung – Wissen – Kom-petenz. Bielefeld: Janus Presse.

Poppensieker, K. (1986). Die Entwicklung musikalischer Wahrnehmungsfähigkeit. In S. Abel-Struth (Hrsg.), Musikpädagogik. Forschung und Lehre. Mainz: Schott.

Prenzel, M., Häußler, P., Rost, J. & Senkbeil, M. (2002). Der PISA-Naturwissenschaftstest: Lassen sich die Aufgabenschwierigkeiten vorhersagen? Un-terrichtswissenschaft, 30 (2), 120-135.

R

Rammsayer, T. (2000). Zeitwahrnehmung und Rhythmuswahrnehmung. In K. Müller & G. Aschersleben (Hrsg.), Rhythmus. Ein interdisziplinäres Handbuch (S. 83-106). Bern: Huber.

Rauch, D. & Hartig, J. (2007). Interpretation von Testwerten in der IRT. In H. Moos-brugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S. 240-250). Heidelberg: Springer.

Richter, C. (2005). Auf der Suche nach Bildungsstandards und Kompetenzformulierun-gen im Fach Musik. Diskussion Musikpädagogik (27), 14-23.

Richter, T. & Christmann, U. (2002). Lesekompetenz: Prozessebenen und interindividuel-le Unterschiede. In N. Groeben & B. Hurrelmann (Hrsg.), Lesekompetenz. Bedingun-gen, Dimensionen, Funktionen (S. 25-58). Weinheim: Juventa.

Robitzsch, A. (2009). Methodische Herausforderungen bei der Kalibrierung von Leis-tungstests. In D. Granzer, O. Köller & A. Bremerich-Vos (Hrsg.), Bildungsstandards Deutsch und Mathematik. Leistungsmessung in der Grundschule (S. 42-107). Wein-heim: Beltz.

Rolle, C. (2006). Verordnete Freiheit oder beliebige Verbindlichkeit: Oder: Wie soll über die Inhalte des Musikunterrichts entschieden werden? In H. J. Kaiser, D. Barth, F. Hess, H. Jünger, C. Rolle, J. Vogt et al. (Hrsg.), Bildungsoffensive Musikunterricht? Das Grundsatzpapier der Konrad-Adenauer-Stiftung in der Diskussion (S. 96-124). Regensburg: ConBrio.

Rolle, C. (2008a). Argumentationsfähigkeit: eine zentrale Dimension musikalischer Kompetenz? In H.-U. Schäfer-Lembeck (Hrsg.), Leistung im Musikunterricht. Beiträ-ge der Münchner Tagung 2008 (Musikpädagogische Schriften der Hochschule für Musik und Theater München, S. 70-100). München: Allitera.

Rolle, C. (2008b). Musikalische Bildung durch Kompetenzerwerb? Überlegungen im An-schluss an den Entwurf eines Kompetenzmodells „Musik wahrnehmen und kontextua-lisieren“. Zeitschrift für Kritische Musikpädagogik, Sonderedition: Bildungsstandards und Kompetenzmodelle für das Fach Musik?, 42-59. Verfügbar unter: http://www.zfkm.org/sonder08-rolle.pdf.

Rost, J. (1999). Was ist aus dem Rasch-Modell geworden? Psychologische Rundschau, 50 (3), 140-156.

Rost, J. (2004). Lehrbuch Testtheorie - Testkonstruktion (2., vollst. überarb. und erw. Aufl.). Bern: Huber.

Roth, H. (1971). Pädagogische Anthropologie: Band 2. Hannover: Schroedel.

Rumpf, H. (2005). Bildungsstandards?: Einwände gegen die absehbare Verödung des Le-bens. Diskussion Musikpädagogik (27), 4-8.

262

Runfola, M. & Swanwick, K. (2002). Developmental characteristics of music learners. In R. Colwell & C. P. Richardson (Hrsg.), The new handbook of research on music teaching and learning. A project of the Music Educators National Conference (S. 373-397). New York: Oxford Univ. Press.

Rupp, A. A., Leucht, M. & Hartung, M. (2006). 'Die Kompetenzbrille aufsetzen': Verfah-ren zur multiplen Klassifikation von Lernenden für Kompetenzdiagnostik in Unter-richt und Testung. Unterrichtswissenschaft, 34 (3), 195-219.

Rychen, D. S. & Salganik, L. H. (Hrsg.). (2001). Defining and selecting key competen-cies. Seattle: Hogrefe & Huber.

S

Schäfer-Lembeck, H.-U. (Hrsg.). (2008). Leistung im Musikunterricht: Beiträge der Münchner Tagung 2008. Musikpädagogische Schriften der Hochschule für Musik und Theater München: Bd. 2. München: Allitera.

Schecker, H. & Parchmann, I. (2007). Standards and Competence Models: The German Situation. In D. Waddington, P. Nentwig & S. Schanze (Hrsg.), Making it comparable. Standards in science education (S. 147-164). Münster: Waxmann.

Schellberg, G. (1998). Zur Entwicklung der Klangfarbenwahrnehmung von Vorschulkin-dern. Dissertation, Universität Münster.

Scheuer, W. (2003). Zur Einführung von Bildungsstandards für den Musikunterricht, Musikhochschule Trossingen. Verfügbar unter: http://www.musiceducation.de/html/bem.html [1.11.2007].

Schlegel, C. M. (2001). Europäische Musiklehrpläne im Primarbereich: Eine verglei-chende Inhaltsanalyse. Forum Musikpädagogik: Bd. 50. Augsburg: Wißner.

Schlömerkemper, J. (Hrsg.). (2004) Bildung und Standards [Themenheft]. Die Deutsche Schule, 96 (8. Beiheft). Weinheim: Juventa.

Schoenebeck, M. von (2004). Grundkompetenzen und kein Ende? Grundschule, 36 (9), 8.

Senatorin für Bildung und Wissenschaft Bremen (Hrsg.). (2009). Übergang von der Grundschule in die 5. Jahrgangsstufe Grundschule: Schuljahr 2010/2011. Verfügbar unter: http://www.bildung.bremen.de/fastmedia/13/Broschuere4nach5Internet%20.pdf [6.3.2010].

Serafine, M. L. (1975). A measure of meter conservation in music based on Piaget’s the-ory. Dissertation, University of Florida.

Serafine, M. L. (1988). Music as cognition. The development of thought in sound. New York: Columbia University Press.

Sjuts, J. (2006). Unterrichtliche Gestaltung und Nutzung kompetenzorientierter Aufgaben in diagnostischer Sicht. In W. Blum, C. Drüke-Noe, R. Hartung & O. Köller (Hrsg.), Bildungsstandards Mathematik: konkret. Sekundarstufe I: Aufgabenbeispiele, Unter-richtsanregungen, Fortbildungsideen (S. 96-112). Berlin: Cornelsen Scriptor.

Sloboda, J. & Juslin, P. N. (2005). Affektive Prozesse: Emotionale und ästhetische As-pekte musikalischen Verhaltens. In R. Oerter & T. H. Stoffer (Hrsg.), Allgemeine Mu-sikpsychologie (Enzyklopädie der Psychologie, S. 767-841). Göttingen: Hogrefe.

Sloboda, J. A. (2005). Exploring the musical mind: Cognition, emotion, ability, function. Oxford: Oxford Univ. Press.

Stoffer, T. H. (2005). Aufmerksamkeitsprozesse beim Musikhören: Wissensunabhängige und wissensabhängige Selektionsprozesse. In R. Oerter & T. H. Stoffer (Hrsg.), All-gemeine Musikpsychologie (Enzyklopädie der Psychologie, S. 591-656). Göttingen: Hogrefe.

263

Stöger, C. (2006). Leistungsbeurteilung im Musikunterricht. AfS-Magazin (22), 4-9.

Stolla, J. & Gaul, M. (2008). Von der Blockflöte zur E-Gitarre: Eine empirische Studie zu Instrumentenvorlieben bei Kindern und Jugendlichen. In A. C. Lehmann & M. Weber (Hrsg.), Musizieren innerhalb und außerhalb der Schule (Musikpädagogische For-schung, S. 163-178). Essen: Die Blaue Eule.

T

Thompson, W. F. & Schellenberg, E. G. (2006). Listening to Music. In R. Colwell (Hrsg.), MENC handbook of musical cognition and development (S. 72-123). New York: Oxford Univ. Press.

Thonhauser, J. (Hrsg.). (2008a). Aufgaben als Katalysatoren von Lernprozessen: Eine zentrale Komponente organisierten Lehrens und Lernens aus der Sicht von Lernfor-schung, Allgemeiner Didaktik und Fachdidaktik. Münster: Waxmann.

Thonhauser, J. (2008b). Warum (neues) Interesse am Thema 'Aufgaben'. In J. Thonhauser (Hrsg.), Aufgaben als Katalysatoren von Lernprozessen. Eine zentrale Komponente organisierten Lehrens und Lernens aus der Sicht von Lernforschung, Allgemeiner Di-daktik und Fachdidaktik (S. 13-27). Münster: Waxmann.

U

Uhl, S. (2006). Die Bildungsstandards, die Outputsteuerung und ihre Kritiker. IQ Kom-pakt: Bd. 2. Wiesbaden: Hessisches Kultusministerium, Insitut für Qualitätsentwick-lung. Verfügbar unter: http://www.rhs-giessen.de/data/intern/bildungsstandards_und_kritiker.pdf [14.2.2010].

Upitis, R. (1987). Children’s understanding of rhythm: The relationship between devel-opment and music training. Psychomusicology, 7 (1), 41-60.

Urban, U. (2004). Standards - vom Input zum Output. Musik & Bildung (4), 60-62.

V

Vogt, J. (2004). Standards für den Musikunterricht in der Grundschule? Grundschule, 36 (9), 9-12.

Vogt, J. (2008). Musikbezogene Bildungskompetenz – ein hölzernes Eisen? Anmerkun-gen zu den 'Theoretischen Überlegungen zu einem Kompetenzmodell für das Fach Musik'. Zeitschrift für Kritische Musikpädagogik, Sonderedition: Bildungsstandards und Kompetenzmodelle für das Fach Musik?, 34-41. Verfügbar unter: http://www.zfkm.org/sonder08-vogt.pdf [5.1.2009].

Voss, A., Carstensen, C. H. & Bos, W. (2005). Textgattungen und Verstehensaspekte: Analyse von Leseverständnis aus den Daten der IGLU-Studie. In W. Bos, E.-M. Lan-kes, M. Prenzel, K. Schwippert, R. Valtin & G. Walther (Hrsg.), IGLU. Vertiefende Analysen zu Leseverständnis, Rahmenbedingungen und Zusatzstudien (S. 1-36). Mün-ster: Waxmann.

W

Wang, W.-C. (2000). The simultaneous factorial analysis of differential item functioning. Methods of Psychological Research Online, 5 (1), 57-75.

Weber, K. (2004). Sind Standards von musikalischer Bildung möglich? Musik & Bildung (4), 58-60.

Weinert, F. E. (1999). Concepts of competence: DeSeCo Expert Report. Neuchatel: DeSeCo.

264

Weinert, F. E. (2001a). Concept of Competence: A Conceptual Clarification. In D. Si-mone Rychen & L. Hersh Salganik (Hrsg.), Defining and selecting key competencies (S. 45-65). Seattle: Hogrefe & Huber.

Weinert, F. E. (Hrsg.). (2001b). Leistungsmessungen in Schulen. Weinheim: Beltz.

Weinert, F. E. (2001c). Vergleichende Leistungsmessung in der Schule - eine umstrittene Selbstverständlichkeit. In F. E. Weinert (Hrsg.), Leistungsmessungen in Schulen (S. 17-31). Weinheim: Beltz.

Wilson, M. (2005). Constructing measures: An item response modeling approach. Mah-wah, N.J: Lawrence Erlbaum Associates.

Wirtz, M. & Caspar, F. (2002). Beurteilerübereinstimmung und Beurteilerreliabilität: Methoden zur Bestimmung und Verbesserung der Zuverlässigkeit von Einschätzungen mittels Kategoriensystemen und Ratingskalen. Göttingen: Hogrefe.

Wolf, D. & Pistone, N. R. (1991). Taking full measure: Rethinking assessment through the arts. New York: College Entrance Examination Board.

Wu, M. & Adams, R. (2007). Applying the rasch model to psycho-social measurement: A practical approach, Educational Measurement Solutions, Melbourne. Verfügbar unter: http://edmeasurement.com.au/_docs/RaschMeasurement_Complete.pdf [6.3.2010].

Wu, M., Adams, R. & Wilson, M. (1998). ConQuest: Generalised item response model-ling software. Melbourne: Australian Council for Educational Research.

Wu, M., Adams, R., Wilson, M. & Haldane, S. (2007). ACER ConQuest: Version 2.0. Generalised Item Response Modelling Software. Camberwell, Victoria: Acer.

Y

Young, L. P. (1982). An investigation of young children’s music concept development us-ing nonverbal and manipulative techniques. Dissertation, Ohio State University.

Z

Zenatti, A. (1993). Children’s musical cognition and taste. In T. J. Tighe & W. J. Dowl-ing (Hrsg.), Psychology and music. The understanding of melody and rhythm (S. 177-196). Hillsdale: LEA.

Zimmermann, M. P. & Sechrest, L. (1968). How children conceptually organize musical sounds. Coop. Research Project No. 5-0256, Northwestern University.

Zucker, S., Sassmann C. & Case B. J. (2004). Cognitive Labs. Technical Report. Verfüg-bar unter: http://pearsonassess.com/NR/rdonlyres/E5CD33E6-D234-46F3-885A-9358575372FB/0/CognitiveLabs_Final.pdf [9.3.2010].

265

Verzeichnis der verwendeten Curricula

Baden-Württemberg

Ministerium für Kultus, Jugend und Sport des Landes Baden-Württemberg (2004). Bil-dungsplan 2004. Allgemeinbildendes Gymnasium. Bildungsstandards Musik. Verfüg-bar unter: http://www.bildung-staerkt-menschen.de/service/downloads/Bildungsstandards/Gym/ Gym_Mu_bs.pdf [6.1.2008].

Ministerium für Kultus, Jugend und Sport des Landes Baden-Württemberg (2004). Bil-dungsplan 2004. Realschule. Bildungsstandards Musik. Verfügbar unter: http://www.bildung-staerkt-menschen.de/service/downloads/Bildungsstandards/Rs/ Rs_Mu_bs.pdf [6.1.2008].

Berlin

Ministerium für Bildung, Jugend und Sport des Landes Brandenburg; Senatsverwaltung für Bildung, Jugend und Sport Berlin; Ministerium für Bildung, Wissenschaft und Kultur Mecklenburg-Vorpommern (2004). Rahmenlehrplan Grundschule. Musik. Ver-fügbar unter: http://www.berlin.de/imperia/md/content/sen-bildung/schulorganisation/lehrplaene/ gr_mu_1_6.pdf [6.1.2008].

Senatsverwaltung für Bildung, Jugend und Sport Berlin (2006). Rahmenlehrplan für die Sekundarstufe I. Musik. Verfügbar unter: http://www.berlin.de/imperia/md/content/sen-bildung/ schulorganisati-on/lehrplaene/sek1_musik.pdf [6.1.2008].

Senatsverwaltung für Bildung, Jugend und Sport Berlin; Ministerium für Bildung, Jugend und Sport des Landes Brandenburg; Ministerium für Bildung, Wissenschaft und Kul-tur Mecklenburg-Vorpommern (2006). Rahmenlehrplan für die gymnasiale Oberstufe. Musik. Verfügbar unter: http://www.berlin.de/imperia/md/content/sen-bildung/schulorganisation/lehrplaene/ sek2_musik.pdf [6.1.2008].

Brandenburg

Ministerium für Bildung, Jugend und Sport des Landes Brandenburg (2002). Rahmen-lehrplan Musik. Sekundarstufe I. Verfügbar unter: http://www.bildung-brandenburg.de/fileadmin/bbs/ unter-richt_und_pruefungen/rahmenlehrplaene/sekundarstufe_I/rahmenlehrplaene/S1-Musik.pdf [6.1.2008].

Bremen

Freie Hansestadt Bremen (2001). Ästhetik. Rahmenplan für die Primarstufe. Verfügbar unter: http://lehrplan.bremen.de/primarstufe/aesthetik/rahmenplan/download [6.1.2008].

Freie Hansestadt Bremen (2007). Musik – Bildungsplan für das Gymnasium. Jahrgangs-stufe 5-10. Bremen: Senatorin für Bildung und Wissenschaft.

266

Hamburg

Freie und Hansestadt Hamburg Behörde für Bildung und Sport (2003/2004). Bildungs-pläne für Hamburger Schulen. Verfügbar unter: http://lbs.hh.schule.de/bildungsplaene/ [6.1.2008].

Hessen

Hessisches Kultusministerium (o. J.). Lehrplan Musik. Gymnasialer Bildungsgang. Ver-fügbar unter: http://www.hessisches-kultusministerium.de/irj/HKM_Internet?uid=1720e9fb-a45b-901b-e592-697ccf4e69f2 [6.1.2008].

Mecklenburg Vorpommern

Ministerium für Bildung, Wissenschaft und Kultur Mecklenburg-Vorpommern (2001). Rahmenplan Orientierungsstufe. Musik. Verfügbar unter: http://www.bildung-mv.de/archiv/ rahmenplaene/rahmenplaene-musik.htm [6.1.2008].

Ministerium für Bildung, Wissenschaft und Kultur Mecklenburg-Vorpommern (2002). Rahmenplan Jahrgangsstufen 7-10. Musik. Verfügbar unter: http://www.bildung-mv.de/archiv/ rahmenplaene/rahmenplaene-musik.htm [6.1.2008].

Ministerium für Bildung, Wissenschaft und Kultur Mecklenburg-Vorpommern (1999). Rahmenplan gymnasiale Oberstufe. Musik. Verfügbar unter: http://www.bildung-mv.de/archiv/rahmenplaene/rahmenplaene-musik.htm [6.1.2008].

Niedersachsen

Niedersächsisches Kultusministerium (2006). Kerncurriculum für die Grundschule. Mu-sik. Verfügbar unter: http://db2.nibis.de/1db/cuvo/datei/kc_gs_musik_nib.pdf [6.1.2008].

Niedersächsisches Kultusministerium (2004). Curriculare Vorgaben für die Hauptschule – Schuljahrgänge 5/6. Musik. Verfügbar unter: http://www.nibis.de/nli1/gohrgs/rrl/ hs5_6/cvhsmusik.pdf [6.1.2008].

Niedersächsisches Kultusministerium (2004). Curriculare Vorgaben für das Gymnasium – Schuljahrgänge 5/6. Musik. Verfügbar unter: http://db2.nibis.de/1db/cuvo/datei/ 3_musik_gym_5.pdf [6.1.2008].

Nordrhein-Westfalen

Ministerium für Schule, Jugend und Kinder des Landes Nordrhein-Westfalen (2003). Richtlinien und Lehrpläne zur Erprobung für die Grundschule in Nordrhein-Westfalen. Verfügbar unter: http://www.schul-welt.de/lp_online_rubrik.asp?sessionid=31210-2102357-315738&rubrik=4 [6.1.2008].

Saarland

Ministerium für Bildung, Kultur und Wissenschaft des Saarlandes (2006). Lehrplan Mu-sik – Achtjähriges Gymnasium. Verfügbar unter: http://www.saarland.de/7041.htm [6.1.2008].

267

Sachsen

Sächsisches Staatsinstitut für Bildung und Forschung (2004). Lehrpläne für die Grund-schule. Musik. Verfügbar unter: http://www.sn.schule.de/~ci/download/lp_gs_musik.pdf [6.1.2008].

Sachsen-Anhalt

Kultusministerium Sachsen-Anhalt (2005). Fachlehrplan Grundschule. Musik. Verfügbar unter: http://www.rahmenrichtlinien.bildung-lsa.de/pdf/entwurf/lpgsmusik.pdf [6.1.2008].

Schleswig-Holstein

Ministerium für Bildung, Wissenschaft, Forschung und Kultur des Landes Schleswig-Holstein (1997). Lehrplan für die Sekundarstufe I der weiterführenden allgemeinbil-denden Schulen. Musik. Verfügbar unter: http://lehrplan.lernnetz.de/intranet1/ links/materials/1107161453.pdf [6.1.2008].

268

Anhang A: Itemkennwerte

In den nachfolgenden Tabellen (Tab. 56-Tab. 64) sind die statistischen Kennwerte

der selektierten Items der neun Testhefte aufgeführt.

269

Tab.

56:

Sel

ektie

rte It

ems T

esth

eft 1

Item

-ID

K

urzb

esch

reib

ung

P i /P

IK

P ZK

Item

schw

ieri

g-ke

it (R

asch

) M

NSQ

r it

SK

D3-

1b

Gra

fisch

e N

otat

ion:

Ton

höhe

nver

lauf

76

.27

68.3

6 -1

.48

1.07

0.

34

D1-

1b

Ban

dbes

etzu

ng: Q

ueen

(2. S

ongt

eil)

48.3

1 37

.97

-0.0

7 1.

03

0.40

D1-

1c

Ban

dbes

etzu

ng: Q

ueen

(3. S

ongt

eil)

47.4

6 36

.95

-0.0

3 0.

91

0.51

D1-

1d

Ban

dbes

etzu

ng: Q

ueen

(4. S

ongt

eil)

61.0

2 53

.22

-0.6

6 1.

04

0.40

D1-

11b

Kla

vier

stüc

ke (B

eeth

oven

, Son

ate

f-m

oll)

53.3

9 -

-0.3

0 0.

88

0.57

D1-

11c

Kla

vier

stüc

ke (C

age,

pre

pare

d pi

ano)

12

.71

- 2.

03

1.04

0.

32

D3-

2 H

aydn

Par

titur

lese

n 36

.44

- 0.

50

1.13

0.

36

D1-

2a-1

H

aydn

Dyn

amik

: p

45.7

6 27

.68

0.05

1.

06

0.42

D1-

2a-2

H

aydn

Dyn

amik

: pp

52.5

4 36

.72

-0.2

6 1.

03

0.40

D1-

2a-3

H

aydn

Dyn

amik

: ff

74.5

8 66

.10

-1.3

8 0.

98

0.40

D1-

2a

Hay

dn D

ynam

ik

34.7

5 -

0.58

0.

98

0.47

D1-

12ab

c A

-A-B

-A-F

orm

: Im

Mär

zen

der B

auer

34

.75

- 0.

58

1.04

0.

32

D2-

5a-

Inst

rum

ent e

rken

nen:

Kla

rinet

te

43.2

2 24

.29

0.17

1.

07

0.38

D2-

5b

Inst

rum

ente

ngru

ppe

erke

nnen

: Stre

ichi

nstru

men

t 46

.61

28.8

1 0.

01

0.93

0.

54

D2-

5c

Inst

rum

ent b

enen

nen:

Gei

ge/B

rats

che

41.5

3 -

0.25

0.

93

0.51

Glo

bale

r Mod

ellte

st: C

ress

ie-R

ead:

p =

0.2

7, �

2 : p =

0.5

5; T

estr

elia

bilit

ät: E

AP/P

V =

0.6

9, C

ronb

achs

Alp

ha =

0.6

8

P i ,

P IK

, PZK

= k

lass

isch

e Sc

hwie

rigke

itsin

dize

s; It

emsc

hwie

rigke

it (R

asch

) = It

empa

ram

eter

� (d

icho

tom

e Ite

ms)

, Thu

rsto

nian

thre

shol

ds (m

ehrk

ateg

orie

lle

Item

s); M

NSQ

= w

eigh

ted

mea

n sq

uare

(Ite

mfit

Con

Que

st); r

it = T

renn

schä

rfe;

SK

= S

elek

tions

kenn

wer

t (Tr

enns

chär

fe)

270

Tab.

57:

Sel

ektie

rte It

ems T

esth

eft 2

Item

-ID

K

urzb

esch

reib

ung

P i /P

IK

P ZK

Item

schw

ieri

g-ke

it (R

asch

) M

NSQ

r it

SK

D3-

1a

Gra

fisch

e N

otat

ion:

Ton

läng

e 86

.21

81.6

1 -1

,48

1.03

0.

30

D3-

1e

Gra

fik z

uord

nen

(Bac

h-Fu

ge)

72.4

1 63

.22

-0.4

6 1.

14

0.38

D3-

1f

Zuor

dnun

g er

klär

en

24.1

4 -

2,10

1.

09

0.43

D3-

2 H

aydn

Par

titur

lese

n 24

.14

- 2,

10

1.14

0.

32

D1-

11d

Bes

chre

ibun

g ei

nem

Kla

vier

stüc

k zu

ordn

en (J

azz)

65

.52

- -0

.07

1.08

0.

40

D1-

13a

Dur

/Mol

l (Ei

genp

rodu

ktio

n)

56.9

0 -

0.37

1.

15

0.33

D1-

13b

Dur

/Mol

l (V

ival

di)

55.1

3 -

0.47

0.

99

0.50

D3-

7a

Rhy

thm

us +

Not

en (8

8488

4)

79.4

9 72

.65

-0.9

3 0.

81

0.61

D3-

7b

Rhy

thm

us +

Not

en (8

8884

4)

76.9

2 69

.23

-0.7

5 0.

92

0.48

D3-

7c

Rhy

thm

us +

Not

en (4

8844

) 77

.56

70.0

9 -0

.79

0.92

0.

56

D3-

7e

Rhy

thm

us +

Not

ensc

hrei

ben

(888

8488

) 35

.26

- 1,

46

0.91

0.

62

D3-

7f

Rhy

thm

us +

Not

en (B

eeth

oven

: 488

44)

60.2

6 47

.01

0.21

0.

87

0.65

D3-

7g

Rhy

thm

us +

Not

en (Q

ueen

: 884

884)

87

.18

82.9

1 -1

,58

0.92

0.

46

D1-

14a-

1 R

hyth

mus

+ 4

Rhy

thm

en (P

2: 4

4884

) 93

.59

91.4

5 -2

,43

0.91

0.

32

D1-

14c

Rhy

thm

us +

4 M

usik

(P1:

488

84.)

29.4

9 5.

98

1,78

0.

93

0.48

Glo

bale

r Mod

ellte

st: C

ress

ie-R

ead:

p =

0.0

6, �

2 : p =

0.1

2; T

estr

elia

bilit

ät: E

AP/P

V =

0.8

0, C

ronb

achs

Alp

ha =

0.5

7

P i ,

P IK

, PZK

= k

lass

isch

e Sc

hwie

rigke

itsin

dize

s; It

emsc

hwie

rigke

it (R

asch

) = It

empa

ram

eter

� (d

icho

tom

e Ite

ms)

, Thu

rsto

nian

thre

shol

ds (m

ehrk

ateg

orie

lle

Item

s); M

NSQ

= w

eigh

ted

mea

n sq

uare

(Ite

mfit

Con

Que

st); r

it = T

renn

schä

rfe;

SK

= S

elek

tions

kenn

wer

t (Tr

enns

chär

fe)

271

Tab.

58:

Sel

ektie

rte It

ems T

esth

eft 3

Item

-ID

K

urzb

esch

reib

ung

P i /P

IK

P ZK

Item

schw

ieri

g-ke

it (R

asch

) M

NSQ

r it

SK

D1-

15b-

1 W

irkun

g: h

ektis

ch (L

iget

i) 95

.39

94.2

4 -2

.42

0.92

0.

30

D1-

15c-

1 W

irkun

g: fe

stlic

h (l'

Orf

eo)

94.7

4 93

.43

-2.2

8 0.

98

0.29

D1-

15e

Wirk

ung

+ M

ittel

(Dire

Stra

its)

29.6

1 -

1.91

1.

03

0.39

D1-

15e

Wirk

ung

+ M

ittel

(Phi

ll C

ollin

s)

23.6

8 -

2.25

1.

03

0.32

D1-

15g

Wirk

ung

+ M

ittel

(Car

men

) 57

.89

- 0.

54

1.10

0.

28

D3-

7d

Rhy

thm

us +

gra

fisch

e N

otat

ion

(884

884)

53

.29

- 0.

76

0.93

0.

57

D1-

11b

Bes

chre

ibun

g ei

nem

Kla

vier

stüc

k zu

ordn

en (B

row

n)

69.7

4 -

-0.0

5 1.

01

0.44

D1-

16-1

/3

Tonv

orra

t im

Kop

f abz

ähle

n 79

.61

- -0

.64

1.00

0.

41

D1-

16-2

/3

Tonv

orra

t im

Kop

f abz

ähle

n 54

.61

- 0.

70

1.08

0.

41

D1-

14a-

3 R

hyth

mus

+ 4

Rhy

tmen

(P3)

59

.87

46.4

9 0.

45

1.01

0.

47

D1-

14b

Rhy

thm

us +

4 M

elod

ien

(P2)

44

.08

25.4

4 1.

19

0.96

0.

47

D1-

14c

Rhy

thm

us +

4 M

usik

(P2)

51

.97

35.9

6 0.

82

0.88

0.

52

D1-

14c

Mel

odie

+ 4

Rhy

thm

en (P

3)

58.5

5 44

.73

0.51

0.

91

0.56

D4-

5b

Stile

: Kon

zerts

aal

92.1

1 90

.80

-1.8

2 1.

06

0.18

0.

31

D4-

5a-3

/4

Mus

ik +

Orte

(Mili

tärp

arad

e)

92.7

6 90

.95

-1.9

2 1.

03

0.23

0.

40

Glo

bale

r Mod

ellte

st: C

ress

ie-R

ead:

p =

0.0

6, �

2 : p =

0.1

2; T

estr

elia

bilit

ät: E

AP/P

V =

0.7

2, C

ronb

achs

Alp

ha =

0.6

2

P i ,

P IK

, PZK

= k

lass

isch

e Sc

hwie

rigke

itsin

dize

s; It

emsc

hwie

rigke

it (R

asch

) = It

empa

ram

eter

� (d

icho

tom

e Ite

ms)

, Thu

rsto

nian

thre

shol

ds (m

ehrk

ateg

orie

lle

Item

s); M

NSQ

= w

eigh

ted

mea

n sq

uare

(Ite

mfit

Con

Que

st); r

it = T

renn

schä

rfe;

SK

= S

elek

tions

kenn

wer

t (Tr

enns

chär

fe)

272

Tab.

59:

Sel

ektie

rte It

ems T

esth

eft 4

Item

-ID

K

urzb

esch

reib

ung

P i /P

IK

P ZK

Item

schw

ieri

g-ke

it (R

asch

) M

NSQ

r it

SK

D3-

8a-1

M

icha

el ro

w th

e bo

at –

Feh

ler s

uche

n 92

.56

- -1

.65

1.00

0.

33

D3-

8a-2

M

icha

el ro

w th

e bo

at –

Feh

ler s

uche

n 44

.63

- 1.

43

0.98

0.

43

D3-

8a-4

M

icha

el ro

w th

e bo

at –

Feh

ler s

uche

n

90.5

0 -

-1.3

6 1.

02

0.36

D3-

8b-1

M

icha

el ro

w th

e bo

at -

Fehl

er b

esch

reib

en

78.1

0 -

-0.2

9 0.

99

0.43

D3-

8b-2

M

icha

el ro

w th

e bo

at -

Fehl

er b

esch

reib

en

20.6

6 -

2.73

0.

83

0.52

D3-

8b-4

M

icha

el ro

w th

e bo

at -

Fehl

er b

esch

reib

en

69.8

3 -

0.20

1.

01

0.49

D1-

15c-

1 W

irkun

g: fe

stlic

h (l'

orfe

o)

83.0

6 78

.83

-0.6

4 1.

05

0.34

D1-

15c-

2 W

irkun

g: ru

hig

(Sat

ie)

95.4

5 94

.31

-2.2

0 1.

06

0.26

D1-

15d-

1 W

irkun

g: fr

öhlic

h (S

aint

-Sae

ns)

87.1

9 83

.99

-1.0

0 1.

01

0.34

D1-

15f-

I W

irkun

g-M

ittel

-Kom

posi

tion

71.4

9 -

0.11

1.

01

0.35

D4-

5b-1

St

ile: H

ipH

op

90.9

1 89

.4

-1.4

2 1.

11

0.19

0.

31

D4-

5b-2

St

ile: O

per

93.8

0 92

.77

-1.8

6 1.

05

0.30

D4-

5b-3

St

ile: R

ock

95.4

5 94

.69

-2.2

0 1.

09

0.14

0.

31

D4-

5b-4

St

ile: K

onze

rtsaa

l 87

.19

85.0

6 -1

.00

1.02

0.

39

D4-

5b-5

St

ile: K

irche

94

.21

93.2

5 -1

.93

1.05

0.

34

D4-

5b-6

St

ile: T

echn

o 82

.64

79.7

5 -0

.61

1.05

0.

30

D1-

18a-

1 M

otiv

isch

e V

erän

deru

ng: B

rude

r Jak

ob

49.5

9 24

.39

1.19

1.

01

0.38

D1-

18a-

2 M

otiv

isch

e V

erän

deru

ng: O

Du

liebe

r Aug

ustin

46

.28

19.4

2 1.

35

1.03

0.

44

D1-

18a-

3 M

otiv

isch

e V

erän

deru

ng: M

ende

lsso

hn

50.8

3 20

.87

1.14

0.

97

0.45

D1-

18b

Mot

ivis

che

Ver

ände

rung

: Alle

mei

ne E

ntch

en

66.9

4 41

.53

0.36

1.

02

0.38

273

Item

-ID

K

urzb

esch

reib

ung

P i /P

IK

P ZK

Item

schw

ierig

-ke

it (R

asch

) M

NSQ

rit

SK

D1-

18d

Mel

odie

wie

dere

rken

nen

(Moz

art-M

enue

tt)

25.2

1 -

2.44

0.

99

0.40

D1-

18e

Var

iatio

nen:

Kla

vier

(Moz

art)

14.8

8 -

3.18

1.

04

0.23

0.

32

D1-

18f

Var

iatio

nen:

USA

-Hym

ne (H

endr

ix)

32.6

4 -

2.02

1.

05

0.36

Glo

bale

r Mod

ellte

st: C

ress

ie-R

ead:

p =

0.0

8, �

2 : p =

0.1

0; T

estr

elia

bilit

ät: E

AP/P

V =

0.7

4, C

ronb

achs

Alp

ha =

0.6

9

P i ,

P IK

, PZK

= k

lass

isch

e Sc

hwie

rigke

itsin

dize

s; It

emsc

hwie

rigke

it (R

asch

) = It

empa

ram

eter

� (d

icho

tom

e Ite

ms)

, Thu

rsto

nian

thre

shol

ds (m

ehrk

ateg

orie

lle

Item

s); M

NSQ

= w

eigh

ted

mea

n sq

uare

(Ite

mfit

Con

Que

st); r

it = T

renn

schä

rfe;

SK

= S

elek

tions

kenn

wer

t (Tr

enns

chär

fe)

274

Tab.

60:

Sel

ektie

rte It

ems T

esth

eft 5

Item

-ID

K

urzb

esch

reib

ung

P i /P

IK

P ZK

Item

schw

ieri

g-ke

it (R

asch

) M

NSQ

r it

SK

D1-

17a

Form

erke

nnun

g: M

ozar

t-Ron

do

37.3

4 -

1.25

1.

06

0.37

D1-

10b-

1/2

Takt

+ N

oten

(MC

) 44

.81

26.4

1 0.

89

0.90

0.

56

D1-

10b-

2/2

Takt

+ N

oten

(MC

) 53

.53

38.0

4 0.

48

0.92

0.

53

D1-

10c

Takt

+ N

oten

(off

en)

35.6

8 -

1.34

0.

95

0.50

D1-

14a

Rhy

thm

us +

4 R

hyth

men

51

.45

- 0.

58

1.05

0.

40

D3-

7f

Rhy

thm

us +

Not

en (B

eeth

oven

) 52

.28

- 0.

54

0.99

0.

51

D2-

6a-1

/5

Inst

rum

ente

nbild

er: T

rom

pete

67

.63

- -0

.22

1.08

0.

33

D2-

6a-2

/5

Inst

rum

ente

nbild

er: K

ontra

bass

77

.18

- -0

.77

0.98

0.

44

D2-

6a-3

/5

Inst

rum

ente

nbild

er: Q

uerf

löte

84

.23

- -1

.29

1.00

0.

38

D2-

6a-4

/5

Inst

rum

ente

nbild

er: G

eige

84

.23

- -1

.29

1.00

0.

39

D2-

6a-5

/5

Inst

rum

ente

nbild

er: G

itarr

e 90

.04

- -1

.86

1.04

0.

22

0.37

D2-

6b-1

/3

Inst

rum

ente

ben

enne

n: K

lavi

er

88.8

-

-1.7

2 0.

92

0.43

D2-

6b-2

/3

Inst

rum

ente

ben

enne

n: O

rgel

83

.4

- -1

.22

0.90

0.

49

D2-

6b-3

/3

Inst

rum

ente

ben

enne

n: E

-Pia

no

50.2

1 -

0.63

0.

88

0.51

D1-

19b-

1/3

Inst

rum

ente

nzah

l hör

en: 2

(Jac

k Jo

hnso

n)

78.0

1 -

-0.8

3 0.

97

0.42

D1-

19b-

2/3

Inst

rum

ente

nzah

l hör

en: 3

(Sum

mer

time)

67

.63

- -0

.22

1.07

0.

34

D1-

19b-

3/3

Inst

rum

ente

nzah

l hör

en: 3

(Sch

uber

t-Trio

) 37

.76

- 1.

23

1.15

0.

26

275

Item

-ID

K

urzb

esch

reib

ung

P i /P

IK

P ZK

Item

schw

ierig

-ke

it (R

asch

) M

NSQ

r it

SK

D4-

1a

älte

r - jü

nger

: Bac

h - P

eter

son

(Jaz

z)

72.6

1 45

.22

-0.5

0 1.

03

0.37

D4-

1a

Beg

ründ

ung

42.3

2 -

1.01

0.

94

0.52

D4-

1b

älte

r - jü

nger

: G. M

icha

el (P

op) -

Mon

teve

rdi

89.2

1 78

.42

-1.7

7 1.

02

0.25

D4-

1b

Beg

ründ

ung

39.4

2 -

1.15

1.

05

0.38

D4-

1c

älte

r - jü

nger

: Fitz

gera

ld (J

azz

rem

ixed

) - B

igba

nd

93.3

6 86

.72

-2.3

4 1.

00

0.24

0.

35

D4-

1c

Beg

ründ

ung

39.4

2

1.15

0.

93

0.47

D4-

1e-2

-1/2

H

isto

risch

e A

nläs

se: k

önig

liche

s Fes

t 160

0 88

.38

85.4

8 -1

.68

0.97

0.

33

D4-

1f-2

Ep

oche

n-Ze

itstra

hl: K

lass

ik

67.6

3 61

.16

-0.2

2 1.

07

0.28

D1-

15e

Wirk

ung-

Mitt

el-Z

uord

nung

(ohn

e H

B)

47.3

0 -

0.77

1.

05

0.28

D1-

18d

Mel

odie

Wie

dere

rken

nen

(Moz

art-M

enue

tt)

52.7

0 -

0.52

1.

04

0.37

D1-

10a

Takt

erek

ennu

ng

26.5

6 -

1.83

1.

09

0.26

D4-

1d

Bac

h-Tr

ioso

nate

+ h

isto

risch

es W

isse

n (M

C)

15.7

7 -

2.57

0.

98

0.33

Glo

bale

r Mod

ellte

st: C

ress

ie-R

ead:

p =

0.2

6, �

2 : p =

0.3

7; T

estr

elia

bilit

ät: E

AP/P

V =

0.8

2, C

ronb

achs

Alp

ha =

0.8

0

P i ,

P IK

, PZK

= k

lass

isch

e Sc

hwie

rigke

itsin

dize

s; It

emsc

hwie

rigke

it (R

asch

) = It

empa

ram

eter

� (d

icho

tom

e Ite

ms)

, Thu

rsto

nian

thre

shol

ds (m

ehrk

ateg

orie

lle

Item

s); M

NSQ

= w

eigh

ted

mea

n sq

uare

(Ite

mfit

Con

Que

st); r

it = T

renn

schä

rfe;

SK

= S

elek

tions

kenn

wer

t (Tr

enns

chär

fe)

276

Tab.

61:

Sel

ektie

rte It

ems T

esth

eft 6

Item

-ID

K

urzb

esch

reib

ung

P i /P

IK

P ZK

Item

schw

ieri

g-ke

it (R

asch

) M

NSQ

r it

SK

D2-

1a

Tonl

eite

r Gra

fik z

uord

nen

83.1

1 77

.48

-1.9

5 0.

95

0.33

D2-

1c-1

Tr

iller

+ B

esch

reib

unge

n 83

.11

77.4

8 -1

.95

0.89

0.

43

D2-

1c-2

Tr

iller

+ F

acht

erm

inol

ogie

47

.11

36.5

3 -0

.12

1.08

0.

29

D2-

1b

Tonl

eite

r + H

B

50.2

2 -

-0.2

6 0.

96

0.46

D2-

1d

MC

: zut

reff

ende

Bes

chre

ibun

gen

24.0

0 -

0.99

1.

01

0.23

0.

27

D2-

1e

gena

ue B

esch

reib

ung

(off

en)

33.3

3, 9

.33

- 1.

57

1.08

0.

31

D2-

1 K

orre

ktur

aufg

abe

8.44

-

2.28

1.

01

0.23

0.

41

D2-

1 K

orre

ktur

aufg

abe

6.67

-

2.54

0.

97

0.23

0.

46

D1-

3a

Abs

chni

tte: A

u cl

aire

de

la lu

ne

59.1

1 45

.48

-0.6

5 0.

99

0.37

D1-

3a-(

2/2)

gl

eich

e A

bsch

nitte

: Au

clai

re d

e la

lune

25

.78

- 0.

89

0.96

0.

44

D1-

3b

A-A

-B-A

: Im

Mär

zen

der B

auer

41

.33

21.7

7 0.

13

1.04

0.

31

D3-

3 ko

mpl

exe

graf

isch

e Pa

rtitu

r (Sa

tie)

41.3

3 21

.77

0.13

1.

01

0.28

D1-

4a

Pass

ende

Film

mus

ik

48.4

4, 2

2.67

-

-1.0

6, 0

.84

0.94

0.

47

D1-

4b

Pass

ende

Film

mus

ik

43.1

1, 3

2.89

-

-1.2

3, 0

.38

0.97

0.

51

D4-

2-1/

5 St

ile: G

ospe

l 20

.89

11.0

0 1.

18

0.97

0.

33

D4-

2-2/

5 St

ile: O

per

88.8

9 87

.50

-2.4

6 1.

00

0.22

0.

33

D4-

2-3/

5 St

ile: N

eue

Mus

ik

36.0

0 28

.00

0.38

1.

08

0.22

0.

24

D4-

2-5/

5 St

ile: B

lues

54

.67

49.0

0 -0

.45

1.01

0.

35

277

Item

-ID

K

urzb

esch

reib

ung

P i /P

IK

P ZK

Item

schw

ierig

-ke

it (R

asch

) M

NSQ

r it

SK

D1-

5a

Hay

dn-V

aria

tione

n 28

.25

- 0.

77

1.01

0.

24

D1-

5b

Hay

dn-V

aria

tion:

Ver

ände

rung

bes

chre

iben

69

.06

- -1

.08

0.95

0.

37

D1-

5c

Anz

ahl V

aria

tione

n (M

ozar

t) 15

.53

- 1.

60

1.07

0.

14

0.19

D2-

2-1/

2 K

anon

(Bes

chre

ibun

g au

swäh

len)

78

.65

71.5

3 -1

.85

1.00

0.

27

D2-

3a

Wel

che

Bes

chre

ibun

g pa

sst a

m b

este

n 44

.44

25.9

2 -0

.04

1.07

0.

23

0.26

D2-

3b

Gen

aue

Bes

chre

ibun

g m

it ei

gene

n W

orte

n 29

.11,

29

.11,

24.

05

- -1

.34,

-0.3

0,

0.63

1.

01

0.61

Glo

bale

r Mod

ellte

st: C

ress

ie-R

ead:

p =

0.1

0, �

2 : p =

0.1

2; T

estr

elia

bilit

ät: E

AP/P

V =

0.7

2, C

ronb

achs

Alp

ha =

0.6

0

P i ,

P IK

, PZK

= k

lass

isch

e Sc

hwie

rigke

itsin

dize

s; It

emsc

hwie

rigke

it (R

asch

) = It

empa

ram

eter

� (d

icho

tom

e Ite

ms)

, Thu

rsto

nian

thre

shol

ds (m

ehrk

ateg

orie

lle

Item

s); M

NSQ

= w

eigh

ted

mea

n sq

uare

(Ite

mfit

Con

Que

st); r

it = T

renn

schä

rfe;

SK

= S

elek

tions

kenn

wer

t (Tr

enns

chär

fe)

278

Tab.

62:

Sel

ektie

rte It

ems T

esth

eft 7

Item

-ID

K

urzb

esch

reib

ung

P i /P

IK

P ZK

Item

schw

ieri

g-ke

it (R

asch

) M

NSQ

r it

SK

D1-

6 M

otiv

isch

e V

erän

deru

ng: f

ranz

. Hym

ne –

Tch

ai-

kovs

ky

45.9

9 -

-0.4

7 0.

96

0.47

-

D4-

3a-2

/3

Kul

ture

ller K

onte

xt: b

ayer

isch

e B

lasm

usik

60

.63

- -1

.11

1.00

0.

29

-

D4-

3b-1

/5

Kul

ture

ller K

onte

xt: S

üdam

erik

a 11

.15

-6.6

2 1.

58

0.99

0.

30

-

D4-

3b-2

/5

Kul

ture

ller K

onte

xt: A

ustra

lien

39.7

2 27

.66

-0.1

9 0.

98

0.38

-

D4-

3b-3

/5

Kul

ture

ller K

onte

xt: E

urop

a 52

.26

42.7

1 -0

.74

1.03

0.

28

-

D4-

3b-4

/5

Kul

ture

ller K

onte

xt: A

sien

70

.73

64.8

8 -1

.60

0.95

0.

42

-

D4-

3b-5

/5

Kul

ture

ller K

onte

xt: A

frik

a 72

.13

66.5

6 -1

.67

0.97

0.

32

-

D3-

4a

Cho

rpar

titur

lese

n 5.

23

- 2.

42

0.99

0.

23

0.52

D3-

4b

Cho

rpar

titur

lese

n (m

it H

B)

39.0

2 18

.69

-0.1

6 1.

02

0.40

-

D3-

9a

Kla

vier

schü

ler T

ipps

geb

en: f

orte

- pi

ano

11.5

4, 1

9.23

-

-0.0

2, 0

.34

1.03

0.

52

-

D3-

9c

Kla

vier

schü

ler 3

Tip

ps g

eben

: Alle

gro,

acc

., cr

esc.

36

.59,

6.9

7 -

-0.3

7, 1

.51

1.08

0.

35

-

D2-

7b

2 K

lavi

ersc

hüle

r: B

eeth

oven

(Beg

ründ

ung

Urte

il)

13.2

4 -

1.37

1.

00

0.29

-

D2-

7b

2 K

lavi

ersc

hüle

r: B

ach

(Beg

ründ

ung

Urte

il)

30.6

6 -

0.24

0.

97

0.45

-

D2-

7c

Schü

lerz

eitu

ng -

Ban

dwet

tbew

erb

28.9

2, 3

5.89

, 7.

32

- -1

.36,

-0.4

4,

1.44

1.

08

0.53

-

D1-

7 Fo

rm: C

hopi

n, A

- A

- B

- A

47

.31

29.7

5 -0

.33

1.00

0.

39

-

Glo

bale

r Mod

ellte

st: C

ress

ie-R

ead:

p =

0.0

6, �

2 : p =

0.1

8; T

estre

liabi

lität

: EAP

/PV

= 0

.57,

Cro

nbac

hs A

lpha

= 0

.56

P i ,

P IK

, PZK

= k

lass

isch

e Sc

hwie

rigke

itsin

dize

s; It

emsc

hwie

rigke

it (R

asch

) = It

empa

ram

eter

� (d

icho

tom

e Ite

ms)

, Thu

rsto

nian

thre

shol

ds (m

ehrk

ateg

orie

lle

Item

s); M

NSQ

= w

eigh

ted

mea

n sq

uare

(Ite

mfit

Con

Que

st); r

it = T

renn

schä

rfe;

SK

= S

elek

tions

kenn

wer

t (Tr

enns

chär

fe)

279

Tab.

63:

Sel

ektie

rte It

ems T

esth

eft 8

Item

-ID

K

urzb

esch

reib

ung

P i /P

IK

P ZK

Item

schw

ieri

g-ke

it (R

asch

) M

NSQ

r it

SK

D1-

20-2

/2

Wirk

ung:

„au

tum

n le

aves

“ B

andv

ersi

onen

73

.14

- -1

.79

0.90

0.

50

D1-

8 Fo

rm: 3

Abs

chni

tte (H

albe

Tre

ppe)

88

.84

85.1

2 -3

.05

0.81

0.

50

D2-

1-2

Kor

rekt

urau

fgab

e (H

albe

Tre

ppe)

30

.99

- 0.

37

1.01

0.

41

D2-

1-3

Kor

rekt

urau

fgab

e (H

albe

Tre

ppe)

6.

20

- 2.

49

1.07

0.

20

0.41

D2-

1-4

Kor

rekt

urau

fgab

e (H

albe

Tre

ppe)

26

.03

- 0.

65

0.90

0.

53

D2-

1-5

Kor

rekt

urau

fgab

e (H

albe

Tre

ppe)

23

.97

- 0.

78

1.00

0.

45

D2-

1-6

Kor

rekt

urau

fgab

e (H

albe

Tre

ppe)

9.

50

- 2.

00

1.01

0.

34

D2-

8a

Ges

angs

schü

ler T

ipps

geb

en ("

Kei

n sc

höne

r La

nd")

49

.37,

32

.07,

6.7

5

-2.6

9,

-0.0

9, 1

.84

1.08

0.

50

D2-

8b

Ges

angs

schü

ler T

ipps

geb

en ("

Der

Mon

d is

t auf

-ge

gang

en")

49

.59,

32

.64,

7.0

2

-2.8

3,

-0.1

3, 1

.81

1.02

0.

55

D2-

4a

Dyn

amik

: seh

r lau

t. se

hr le

ise

92.5

6 90

.08

-3.5

5 0.

85

0.35

D2-

4b

Dyn

amik

+ F

acht

erm

inol

ogie

ff. p

p 32

.23

18.6

8 0.

30

1.09

0.

38

D2-

4c

Tem

po: s

chne

ll 61

.16

48.2

1 -1

.14

1.08

0.

35

D2-

4d

Tem

po +

Fac

hter

min

olog

ie: A

llegr

o 15

.70

-1.1

6 1.

37

1.01

0.

34

D2-

4e

Ron

do (n

ur E

rklä

rung

, ohn

e Fa

chte

rm.)

59.0

9 45

.45

-1.0

3 0.

92

0.53

D2-

4f

Ron

do (M

C: n

ur F

acht

erm

.) 26

.86

9.83

0.

60

0.95

0.

46

D3-

5 V

iolin

- und

Bas

ssch

lüss

el in

Par

titur

42

.98

- -0

.25

0.95

0.

50

D2-

4j

Vio

lin- u

nd B

asss

chlü

ssel

erk

läre

n 39

.26

- -0

.06

1.02

0.

46

280

Item

-ID

K

urzb

esch

reib

ung

P i /P

IK

P ZK

Item

schw

ierig

-ke

it (R

asch

) M

NSQ

r it

SK

D2-

4g

Term

inol

ogie

: for

tissi

mo/

pian

issi

mo

erkl

ären

14

.05

- 1.

52

1.02

0.

39

D2-

4h

Term

inol

ogie

: Alle

gro

erkl

ären

7.

85

- 2.

23

1.07

0.

17

0.32

D2-

4i

Term

inol

ogie

: Ron

do e

rklä

ren

34.3

0 -

0.19

0.

91

0.54

D1-

18d

Mel

odie

Wie

dere

rken

nen

(Moz

art-M

enue

tt)

49.1

7 -

-0.5

4 1.

00

0.46

D3-

6a

Alle

mei

ne E

ntch

en z

u N

oten

bild

zuo

rdne

n 53

.31

37.7

5 -0

.74

1.08

0.

38

D3-

6b

Bac

h Pr

älud

ium

zu

Not

enbi

ld z

uord

nen

39.6

7 19

.56

-0.0

8 1.

19

0.26

D1-

9 Fo

rm: E

inle

itung

en e

rken

nen

29.7

5 -

0.44

1.

10

0.34

Glo

bale

r Mod

ellte

st: C

ress

ie-R

ead:

p =

0.1

4, �

2 : p =

0.1

8; T

estr

elia

bilit

ät: E

AP/P

V =

0.8

2, C

ronb

achs

Alp

ha =

0.7

9

P i ,

P IK

, PZK

= k

lass

isch

e Sc

hwie

rigke

itsin

dize

s; It

emsc

hwie

rigke

it (R

asch

) = It

empa

ram

eter

� (d

icho

tom

e Ite

ms)

, Thu

rsto

nian

thre

shol

ds (m

ehrk

ateg

orie

lle

Item

s); M

NSQ

= w

eigh

ted

mea

n sq

uare

(Ite

mfit

Con

Que

st); r

it = T

renn

schä

rfe;

SK

= S

elek

tions

kenn

wer

t (Tr

enns

chär

fe)

281

Tab.

64:

Sel

ektie

rte It

ems T

esth

eft 9

Item

-ID

K

urzb

esch

reib

ung

P i /P

IK

P ZK

Item

schw

ieri

g-ke

it (R

asch

) M

NSQ

r it

SK

D1-

17a

Form

erke

nnun

g: M

ozar

t-Ron

do (A

-B-A

-C-A

) 49

.40

- -0

.37

1.04

0.

35

D4-

5a-1

/4

Ver

wen

dung

: Kau

fhau

s 63

.75

56.5

0 -1

.02

1.07

0.

30

D4-

5a-2

/4

Ver

wen

dung

: Beg

ründ

ung

Kau

fhau

s 24

.70

- 0.

83

1.03

0.

28

D1-

13

Dur

/Mol

l – W

isse

nsfr

age

13.1

5, 7

.97

0.

72, 1

.35

1.06

0.

44

D1-

11-1

/2

Ges

talt,

Kla

vier

aufg

abe:

Sat

ie

29.0

8 -

0.58

1.

03

0.36

D1-

11-2

/2

Ges

talt,

Kla

vier

aufg

abe:

Bro

wn

52.9

9 -

-0.5

3 1.

04

0.32

D1-

19a

Inst

rum

ente

erk

enne

n: B

ands

37

.85

25.4

2 0.

15

0.97

0.

47

D4-

1c-2

äl

ter -

jüng

er: M

ozar

t – G

rego

riani

k 36

.25

- 0.

23

1.00

0.

32

D4-

1e-2

-1

Anl

ässe

: kön

iglic

hes F

est 1

600

90.4

4 88

.05

-2.8

3 0.

99

0.22

0.

34

D4-

4a-1

/4

Gen

re: H

ip-H

op

89.6

4 87

.91

-2.7

4 0.

99

0.30

D4-

4a-2

/4

Gen

re: H

ard

Roc

k 27

.09

14.9

4 0.

69

1.03

0.

33

D4-

4a-3

/4

Gen

re: D

ance

54

.58

47.0

1 -0

.60

0.97

0.

42

D4-

4a-4

/4

Gen

re: J

azz

58.5

7 51

.67

-0.7

8 0.

94

0.51

D4-

4b-1

/3

Eher

Hip

-Hop

ode

r Hea

vy-M

etal

? 19

.52

- 1.

15

0.99

0.

32

D4-

4b-2

/3

Eher

Jazz

ode

r Roc

k?

31.8

7 -

0.44

0.

86

0.49

D4-

4b-3

/3

Eher

Hip

-Hop

ode

r (in

disc

he) B

hang

ra?

15.1

4 -

1.48

1.

01

0.19

0.

27

D1-

10a

Takt

erke

nnun

g: 1

= 3

/4. 2

= 4

/4

11.9

5, 2

2.31

0.12

, 0.4

9 0.

99

0.53

282

Item

-ID

K

urzb

esch

reib

ung

P i /P

IK

P ZK

Item

schw

ierig

-ke

it (R

asch

) M

NSQ

r it

SK

D1-

13a

Dur

/Mol

l – B

and

17.5

3 -

1.29

0.

95

0.44

D1-

13b

Dur

/Mol

l – M

ozar

t 27

.09

- 0.

69

1.06

0.

27

Glo

bale

r Mod

ellte

st: C

ress

ie-R

ead:

p =

0.1

0, �

2 : p =

0.0

9; T

estr

elia

bilit

ät: E

AP/P

V =

0.6

3, C

ronb

achs

Alp

ha =

0.6

4

P i ,

P IK

, PZK

= k

lass

isch

e Sc

hwie

rigke

itsin

dize

s; It

emsc

hwie

rigke

it (R

asch

) = It

empa

ram

eter

� (d

icho

tom

e Ite

ms)

, Thu

rsto

nian

thre

shol

ds (m

ehrk

ateg

orie

lle

Item

s); M

NSQ

= w

eigh

ted

mea

n sq

uare

(Ite

mfit

Con

Que

st); r

it = T

renn

schä

rfe;

SK

= S

elek

tions

kenn

wer

t (Tr

enns

chär

fe)

283

Anhang B: Lehrerrückmeldebogen

284

KOMUS-Aufgabenentwicklung: Dokumentationsbogen Testheft Nr. ___

Datum

Schule

Klasse Besonderheit (z. B. Bläserklasse):

Lehrer

Aufgabe Bearbeitungszeit Bemerkungen

------------- Gesamtbearbeitungszeit

Allgemeine Bemerkungen/Sonstiges

285

Anhang C: Schülerrückmeldebogen

Es handelt sich bei dem im Folgenden dargestellten Rückmeldebogen um die Endfassung des

Schülerrückmeldebogens. Die Items zur Erfassung der musikpraktischen Tätigkeiten und der

nationalen Herkunft der Schüler wurden dabei über die neun Testhefte hinweg mehrfach ü-

berarbeitet und ergänzt. Der Rückmeldeteil zu den Testaufgaben war hingegen in allen Test-

heften von Anfang an gleich.

286

Zum Schluss noch ein paar kurze Fragen:

Spielst Du zurzeit ein Instrument oder singst (z. B. im Chor oder in einer Band)?

� Nein

� Ja, und zwar: �__________________________________________________

Seit wie vielen Jahren spielst du diese(s) Instrument(e) bzw. singst du?

Ich spiele/singe seit ungefähr Jahren.

Hast Du früher gesungen oder ein Instrument gespielt, das Du inzwischen aber aufgehört hast?

� Nein

� Ja, und zwar:�__________________________________________________

Wie viele Jahre hattest du dieses Instrument gespielt bzw. hast du gesungen?

Ich habe ungefähr Jahre gespielt/gesungen.

Bist Du ein Junge oder ein Mädchen?

� Junge � Mädchen

Wer aus Deiner Familie ist in Deutschland geboren? Mache bitte in jeder Zeile ein Kreuz! Ja Nein

Mein Vater ist in Deutschland geboren. ……………………………� �

Meine Mutter ist in Deutschland geboren. …………………………� �

Ich bin in Deutschland geboren. …………………………………….� �

287

Nun möchten wir noch gern Deine Meinung zu den Aufgaben wissen:

Gab es Fragen, die zu schwer für Dich waren? Wenn ja, welche?

Nein �

Ja � und zwar: �______________________________________________

Gibt es weitere Sachen, die Dir aufgefallen sind? Bitte notiere diese kurz.

�____________________________________________________________

_______________________________________________________________

_______________________________________________________________

_______________________________________________________________

_______________________________________________________________

Vielen Dank für deine Unterstützung!

288

Erklärung

Hiermit erkläre ich, dass die vorliegende Arbeit ohne unerlaubte Hilfe angefertigt wur-

de. Es wurden keine anderen als die angegebenen Quellen und Hilfsmittel benutzt. Au-

ßerdem wurden die den benutzten Werken wörtlich oder inhaltlich entnommenen Stel-

len als solche kenntlich gemacht.

(Jens Knigge)

15. März 2010