Modellbasierte Entwicklung und Analyse von Testaufgaben zur Erfassung der Kompetenz „Musik wahrnehmen und
kontextualisieren“
Dissertation
zur Erlangung der Doktorwürde
durch den
Promotionsausschuss Dr. phil.
der Universität Bremen
vorgelegt von
Jens Knigge
Bremen, den 15.03.2010
II
Teile dieser Arbeit wurden bereits veröffentlicht unter:
Jordan, A.-K. & Knigge, J. (2010). The development of competency models: An IRT-based approach to competency assessment in general music education. In T. S. Brophy (Hrsg.), The Practice of As-sessment in Music Education: Frameworks, Models, and Designs. Proceedings of the 2009 Florida Symposium on Assessment in Music Education (S. 67-86). Chicago: GIA.
Knigge, J. & Lehmann-Wermser, A. (2008). Bildungsstandards für das Fach Musik - Eine Zwischen-bilanz. Zeitschrift für Kritische Musikpädagogik, Sonderedition: Bildungsstandards und Kompe-tenzmodelle für das Fach Musik?, 60-98. Verfügbar unter: http://www.zfkm.org/sonder08-knigge-lehmannwermser.pdf [4.3.2010].
Knigge, J. & Lehmann-Wermser, A. (2009). Kompetenzorientierung im Musikunterricht. Musik & Unterricht (94), 56-60.
III
Danksagung
Verschiedene Personen haben zum Gelingen dieser Arbeit beigetragen. Für zahlreiche moti-
vierende Gespräche, wertvolle Hinweise und kritische Kommentare möchte ich mich insbe-
sondere bei Andreas Lehmann-Wermser, Andreas C. Lehmann und den Kolleginnen und Kol-
legen des Bremer Instituts für Musikwissenschaft und Musikpädagogik bedanken. Weiterhin
zu danken ist den Kooperationslehrern des KoMus-Projekts – und vor allem auch deren Schü-
lerinnen und Schülern –, ohne deren großes Engagement diese Arbeit nicht hätte entstehen
können. Einen besonderen Dank möchte ich Anne Niessen und Klaudia Schulte aussprechen,
für unermüdliche Diskussionen, unzählige Korrekturrunden und viel freundschaftliche Unter-
stützung.
Bremen, im März 2010,
Jens Knigge
IV
Inhaltsverzeichnis
Danksagung.................................................................................................................................... III
Inhaltsverzeichnis...........................................................................................................................IV
Abbildungsverzeichnis ................................................................................................................. VII
Tabellenverzeichnis........................................................................................................................IX
Abkürzungsverzeichnis................................................................................................................ XII
1 Einleitung ...............................................................................................................1
A. HINTERGRUND UND THEORETISCHE GRUNDLAGEN ..............................................6
2 Bildungsstandards und Kompetenzorientierung...............................................6
2.1 Zentrale Konzepte und Begriffe............................................................................................. 6 2.1.1 Bildungsstandards ............................................................................................................................ 7 2.1.2 Kompetenzbegriff ............................................................................................................................ 9 2.1.3 Kompetenzmodelle ........................................................................................................................ 13
Exkurs: Kompetenzorientierung vs. Lernzieloperationalisierung ............................................ 16
2.2 Bildungsstandards, Kompetenzorientierung und das Fach Musik .................................. 19 2.2.1 Curriculare Ebene .......................................................................................................................... 19 2.2.2 Fachwissenschaftlicher Diskurs ..................................................................................................... 23 2.2.3 Das KoMus-Projekt........................................................................................................................ 28
3 Aufgaben als zentrales Moment der Kompetenzerfassung.............................32
3.1 Testaufgaben: Gütekriterien, Komponenten, Formate ..................................................... 33
3.2 Tests und Aufgaben zur Erfassung musikalischer Kompetenz: Stand der Forschung.. 37 3.2.1 Musiktests ...................................................................................................................................... 39 3.2.2 Schulleistungsstudien..................................................................................................................... 42
B. EMPIRISCHE UNTERSUCHUNGEN..........................................................................44
4 Modellbasierte Aufgabenentwicklung ..............................................................44
4.1 Das theoretische Kompetenzmodell „Musik wahrnehmen und kontextualisieren“ ....... 45
4.2 Testkonstrukt: Vom Modell zu den Testaufgaben............................................................. 48 4.2.1 Curriculare Analysen ..................................................................................................................... 50 4.2.2 Musikpsychologische Forschung................................................................................................... 52
4.3 Design und Prozess der Aufgabenentwicklung .................................................................. 56
V
5 Methoden..............................................................................................................63
5.1 Testtheoretischer Hintergrund ............................................................................................ 63 5.1.1 Klassische und Probabilistische Testtheorie .................................................................................. 64 5.1.2 Verwendete probabilistische Testmodelle: dichotomes und ordinales Rasch-Modell................... 67
5.2 Analyseverfahren .................................................................................................................. 73 5.2.1 Itemschwierigkeit........................................................................................................................... 73 5.2.2 Trennschärfe .................................................................................................................................. 78 5.2.3 Distraktorenanalyse........................................................................................................................ 79 5.2.4 Itemfit............................................................................................................................................. 80 5.2.5 Globaler Modelltest: Geltung des Rasch-Modells ......................................................................... 83 5.2.6 Differential Item Functioning (DIF) .............................................................................................. 85
5.3 Durchführung der Erhebungen ........................................................................................... 88 5.3.1 Stichprobe ...................................................................................................................................... 88 5.3.2 Testdurchführung ........................................................................................................................... 90
6 Itemanalysen und -selektion...............................................................................92
6.1 Statistische Überprüfung der Items und Tests ................................................................... 92 6.1.1 Kriterien der Itemselektion ............................................................................................................ 93 6.1.2 Exemplarische Darstellung des Selektionsprozesses ..................................................................... 99 6.1.3 Itemselektion: Ergebnisse und Zusammenfassung ...................................................................... 119
6.2 Inhaltliche Itemanalysen aus fachwissenschaftlicher Perspektive ................................. 124 6.2.1 Gute Multiple-Choice-Items: Eine Frage der Distraktoren.......................................................... 125 6.2.2 Differential Item Functioning: ‚unfaire’ Items ............................................................................ 136 6.2.3 Analyse und Interpretation von Itemschwierigkeiten .................................................................. 140
7 Weiterführende Itemanalysen: Identifikation
schwierigkeitsgenerierender Aufgabenmerkmale .........................................153
7.1 Vertiefende Analysen der Items zur Rhythmuswahrnehmung ...................................... 157
7.2 Vertiefende Analysen der Items zur Formwahrnehmung............................................... 180
7.3 Wissensbasierte Aufgabenmerkmale................................................................................. 191
7.4 Merkmalsebene ‚Aufgabe’ ................................................................................................. 200 7.4.1 Aufgabenmerkmal ‚Itemformat’ .................................................................................................. 200 7.4.2 Aufgabenmerkmal ‚sprachliche Anforderungen’ ........................................................................ 203
VI
7.5 Zusammenfassung und Systematisierung der Aufgabenmerkmale ............................... 205 7.5.1 Systematisierung der Merkmale................................................................................................... 206 7.5.2 Ausprägung und Kodierung der Merkmale.................................................................................. 208 7.5.3 Kodierung einzelner Beispielitems .............................................................................................. 214
7.6 Empirische Analyse der Zusammenhänge von Aufgabenmerkmalen und -schwierigkeiten .................................................................................................................... 219
7.6.1 Methodisches Vorgehen............................................................................................................... 219 7.6.2 Datengrundlage ............................................................................................................................ 221 7.6.3 Durchführung der Regressionsanalysen....................................................................................... 222 7.6.4 Ergebnisse .................................................................................................................................... 228
8 Diskussion und Zusammenfassung .................................................................237
8.1 Zusammenfassung der Ergebnisse .................................................................................... 237
8.2 Grenzen der durchgeführten Analysemethoden und weiterführende methodische Überlegungen....................................................................................................................... 239
8.3 Testaufgaben zur Erfassung der Hörwahrnehmung: Technische Herausforderungen und mögliche Optimierungen.......................................................... 243
8.4 Curriculare Validität der entwickelten Aufgaben ........................................................... 245
8.5 Ausblick................................................................................................................................ 246
Literaturverzeichnis...............................................................................................250
Verzeichnis der verwendeten Curricula ..............................................................265
Anhang A: Itemkennwerte .......................................................................................................... 268
Anhang B: Lehrerrückmeldebogen ............................................................................................ 283
Anhang C: Schülerrückmeldebogen........................................................................................... 285
VII
Abbildungsverzeichnis
Abb. 1: Theoretisches Strukturmodell der DESI-Studie (in Anlehnung an: Beck & Klieme, 2007, S. 15 und Nold & Rossa, 2007). ............................................................. 15
Abb. 2: Drei-Phasen-Design des KoMus-Projekts...................................................................... 29 Abb. 3: Komponenten einer Testaufgabe am Beispiel eines Multiple-Choice-Items................. 35 Abb. 4: Theoretisches Kompetenzmodell „Musik wahrnehmen und kontextualisieren“
(basierend auf: Niessen et al., 2008, S. 20) .................................................................... 46 Abb. 5: Zirkulärer Aufgabenentwicklungsprozess...................................................................... 59 Abb. 6: Phasen der Aufgabenentwicklung.................................................................................. 61 Abb. 7: Zusammenhang von Personenmerkmal und Testverhalten (in Anlehnung an:
Rost, 2004, S. 21) ........................................................................................................... 65 Abb. 8: Latente Variable und manifeste Merkmalsausprägungen .............................................. 65 Abb. 9: IC-Funktion des dichotomen Rasch-Modells für ein Item mit der
Schwierigkeit �i = 0 (entnommen aus: Rost, 2004, S. 120) ........................................... 68 Abb. 10: Lösungswahrscheinlichkeit für eine Person mit � = 1 bei einem Item mit � = 0........... 69 Abb. 11: Itemfunktionen von drei Items mit den Parametern �1 = 0, �2 = 1 und �3 = 2
(entnommen aus: Rost, 2004, S. 120) ............................................................................ 70 Abb. 12: Kategorienfunktionen eines dreikategoriellen Items (entnommen aus: Rost,
2004, S. 203) .................................................................................................................. 71 Abb. 13: Beispiel einer Wright map.............................................................................................. 75 Abb. 14: Beobachtetes Antwortverhalten und theoretische IC-Funktion eines Items mit
gutem Itemfit .................................................................................................................. 81 Abb. 15: Beobachtetes Antwortverhalten und theoretische IC-Funktion eines Items mit
schlechtem Itemfit .......................................................................................................... 82 Abb. 16: Beispiel für eine grafische Kontrolle auf DIF; Vergleich der
Itemschwierigkeiten für Jungen (J) und Mädchen (M).................................................. 86 Abb. 17: Beispiel-Item mit starkem DIF....................................................................................... 87 Abb. 18: Beispiel-Item ohne DIF.................................................................................................. 87 Abb. 19: Grafische Darstellung von Itemfit und Itemschwierigkeit für alle selektierten
Items ............................................................................................................................. 121 Abb. 20: Item D3-6a (Testheft 8)................................................................................................ 126 Abb. 21: Item D1-1a (Testheft 1)................................................................................................ 127 Abb. 22: Item D3-1e (Testheft 2)................................................................................................ 129 Abb. 23: Item D3-1e (Testheft D3)............................................................................................. 129 Abb. 24: Item D4-1e-1 (Testheft 5) ............................................................................................ 131 Abb. 25: Item D4-1f-3 (Testheft 5)............................................................................................. 132 Abb. 26: Item D3-7c (Testheft D3)............................................................................................. 134 Abb. 27: Item D4-3b-3/5 (Testheft 7) ......................................................................................... 137 Abb. 28: IC-Funktionen des Items D4-3b-3/5 für Mädchen (blau) und Jungen (grün) .............. 137 Abb. 29: Item D2-7a (Testheft 7)................................................................................................ 138
VIII
Abb. 30: IC-Funktionen des Items D2-7a für Mädchen (blau) und Jungen (grün)..................... 139 Abb. 31: Item D3-7d (Testheft 3)................................................................................................ 141 Abb. 32: Items D3-10-1 und D3-10-2 (Testheft 4) ..................................................................... 142 Abb. 33: Item D3-1b (Testheft D3)............................................................................................. 146 Abb. 34: Item D3-1c (Testheft D3)............................................................................................. 147 Abb. 35: Item D1-2a (Testheft D1)............................................................................................. 149 Abb. 36: Item D1-2b (Testheft D1)............................................................................................. 150 Abb. 37: Items D1-14a-2 und D1-14a-1 (Testheft 2).................................................................. 159 Abb. 38: Items D1-14a-3 und D1-14b (Testheft 3)..................................................................... 161 Abb. 39: Item D1-14c (Testheft 3).............................................................................................. 163 Abb. 40: Items D3-7b und D3-7c (Testheft D3) ......................................................................... 167 Abb. 41: Items D3-7a und D3-7f (Testheft 2)............................................................................. 169 Abb. 42: Items D3-7a und D3-7g (Testheft 2) ............................................................................ 170 Abb. 43: Items D3-7a, D3-7d und D3-7e aus Testheft D3 ......................................................... 172 Abb. 44: Mögliche figurale Darstellung des Rhythmus von Item D3-7a (Testheft D3)............. 177 Abb. 45: Items D1-3a und D1-3b (Testheft 6) ............................................................................ 183 Abb. 46: Items D1-3a und D1-8 (Testheft D1) ........................................................................... 185 Abb. 47: Items D1-2a und D1-3b (Testheft D1) ......................................................................... 187 Abb. 48: Vergleich der A-Teile von Item D1-2a (oben) und D1-3b (unten) .............................. 188 Abb. 49: Item D2-4e (Testheft 8)................................................................................................ 189 Abb. 50: Item D2-4f (Testheft 8) ................................................................................................ 189 Abb. 51: Items D2-1c-1 und D2-1c-2 (Testheft 6)...................................................................... 193 Abb. 52 Item D3-4a (Testheft 7)................................................................................................ 195 Abb. 53: Item D3-5 (Testheft 8).................................................................................................. 195 Abb. 54: Item D1-15c-1 (Testheft 3) .......................................................................................... 196 Abb. 55: Item D1-15g (Testheft 3).............................................................................................. 196 Abb. 56: Item mit hohen sprachlichen Anforderungen............................................................... 203 Abb. 57: Item mit niedrigen sprachlichen Anforderungen ......................................................... 203 Abb. 58: Prozessmodell der Bearbeitung einer Mathematik-Aufgabe (nach: Cohors-
Fresenborg et al., 2004, S. 121).................................................................................... 204 Abb. 59: Systematisierung der schwierigkeitsgenerierenden Aufgabenmerkmale..................... 208 Abb. 60: Beispielitem 1 (Item D2-4f, Testheft 8) ....................................................................... 214 Abb. 61: Beispielitem 2 (Item D3-9a,Testheft 7)........................................................................ 216 Abb. 62: Beispielitem 3 (Item D1-5a, Testheft 6)....................................................................... 217
IX
Tabellenverzeichnis
Tab. 1: Verwendete Item-Formate und -Typen (in Anlehnung an: Granzer et al., 2008, S. 20 und Hartig & Jude, 2007, S. 30) ........................................................................... 36
Tab. 2: Für die Aufgabenentwicklung berücksichtigte Bereiche und Inhalte der Hörwahrnehmung in bundesdeutschen Curricula .......................................................... 52
Tab. 3: Entwicklungsstand musikalischer Wahrnehmungsfähigkeit bei Kindern im Alter von 12 Jahren (in Anlehnung an: Bähr, 2001, S. 35 ff.) ....................................... 53
Tab. 4: Logitdifferenzen und Lösungswahrscheinlichkeiten im Rasch-Modell (in Anlehnung an: Wilson, 2005, S. 98) .............................................................................. 70
Tab. 5: Beispiel einer Distraktorenanalyse................................................................................. 80 Tab. 6: Stichprobengröße und Geschlechtsverhältnis nach Schulart für die realisierte
Stichprobe....................................................................................................................... 89 Tab. 7: Zusammenfassung der psychometrischen Kriterien der Itemselektion.......................... 98 Tab. 8: Itemselektion Testheft 7 – Analyse 1 (alle Items des Testhefts).................................. 104 Tab. 9: Itemselektion Testheft 7 – Analyse 2 (Analyse ohne die ausgeschlossenen
Items aus Analyse 1 und mit zusammengefasstem Richtig-Falsch-Item; erster Modelltest) ................................................................................................................... 106
Tab. 10: Itemselektion Testheft 7 – Analyse 3 (zweiter Modelltest und DIF-Analyse) ............ 107 Tab. 11: Itemselektion Testheft 7 – Analyse 4 (abschließende Modelltestung) ........................ 108 Tab. 12: Itemselektion Testheft 4 – Analyse 1 (alle Items des Testhefts).................................. 114 Tab. 13: Itemselektion Testheft 4 – Analyse 2 (Analyse ohne die ausgeschlossenen
Items aus Analyse 1; erster Modelltest) ....................................................................... 116 Tab. 14: Itemselektion Testheft 4 – Analyse 3 (zweiter Modelltest und DIF-Analyse) ............ 117 Tab. 15: Zusammenfassung der wichtigsten psychometrischen Kennwerte der
selektierten Items.......................................................................................................... 123 Tab. 16: Überblick über Itemformat, Hörbeispiel-Genres und Verteilung auf die
theoretischen Kompetenzdimensionen/-niveaus der selektierten Items....................... 123 Tab. 17: Distraktorenanalyse Item D3-6a (Testheft 8)............................................................... 126 Tab. 18: Distraktorenanalyse Item D1-1a (Testheft 1)............................................................... 128 Tab. 19: Distraktorenanalyse Item D3-1e (Testheft 2)............................................................... 130 Tab. 20: Distraktorenanalyse Item D3-1e (Testheft D3)............................................................ 130 Tab. 21: Distraktorenanalyse Item D4-1e-1 (Testheft 5) ........................................................... 132 Tab. 22: Distraktorenanalyse Item D4-1f-3 (Testheft 5) ............................................................ 133 Tab. 23: Distraktorenanalyse Item D4-1f-3 (Testheft D4) ......................................................... 134 Tab. 24: Distraktorenanalyse Item D3-7c (Testheft D3)............................................................ 135 Tab. 25: Schülerantworten Item D3-10-2 (Testheft 4) .............................................................. 143 Tab. 26: Auswahl der Items zur Rhythmuswahrnehmung ......................................................... 158 Tab. 27: Vergleich der Itemschwierigkeiten von Item D1-14a-1 und D1-14a-2 (Test-
heft 2) ........................................................................................................................... 160
X
Tab. 28: Vergleich der Itemschwierigkeiten von Item D1-14a-3 und D1-14b (Testheft 3) ................................................................................................................... 162
Tab. 29: Vergleich der Itemschwierigkeiten von Item D1-14a, D1-14b und D1-14c (Testheft 3) ................................................................................................................... 164
Tab. 30: Vergleich der Itemschwierigkeiten von Item D3-7b und D3-7c (Testheft D3) ........... 168 Tab. 31: Vergleich der Itemschwierigkeiten von Item D3-7a und D3-7f (Testheft 2)............... 169 Tab. 32: Vergleich der Itemschwierigkeiten von Item D3-7a und D3-7g (Testheft 2) .............. 171 Tab. 33: Vergleich der Itemschwierigkeiten der Items D3-7a, D3-7d und D3-7e
(Testheft D3) ................................................................................................................ 174 Tab. 34: Kodierung und Deskriptoren des Aufgabenmerkmals ‚Anwendung von
Notationskenntnissen’ .................................................................................................. 179 Tab. 35: Items zur Formwahrnehmung ...................................................................................... 181 Tab. 36: Vergleich der Itemschwierigkeiten der Items D1-3a und D1-3b (Testheft 6) ............. 183 Tab. 37: Auswahl der Items zur Formwahrnehmung ................................................................. 185 Tab. 38: Vergleich der Itemschwierigkeiten der Items D1-3a und D1-8 (Testheft D1) ............. 186 Tab. 39: Vergleich der Itemschwierigkeiten der Items D1-2a und D1-3b (Testheft D1) .......... 188 Tab. 40: Vergleich der Itemschwierigkeiten der Items D2-4e und D2-4f (Testheft 8) .............. 190 Tab. 41: Vergleich der Itemschwierigkeiten der Items D2-1c-1 und D2-1c-2
(Testheft 6) ................................................................................................................... 194 Tab. 42: Vergleich der Itemschwierigkeiten der Items D1-15c-1 und D1-15g
(Testheft 3) ................................................................................................................... 198 Tab. 43: Verteilung der Item-Formate auf die einzelnen Testhefte ........................................... 201 Tab. 44: Punktbiseriale Korrelation von Itemformat und Itemschwierigkeit............................. 201 Tab. 45: Ausprägungen des Merkmals ‚formalsprachliche Anforderungen’ ............................. 205 Tab. 46: Ausprägungen und Deskriptoren der Aufgabenmerkmale M1-3 (Ebene
‚Aufgabe’) .................................................................................................................... 209 Tab. 47: Ausprägungen und Deskriptoren der Aufgabenmerkmale M4-5 (Ebene
‚Wahrnehmung / Musikalisches Gedächtnis’) ............................................................. 211 Tab. 48: Ausprägungen und Deskriptoren der Aufgabenmerkmale M6-10 (Ebene
‚Fachwissen’) ............................................................................................................... 213 Tab. 49: Kodierung von Beispielitem 1...................................................................................... 215 Tab. 50: Kodierung von Beispielitem 2...................................................................................... 216 Tab. 51: Kodierung von Beispielitem 3...................................................................................... 218 Tab. 52: Ergebnisse der multiplen Regressionsanalyse zur Vorhersage der
Itemschwierigkeiten von Testheft 4 durch Aufgabenmerkmale (Nk = 23 Items) ........ 225 Tab. 53: Ergebnisse der multiplen Regressionsanalyse zur Vorhersage der
Itemschwierigkeiten von Testheft 5 durch Aufgabenmerkmale (Nk = 29 Items) ........ 226 Tab. 54: Ergebnisse der multiplen Regressionsanalyse zur Vorhersage der
Itemschwierigkeiten von Testheft 6 durch Aufgabenmerkmale (Nk = 24 Items) ........ 227 Tab. 55: Ergebnisse der multiplen Regressionsanalyse zur Vorhersage der
Itemschwierigkeiten von Testheft 8 durch Aufgabenmerkmale (Nk = 23 Items) ........ 228 Tab. 56: Selektierte Items Testheft 1.......................................................................................... 269
XI
Tab. 57: Selektierte Items Testheft 2.......................................................................................... 270 Tab. 58: Selektierte Items Testheft 3.......................................................................................... 271 Tab. 59: Selektierte Items Testheft 4.......................................................................................... 272 Tab. 60: Selektierte Items Testheft 5.......................................................................................... 274 Tab. 61: Selektierte Items Testheft 6.......................................................................................... 276 Tab. 62: Selektierte Items Testheft 7.......................................................................................... 278 Tab. 63: Selektierte Items Testheft 8.......................................................................................... 279 Tab. 64: Selektierte Items Testheft 9.......................................................................................... 281
XII
Abkürzungsverzeichnis
DESI Deutsch Englisch Schülerleistungen International
DIF Differential Item Functioning
ICC Item Characteristic Curve (IC-Funktion)
IRT Item-Response-Theorie
KoMus Kompetenzmodell für das Fach Musik
KTT Klassische Testtheorie
MC Multiple-Choice
MNSQ weighted mean square
PISA Programme for International Student Assessment
PTT Probabilistische Testtheorie
TH Testheft
TIMSS Trends in International Mathematics and Science Study
1
1 Einleitung
Schulleistungsmessungen und insbesondere die Erfassung und Modellierung von
Kompetenzen sind zentrale Inhalte des bildungspolitischen und erziehungswissen-
schaftlichen Diskurses der letzten Jahre (z. B. Klieme, 2007; Klieme & Hartig,
2007; Weinert, 2001b). Besondere Bedeutung kommt in diesem Zusammenhang
dem Thema ‚Aufgaben’ zu (z. B. Thonhauser, 2008a): Aufgaben sollen u. a.
Kompetenzanforderungen illustrieren, Kompetenzaufbau und -förderung unter-
stützen und nicht zuletzt die Kompetenzen von Schülerinnen und Schülern1 einer
empirischen Überprüfung zugänglich machen.
Die große Relevanz der Themen Schulleistung und Kompetenz ist auch innerhalb
der verschiedenen fachdidaktischen Diskurse auszumachen (z. B. Bayrhuber,
2007b) und – wenngleich in deutlich geringerem Maße – auch innerhalb der Mu-
sikpädagogik (z. B. Lütgert, 2001; Schäfer-Lembeck, 2008). Betrachtet man den
musikpädagogischen Diskurs näher, so zeigt sich, dass hier bislang nur sehr weni-
ge empirische Arbeiten zu dem betreffenden Themenfeld vorgelegt wurden. So
sind z. B. kaum Testinstrumente zur Erfassung von musikalischen Kompetenzen
oder ähnlichen Leistungskonstrukten vorhanden; dies gilt sowohl für den interna-
tionalen Kontext (z. B. Colwell, 1999b) als auch insbesondere für die deutsche
Musikpädagogik. Oerter & Bruhn (1997) fassen diese Situation mit dem nach wie
vor zutreffenden Satz zusammen: „Der besondere Wert von Testverfahren für die
musikpädagogische Forschung ist bisher noch nicht erkannt worden“ (S. 558).
Dies verwundert zunächst, da es für die Musikpädagogik durchaus von Interesse
sein dürfte, über welche fachspezifischen Kompetenzen Schüler verfügen, von
welchen Variablen diese beeinflusst werden und wie eine Förderung derselben er-
folgen kann bzw. welchen Erfolg entsprechende Fördermaßnahmen haben. Diese
stichpunktartige Aufzählung ist zwar nur ein sehr kleiner Ausschnitt der Möglich-
keiten, die mit einer empirischen Erfassung musikbezogener Leistungen einher-
gehen könnten. Es ist trotzdem direkt ersichtlich, dass auf einer konkreten An-
wendungsebene (Lehreraus- und -fortbildung, Unterrichtsentwicklung, Evaluation
von Unterrichtsmaßnahmen, Bildungsmonitoring etc.) eine Vielzahl von Mög-
lichkeiten für die Verwendung entsprechender Testverfahren bestünde. Aber auch
1 Aus Gründen der leichteren Lesbarkeit wird im Folgenden auf die Nennung beider Geschlechter verzichtet.
2
auf der Ebene musikpädagogischer Grundlagenforschung wären die Konstruktion
und der Einsatz von musikalischen Kompetenztests höchst interessant. Denn bis
heute liegen nur wenige Erkenntnisse hinsichtlich der Strukturen (u. a. Dimensio-
nalität und Graduierung) von Schülerkompetenzen und deren empirischer Erfas-
sung vor.
Im Rahmen aktueller bildungspolitischer Reformprozesse wird die Musikpädago-
gik nun verstärkt mit der Thematik der Erfassung und Modellierung von Kompe-
tenzen konfrontiert. Die Ergebnisse von internationalen Schulleistungsstudien
(u. a. PISA und TIMSS)2 haben in Deutschland zu einem Umdenken in Bezug auf
die Steuerung des Bildungssystems geführt. Unter einer Reihe von Maßnahmen
ist es vor allem die Umstellung auf nationale Bildungsstandards, durch die eine
am ‚Output’ orientierte Qualitätssicherung erfolgen soll (Klieme et al., 2003). In
den letzten Jahren wird zunehmend sichtbar, dass – obwohl Bildungsstandards auf
nationaler Ebene nur für die ‚Kernfächer’3 implementiert werden – auch das Fach
Musik von diesen Reformprozessen betroffen ist und die Musikpädagogik sich ei-
ner Auseinandersetzung mit den damit verbundenen Konzepten nicht entziehen
kann (Knigge & Lehmann-Wermser, 2008). Denn im Kontext der standard- und
kompetenzorientierten Prozesse wird gerade den Fachdidaktiken eine zentrale
Funktion zugewiesen (z. B. Bayrhuber, 2007a): Sie sollen sowohl die fachwissen-
schaftlichen Grundlagen für die Erstellung von Bildungsstandards bestimmen als
auch Unterrichtskonzepte zur Kompetenzförderung entwickeln und evaluieren. Im
Zentrum steht hierbei die empirisch basierte Erarbeitung von Kompetenzmodellen
und darauf bezogener Testinstrumente.
Vor diesem Hintergrund wurde mit dem KoMus-Projekt (z. B. Jordan, Knigge &
Lehmann-Wermser, 2010), im Rahmen dessen die vorliegende Arbeit entstanden
ist, erstmals der Versuch unternommen, ein Kompetenzmodell für einen Teilbe-
reich des Musikunterrichts (‚Musik wahrnehmen und kontextualisieren’) zu erstel-
len und empirisch zu validieren. Ein wichtiges Teilergebnis des KoMus-Projekts
war der Entwurf eines theoretischen Kompetenzmodells (Niessen, Lehmann-
Wermser, Knigge & Lehmann, 2008).
2 PISA = „Programme for International Student Assessment”; TIMSS = „Trends in International Mathematics and Science Study”. 3 Deutsch, Mathematik, erste Fremdsprache und Naturwissenschaften (Biologie, Chemie, Physik).
3
Dieses Modell bildet die Grundlage für die vorliegende Arbeit, die den Prozess
der Modelloperationalisierung in Form von Testaufgaben zum Inhalt hat. Im
Rahmen der Arbeit wird als zentrale Fragestellung verfolgt, ob sich anhand eines
theoretischen Modells zur Kompetenz des Wahrnehmens und Kontextualisierens
von Musik Testaufgaben konstruieren lassen, die psychometrischen Qualitätskri-
terien genügen, eine hohe curriculare Validität aufweisen und differenzierende
Aussagen über die Kompetenzen der Schüler ermöglichen. Auf Basis dieser über-
geordneten Fragestellung ergeben sich die folgenden Ziele der Arbeit:
� Die Konzeption, Durchführung und Dokumentation eines Prozesses zur Ent-
wicklung von Testaufgaben, der durch eine Verankerung auf unterrichtlicher
und curricularer Ebene einen musikpädagogischen Fokus hat, dabei aber psy-
chometrische Gütekriterien der Test- und Aufgabenentwicklung konsequent
berücksichtigt.
� Die statistische Analyse der entwickelten Aufgaben (Itemselektion) unter An-
wendung klassischer und probabilistischer Methoden, die in dieser Kombina-
tion bislang in der Musikpädagogik noch keine Verwendung fanden. Ziel ist
hierbei die Generierung eines psychometrisch hochwertigen Itempools, der die
Dimensionen, Facetten und Niveaus des theoretischen Kompetenzmodells ab-
bildet.
� Die Identifikation ‚schwierigkeitsgenerierender Aufgabenmerkmale’ mittels
inhaltlicher und vergleichender Itemanalysen: Über die Absicherung der psy-
chometrischen Qualität der Aufgaben hinaus soll in diesem Zusammenhang
untersucht werden, welche Teilkompetenzen von einer Aufgabe konkret er-
fasst bzw. für deren Lösung benötigt werden. Anvisiertes Ziel ist die Systema-
tisierung der gefundenen relevanten Aufgabenmerkmale sowie deren empiri-
sche Validierung.
Die vorliegende Arbeit gliedert sich in einen theoretischen und einen empirischen
Teil, deren inhaltlicher Aufbau sich wie folgt darstellt:
Das zweite Kapitel skizziert zunächst die bildungspolitischen Hintergründe und
führt hierbei insbesondere in die Themen ‚Bildungsstandards’ und ‚Kompetenz-
orientierung’ ein (2.1). Von zentraler Bedeutung für die Arbeit sind in diesem Zu-
sammenhang der Kompetenzbegriff und die konzeptionellen Grundlagen von
Kompetenzmodellen. Daran anschließend erfolgt eine Betrachtung der Situation
4
des Schulfaches Musik, wie sie sich im Kontext der standard- und kompetenzori-
entierten Reformprozesse darstellt (2.2).
Im dritten Kapitel erfolgen einige grundlegende Ausführungen hinsichtlich der
Gütekriterien, Komponenten und Formate von Testaufgaben sowie die Darstel-
lung des Forschungsstandes in Bezug auf die Erfassung von musikalischen Kom-
petenzen mittels standardisierter Testverfahren.
Der empirische Teil der Arbeit beginnt mit dem vierten Kapitel, in dem der Pro-
zess der modellbasierten Aufgabenentwicklung vorgestellt wird. Grundlage ist
hierfür das im KoMus-Projekt entwickelte theoretische Kompetenzmodell (4.1),
dessen Operationalisierung im Rahmen eines Testkonstrukts auf curricularer Ebe-
ne verankert und durch musikpsychologische Forschungen theoretisch fundiert
wird (4.2). Abschließend erfolgt an dieser Stelle die Darstellung von Design und
Prozess der Aufgabenentwicklung (4.3).
Die entwickelten Testaufgaben wurden einem umfassenden Analyseprozess un-
terzogen. Im fünften Kapitel sind die hierfür verwendeten Methoden dargestellt.
Da Testkonstruktionen in der Musikpädagogik sehr selten sind und diese bislang
ausnahmslos auf Basis der Klassischen Testtheorie durchgeführt wurden, erfolgen
in einem einleitenden Teil grundlegende testtheoretische Ausführungen unter be-
sonderer Berücksichtigung der Probabilistischen Testtheorie und des Rasch-
Modells (5.1). Daran anschließend werden ausführlich die einzelnen Analysever-
fahren dargestellt (5.2), bevor in einem abschließenden Abschnitt die Durchfüh-
rung der Erhebungen beschrieben ist (5.3).
Kapitel sechs enthält schließlich die Ergebnisse der Itemanalysen und stellt aus-
führlich den Prozess der Itemselektion dar. Nach detaillierten Ausführungen zu
den statistischen Aspekten der Item- und Testanalyse (6.1) erfolgen im anschlie-
ßenden Abschnitt verschiedene inhaltliche Itemanalysen, die eine fachwissen-
schaftliche Perspektive ins Zentrum stellen (6.2).
Ausgehend von den Ergebnissen der Itemanalysen steht im Zentrum des siebten
Kapitels die Frage nach den ‚schwierigkeitsgenerierenden Merkmalen’ der entwi-
ckelten Testaufgaben. Mittels verschiedener vertiefender Analysen werden dabei
eine Reihe von Aufgabenmerkmalen identifiziert (7.1-7.4), die anschließend sys-
tematisiert (7.5) und einer empirischen Überprüfung unterzogen werden (7.6).
5
Im abschließenden achten Kapitel werden die Ergebnisse der Arbeit noch einmal
zusammengefasst und diskutiert. Es werden Probleme und Grenzen der modellba-
sierten Aufgabenentwicklung sowie weitergehende methodische Überlegungen
dargestellt. Die Arbeit schließt mit Ausführungen zur curricularen Validität der
entwickelten Testaufgaben und einem Ausblick in Bezug auf die Verwendungs-
möglichkeiten der Aufgaben.
6
A. HINTERGRUND UND THEORETISCHE GRUNDLAGEN
2 Bildungsstandards und Kompetenzorientierung
Im einleitenden Kapitel ist bereits angeklungen, dass die vorliegende Arbeit vor
dem Hintergrund aktueller bildungspolitischer und erziehungswissenschaftlicher
Diskurse entstanden ist. Im Zentrum stehen hierbei die Reformprozesse im Kon-
text der Diskussion um Bildungsstandards, die gerade auch den Fachdidaktiken
zentrale Aufgaben wie die Erstellung von Kompetenzmodellen oder die Entwick-
lung von kompetenzorientierten Test- und Lernaufgaben zuweist.
Zum besseren Verständnis der Arbeit erfolgen daher zunächst in Abschnitt 2.1 ei-
nige allgemeine und grundlegende Ausführungen zu Bildungsstandards und den
dabei zentralen Komponenten (Kompetenzbegriff, Kompetenzmodelle). Daran
anschließend erfolgt eine Betrachtung der Situation des Schulfachs Musik, wie sie
sich im Kontext der standardorientierten Reformprozesse darstellt (2.2). Die Imp-
lementierung von Bildungsstandards bzw. daran orientierter Curricula und die
Auswirkungen dieses Prozesses auf das Fach Musik sind der Ausgangspunkt des
KoMus-Forschungsprojekts, dessen Ziel die Erstellung eines Kompetenzmodells
für den Bereich des Wahrnehmens und Kontextualisierens von Musik ist. Die vor-
liegende Arbeit ist im Rahmen des KoMus-Projekts entstanden und inhaltlich sehr
eng mit dem Projekt verbunden, weshalb eine kurze Einordnung der Arbeit in das
Gesamtprojekt in Abschnitt 2.2.3 erfolgt.
2.1 Zentrale Konzepte und Begriffe
Der erste Teil dieses Kapitels befasst sich mit den zentralen Konzepten und Ter-
minologien von Bildungsstandards, insofern sie für die vorliegende Arbeit rele-
vant sind. Es besteht hierbei nicht der Anspruch einer möglichst umfassenden und
detaillierten Einführung oder Diskussion von Bildungsstandards und den damit
verbundenen Konzepten.4 Vielmehr soll in den folgenden Abschnitten der Hinter-
4 Es sei hierfür auf die überaus umfangreiche Literatur zur Thematik verwiesen: z. B. Böttcher, 2006; Criblez et al., 2009; Dubs, 2007; Klieme et al., 2003; Klieme, 2004a; 2009; Labudde, 2007; Oelkers & Reusser, 2008. Der erziehungswissenschaftliche und insbesondere der bildungstheoreti-sche Diskurs sind dabei in Bezug auf Bildungsstandards höchst konträr. Es sind in diesem Zu-sammenhang u. a. die beiden folgenden Sammelbände zu nennen, die vor allem kritische Positio-
7
grund skizziert werden, vor dem die vorliegende Arbeit zu lesen ist. Von besonde-
rer Bedeutung sind hierbei das im Rahmen von Bildungsstandards verwendete
Konzept der ‚Kompetenz’ sowie dessen theoretische und empirische Modellie-
rung.
2.1.1 Bildungsstandards
Bildungspolitischer Hintergrund
Um das Jahr 2000 herum waren es vor allem zwei großangelegte internationale
Schulleistungsstudien, die den Ausgangspunkt einer bis heute anhaltenden und
sehr breiten Diskussion über die Qualität von Schule und Unterricht bilden: die
TIMS-Studien (Baumert & Lehmann, 1997; Baumert, Bos & Lehmann, 2000) und
vor allem PISA 2000 (Baumert et al., 2001). Beide Studien offenbarten dabei gra-
vierende Mängel des deutschen Bildungssystems und nicht zuletzt große Dispari-
täten zwischen Regionen, zwischen Schülern unterschiedlicher sozialer Schichten
und zwischen Schülern mit und ohne Migrationshintergrund. Darüber hinaus ha-
ben aber auch mehrere nationale Untersuchungen gezeigt, dass die in den bundes-
deutschen Lehrplänen definierten Ziele häufig nicht erreicht werden und die Be-
notungsmaßstäbe zwischen den Bundesländern sehr stark variieren (Klieme et al.,
2003, S. 13). Vor dem Hintergrund dieser Erkenntnisse hat in Deutschland ein
Umdenken stattgefunden, das häufig als Paradigmenwechsel von der Input- zur
Outputsteuerung bezeichnet wird.5 Als zentrales Moment dieses Paradigmen-
wechsels beschloss die Ständige Konferenz der Kultusminister der Länder der
Bundesrepublik Deutschland (KMK) am 25. Juni 2002 die Einführung nationaler
Bildungsstandards für bestimmte Kernfächer und bestimmte Jahrgangsstufen.6
nen enthalten: Pongratz, Reichenbach & Wimmer, 2007; Schlömerkemper, 2004. Zusammenge-fasst wird die Kritik an Standards z. B. bei Oelkers & Reusser, 2008, S. 52 ff. und Uhl, 2006. Eine Darstellung des musikspezifischen Diskurses erfolgt in Abschnitt 2.2.2. 5 Mit dem ‚Input’ eines Bildungssystems sind im Allgemeinen Lehrpläne, Lehrmittel, Finanzen, Infrastruktur etc. gemeint. Der ‚Output’ umfasst hingegen u. a. den Aufbau von „Kompetenzen, Qualifikationen, Wissensstrukturen, Einstellungen, Überzeugungen, Werthaltungen – also von Persönlichkeitsmerkmalen bei den Schülerinnen und Schülern, mit denen die Basis für ein lebens-langes Lernen zur persönlichen Weiterentwicklung und gesellschaftlichen Beteiligung gelegt ist“ (Klieme et al., 2003, S. 12). 6 In den Jahren 2003 und 2004 wurden daraufhin Bildungsstandards für den Primarbereich (Jahr-gangsstufe 4, Fächer: Deutsch und Mathematik), den Hauptschulabschluss (Jahrgangsstufe 9, Fä-cher: Deutsch, Mathematik und Erste Fremdsprache) und den Mittleren Schulabschluss (Jahr-gangsstufe 10, Fächer: Deutsch, Mathematik, Erste Fremdsprache, Biologie, Chemie und Physik) in Kraft gesetzt. Im Oktober 2007 hat die KMK darüber hinaus die Entwicklung von Bildungs-
8
Aufgrund mangelnder Erfahrungen mit der Entwicklung und Implementierung
von Bildungsstandards wurde vom Bundesministerium für Bildung und Forschung
eine Expertengruppe mit der Erstellung einer Expertise beauftragt. Die sogenannte
‚Klieme-Expertise’ (Klieme et al., 2003) hatte die Zielsetzung, „das Konzept der
Bildungsstandards fachlich zu klären und eine Rahmenkonzeption dafür vorzu-
stellen, wie Bildungsstandards für das deutsche Schulsystem angelegt sein sollten
und wie sie entwickelt und genutzt werden könnten“ (S. 14).7 Die Klieme-
Expertise hat sich seither in weiten Teilen des wissenschaftlichen und politischen
Diskurses als maßgeblich erwiesen in Bezug auf die konzeptionellen Grundlagen
der Entwicklung von Bildungsstandards in Deutschland und liegt auch den Dar-
stellungen im folgenden Abschnitt zugrunde.
Konzeptionelle Grundlagen
Bildungsstandards sollen als zentrales Gelenkstück zur Sicherung und Steigerung
der Qualität schulischer Arbeit fungieren (Klieme et al., 2003, S. 9). Die Klieme-
Expertise definiert auf grundsätzlicher, konzeptioneller Ebene Bildungsstandards
wie folgt (Klieme et al., 2003):
� „Bildungsstandards orientieren sich an Bildungszielen, denen schulisches Ler-
nen folgen soll, und setzen diese in konkrete Anforderungen um.“ (S. 20)
� „Bildungsstandards konkretisieren die Ziele in Form von Kompetenzanforde-
rungen. Sie legen fest, über welche Kompetenzen ein Schüler, eine Schülerin
verfügen muss, wenn wichtige Ziele der Schule als erreicht gelten sollen. Sys-
tematisch geordnet werden diese Anforderungen in Kompetenzmodellen, die
Aspekte, Abstufungen und Entwicklungsverläufe von Kompetenzen darstel-
len.“ (S. 21)
� „Bildungsstandards als Ergebnisse von Lernprozessen werden konkretisiert in
Aufgabenstellungen und schließlich Verfahren, mit denen das Kompetenzni-
standards für die gymnasiale Oberstufe in den Fächern Deutsch, Mathematik, Englisch, Franzö-sisch, Biologie, Chemie und Physik beschlossen, die aktuell erarbeitet werden. 7 Die Entwicklung von Bildungsstandards ist kein spezifisch deutsches Phänomen. Vor allem die englischsprachigen Länder haben bereits eine längere Tradition der outputorientierten Steuerung von Bildungssystemen, die teilweise auch als Orientierung für die deutsche Entwicklung diente. Ausführliche Darstellungen der internationalen Situation finden sich z. B. bei van Ackeren, 2003; Arbeitsgruppe Internationale Vergleichsstudie, 2003; Criblez et al., 2009, S. 19 ff.; Huber, Späni, Schmellentin & Criblez, 2006; Oelkers & Reusser, 2008, S. 61 ff.
9
veau, das Schülerinnen und Schüler tatsächlich erreicht haben, empirisch zu-
verlässig erfasst werden kann.“ (S. 23)
Bildungsstandards beziehen sich demgemäß auf drei Dimensionen: (1) Bildungs-
ziele, (2) Kompetenzen und Kompetenzmodelle, (3) Aufgabenstellungen und
Testverfahren (Kompetenztests).
Mit dieser Konzeption sind vor allem zwei Erwartungen verbunden (Klieme et al.,
2003, S. 9 f.): Einerseits soll dadurch eine höhere Zielklarheit erreicht werden. In
diesem Sinne dienen Standards der Orientierung aller Beteiligten (Lehrkräfte,
Schüler, Eltern, Administration) über die normativ gesetzten Ziele und schaffen so
mehr Klarheit, größere Objektivität und höhere Verbindlichkeit als bisher (Blum,
2006, S. 16). Andererseits soll es durch Bildungsstandards ermöglicht werden,
Lernergebnisse zu erfassen und zu bewerten. Im Zentrum stehen hierbei standard-
basierte Evaluationsverfahren (u. a. Bildungsmonitoring und Schulevaluation).
Die Entwicklung und Implementierung von Bildungsstandards ist ein sehr auf-
wendiges Verfahren und erfordert ein komplexes Zusammenspiel verschiedener
Akteure. Die Klieme-Expertise beschreibt hierfür umfassend die verschiedenen
Kriterien und Komponenten, die an dieser Stelle jedoch nicht weiter ausgeführt
werden können. Es wird bereits auf Basis dieser ausschnitthaften Darstellung der
Hintergründe und konzeptionellen Grundlagen von Bildungsstandards deutlich,
dass vor allem der Kompetenzbegriff sowie die Modellierung von Kompetenzen
im Rahmen fachspezifischer Kompetenzmodelle von zentraler Bedeutung sind.
Beide Punkte stehen in direktem Zusammenhang mit dem Thema der vorliegen-
den Arbeit, weshalb in den folgenden beiden Abschnitten auf den Kompetenzbeg-
riff und auf die Funktionen und Strukturen von Kompetenzmodellen eingegangen
wird.
2.1.2 Kompetenzbegriff
Der Kompetenzbegriff ist ein vielbenutzter und -diskutierter Terminus des sozial-
und erziehungswissenschaftlichen Diskurses der vergangenen Jahre (Klieme et al.,
2007). Er bildet die konzeptionelle Grundlage für eine Vielzahl nationaler und in-
ternationaler Schulleistungsstudien (z. B. PISA, TIMSS, DESI) und steht nicht zu-
letzt im Zentrum der Konzeption von Bildungsstandards. Hierdurch ist der Kom-
petenzbegriff auch für die Fachdidaktiken zu einem wichtigen Begriff geworden,
denn zentrale Fragen der Formulierung und Modellierung von Kompetenzen kön-
10
nen nur auf Basis fachdidaktischer Expertise geklärt werden (z. B. Klieme et al.,
2003, S. 121 f.). Der im Folgenden explizierte Kompetenzbegriff liegt auch dem
KoMus-Projekt (vgl. 2.2.3) und entsprechend der vorliegenden Arbeit zugrunde.
Kompetenzbegriff im Rahmen von Bildungsstandards
Der erziehungswissenschaftliche Kompetenz-Diskurs8 geht in Deutschland u. a.
auf Heinrich Roth zurück, der den Begriff sehr breit anlegt:
„Wenn er [Roth; dV] von ‚Fähigkeiten’ spricht, sind nicht nur kognitive Leistungsdis-positionen gemeint, sondern eine umfassende Handlungsfähigkeit, die auch den affek-tiv-motivationalen Bereich einschließt. In emanzipatorischer Absicht wird Kompetenz schließlich auch mit dem Anspruch an Zuständigkeit verbunden“ (Klieme & Hartig, 2007, S. 20).
Als zentrales Ziel von Erziehung definiert Roth ‚Mündigkeit’, verstanden als ver-
antwortliche und selbstbestimmte Handlungsfähigkeit und stellt sich damit in die
Tradition eines aufgeklärten Bildungsbegriffs (Klieme & Hartig, 2007, S. 19). Be-
sonders interessant ist vor diesem Hintergrund die Verbindung zum Kompetenz-
begriff: „Mündigkeit, wie sie von uns verstanden wird, ist als Kompetenz zu in-
terpretieren“ (Roth, 1971, S. 180). Daran anschließend schlägt Roth drei Kompe-
tenzbereiche vor: Selbstkompetenz, Sachkompetenz und Sozialkompetenz (ebd.).
Der große Einfluss des von Roth eingeführten Kompetenzbegriffs lässt sich bis in
die jüngste Vergangenheit verfolgen und wird nicht zuletzt innerhalb der Diskus-
sion um Schlüsselkompetenzen auf OECD-Ebene deutlich (Rychen & Salganik,
2001; Weinert, 1999; 2001a; vgl. auch Klieme & Hartig, 2007, S. 20 f.). Das in
diesem Kontext von Weinert ausgearbeitete Kompetenzkonzept ist mit dem Kom-
petenzbegriff nach Roth kompatibel, wenngleich es einen stärker psychologisch
ausgerichteten Fokus aufweist (Klieme & Hartig, 2007, S. 21). Gleichzeitig bildet
die von Weinert vorgeschlagene Kompetenzdefinition die konzeptuelle Grundlage
für Bildungsstandards in Deutschland. Weinert versteht unter Kompetenzen
„die bei Individuen verfügbaren oder durch sie erlernbaren kognitiven Fähigkeiten und Fertigkeiten, um bestimmte Probleme zu lösen, sowie die damit verbundenen motiva-tionalen, volitionalen und sozialen Bereitschaften und Fähigkeiten um die Problemlö-sungen in variablen Situationen erfolgreich und verantwortungsvoll nutzen zu kön-nen.“ (Weinert, 2001c, S. 27)
8 Auf den gesamten Kontext der sozialwissenschaftlichen Grundlagen wird an dieser Stelle nicht eingegangen; siehe hierzu z. B. Klieme & Hartig, 2007.
11
Darüber hinaus beschreibt Weinert verschiedene Facetten, die in Bezug auf die
individuelle Ausprägung einer Kompetenz von Relevanz sind (Klieme et al.,
2003, S. 73): Fähigkeit, Wissen, Verstehen, Können, Handeln, Erfahrung und Mo-
tivation.
Auf Basis dieser Definition spricht sich die Klieme-Expertise für einen domänen-
spezifischen Kompetenzbegriff aus, d. h., „Kompetenzen werden hier verstanden
als Leistungsdispositionen in bestimmten Fächern oder ‚Domänen’“ (Klieme et
al., 2003, S. 22). Diese eindeutige Stellungnahme gegen ein Konzept von über-
greifenden Kompetenzen, wie es z. B. häufig in der Berufspädagogik anzutreffen
ist, hat sowohl pragmatische als auch lernpsychologische Hintergründe (Klieme,
2004b, S. 12): Einerseits ist so eine Anschlussfähigkeit an die traditionelle Lehr-
planarbeit, aber auch an die Ausbildungs- und Kompetenzstruktur der Lehrer-
schaft gegeben. Andererseits sprechen aber vor allem Erkenntnisse der Lernpsy-
chologie für die fachspezifische Ausformulierung von Kompetenzen und gegen zu
große Erwartungen an übergreifende Kompetenzen: „Die Vorstellung, bereichs-
spezifische Kompetenzen könnten durch einen generischen Satz von hoch transfe-
rierbaren Schlüsselkompetenzen ersetzt werden, ist nach Befunden vor allem aus
der Expertiseforschung illusionär“ (Klieme, 2004b, S. 12).
Hartig & Klieme (2006) betonen vor allem zwei entscheidende konzeptionelle Ei-
genschaften des Kompetenzkonstrukts: die Kontextspezifität und die Erlernbarkeit
von Kompetenzen. Hierdurch hebt sich der Kompetenzbegriff auch von anderen
Leistungskonstrukten ab, im Speziellen von der Intelligenzforschung, die genera-
lisierte, kontextunabhängige und nur begrenzt lernbare kognitive Dispositionen
untersucht:
„Ein konzeptueller Unterschied zwischen Kompetenz und Intelligenz kann demnach in der Generalisierbarkeit der damit beschriebenen Leistungsdispositionen gesehen werden: Kompetenz ist stärker an spezifische Kontexte gebunden, während Intelligenz sich v. a. durch generalisierbare Leistungsdispositionen kennzeichnen lässt. […] Im Unterschied zur Erlernbarkeit – und damit Veränderbarkeit – von Kompetenzen wird Intelligenz als relativ stabil betrachtet.“ (Hartig & Klieme, 2006, S. 129 f.)
Empirische Erfassung von Kompetenzen
Die Kontextspezifität, aber auch die verschiedenen Facetten des Kompetenzkon-
strukts haben direkte Auswirkungen auf eine empirische Umsetzung. Diese muss
gemäß der Komplexität des Kompetenzbegriffs eine adäquate Erfassung von
Kompetenzen gewährleisten:
12
„Kompetenzen kann man nicht durch einzelne, isolierte Leistungen darstellen oder er-fassen. Der Bereich von Anforderungssituationen, in denen eine bestimmte Kompe-tenz zum Tragen kommt, umfasst immer ein mehr oder weniger breites Leistungs-spektrum. […] Eine eng gefasste Leistungserfassung kann dem Anspruch von Kompe-tenzmodellen nicht gerecht werden. Gerade wenn die […] genannten Facetten von Kompetenz berücksichtigt werden, wird erkennbar, dass die Erfassung von Kompe-tenz einen breiten Begriff von Aufgaben bzw. Tests erfordert, der nicht mit Wissens-abfragen allein erschöpft ist.“ (Klieme et al., 2003, S. 74)
Wenngleich der vielschichtige und komplexe Weinertsche Kompetenzbegriff aus
theoretischer und vor allem pädagogischer Sicht sinnvoll und fruchtbar für die
Entwicklung von Bildungsstandards erscheint, so herrscht doch innerhalb der em-
pirischen Bildungsforschung mittlerweile weitgehend Konsens darüber, dass im
Kontext konkreter empirischer Fragestellungen häufig eine einschränkende Ver-
wendung des Begriffs notwendig ist. Im Rahmen von mehreren groß angelegten
Forschungsvorhaben9 hat sich daher in der jüngeren Vergangenheit eine ‚Arbeits-
definition’ durchgesetzt, die Kompetenzen als „kontextspezifische kognitive Leis-
tungsdispositionen, die sich funktional auf Situationen und Anforderungen in be-
stimmten Domänen beziehen“ (Klieme & Leutner, 2006a, S. 4; Hervorhebungen
im Original) definiert (vgl. auch Hartig, 2008). Die Einschränkung des Kompe-
tenzbegriffs auf den kognitiven Bereich geht dabei auf Weinert selbst zurück, der
für empirische Untersuchungsdesigns empfiehlt, den kognitiven Bereich getrennt
von den motivationalen, volitionalen und sozialen Facetten zu erfassen, weil nur
so ihre Wechselwirkung analytisch dargestellt werden könne (Weinert, 2001a;
vgl. auch Klieme et al., 2007, S. 18, 24 f.; Hartig, 2008, S. 19). Damit wird jedoch
keinesfalls die Kompetenzdefinition nach Weinert, wie sie in Bildungsstandards
Verwendung findet, auf grundlegender Ebene infrage gestellt. Auch geht damit
nicht die Geringschätzung der nicht-kognitiven Facetten einher. Es handelt sich
hierbei vielmehr um die Eingrenzung des Kompetenzbegriffs aus einer bestimm-
ten „Anwendungsperspektive“ (Hartig, 2008, S. 17), die sich der Komplexität des
Konstrukts durchaus bewusst ist:
„Zu erwähnen ist, dass die Operationalisierung eines zu erfassenden Merkmals, auch einer Kompetenz, mit zunehmender Komplexität der inhaltlichen Definition immer schwieriger wird. Um bei der empirischen Untersuchung von Kompetenzen präzise Hypothesen formulieren zu können und inhaltlich aussagekräftige Messungen vor-nehmen zu können, ist es daher günstiger, mehrere präzise definierte Konstrukte zu unterscheiden und separat zu messen (z. B. kognitive Fähigkeiten und motivationale
9 U. a. innerhalb des DFG-Schwerpunktprogramms „Kompetenzmodelle zur Erfassung individuel-ler Lernergebnisse und zur Bilanzierung von Bildungsprozessen“ (Klieme & Leutner, 2006b).
13
Dispositionen), als unterschiedliche Aspekte in einem breiten Konstrukt zusammenzu-fassen.“ (Klieme et al., 2007, S. 25)
Im Rahmen von theoretischen Vorüberlegungen wurde dem KoMus-Projekt zu-
nächst der umfassende Weinertsche Kompetenzbegriff zugrunde gelegt (Niessen
et al., 2008, S. 9 f.). In Bezug auf die empirischen Projektphasen wurde jedoch
auch dort beschlossen, eine Fokussierung auf den kognitiven Bereich vorzuneh-
men. Im Sinne einer psychometrischen Messung werden also im KoMus-Kontext
ausschließlich die kognitiven Anteile der anvisierten Kompetenz erfasst.10
2.1.3 Kompetenzmodelle
Bildungsstandards konkretisieren Bildungsziele und machen sie durch Kompe-
tenzformulierungen pädagogisch anwendbar (Criblez et al., 2009, S. 33). Kompe-
tenzmodellen kommt dabei die Aufgabe zu, die Bildungsziele in konkrete Leis-
tungsanforderungen zu transformieren. Hierfür beschreiben Kompetenzmodelle
einerseits, welche Kompetenzen von Schülern in den einzelnen Fächern und zu
einem bestimmten Zeitpunkt erwartet werden. Andererseits liefern Kompetenz-
modelle „wissenschaftlich begründete Vorstellungen darüber, welche Abstufun-
gen eine Kompetenz annehmen kann bzw. welche Grade oder Niveaustufen sich
bei den einzelnen Schülerinnen und Schülern feststellen lassen“ (Klieme et al.,
2003, S. 74).
Auf konzeptioneller Ebene lassen sich grundsätzlich zwei Formen von Modellen
unterscheiden: Kompetenzniveaumodelle und Kompetenzstrukturmodelle (z. B.
Hartig & Klieme, 2006).11 Beide Modellformen fokussieren auf verschiedene As-
pekte von Kompetenzstrukturen, die sich jedoch nicht ausschließen, sondern ide-
alerweise ergänzen (Klieme et al., 2007, S. 11).
Niveaumodelle befassen sich mit der inhaltlichen Beschreibung von Kompeten-
zen. Es geht hierbei vor allem um die Frage, wie sich Abstufungen einer Kompe-
10 Dass eine umfassende Erfassung des facettenreichen Kompetenzbegriffs prinzipiell durchaus möglich ist, gleichsam damit aber aufgrund der getrennten Operationalisierungen ein immenser methodischer Aufwand verbunden ist, zeigt z. B. die Dokumentation der PISA-Studie 2006 (PISA-Konsortium Deutschland, 2007; vgl. auch Köller, 2008, S. 165). 11 In verschiedenen fachdidaktischen Publikationen werden darüber hinaus weitere Klassifikatio-nen von Kompetenzmodellen vorgeschlagen (z. B. Körber, 2007; Schecker & Parchmann, 2007), die für den vorliegenden Kontext jedoch nicht relevant sind.
14
tenz beschreiben lassen.12 Auf Basis eines Niveaumodells lassen sich demnach
Aussagen treffen über die Anforderungen, die Schüler bewältigen können. In psy-
chometrischer Hinsicht entspricht die Formulierung eines Kompetenzniveaumo-
dells der kriteriumsorientierten Interpretation einer Skala. Hierfür wird eine Kom-
petenzskala in unterschiedliche Abschnitte unterteilt und inhaltlich interpretiert
(zum methodischen Vorgehen vgl. z. B. Hartig, 2004).
Strukturmodelle befassen sich hingegen mit der Dimensionalität einer anvisierten
Kompetenz. Dies kann auf verschiedenen Ebenen geschehen (vgl. Klieme et al.,
2007, S. 12 f.): auf übergeordneter Ebene einer Domäne (Differenzierung von
verschiedenen Kompetenzbereichen und deren Zusammenhänge) oder aber inner-
halb eines einzelnen Kompetenzbereichs (Differenzierung von Teilkompetenzen
und deren Zusammenhänge). Als eigenständige Dimensionen werden im Rahmen
eines Strukturmodells diejenigen Kompetenzbereiche bzw. Teilkompetenzen aus-
gewiesen, die hinsichtlich ihrer korrelativen Zusammenhänge hinreichend unab-
hängig voneinander sind (Hartig & Klieme, 2006, S. 132). Die methodische Vor-
gehensweise bei der Erstellung bzw. Überprüfung von Strukturmodellen ist meist
faktorenanalytisch. Zunehmend werden jedoch auch mehrdimensionale IRT-
Modelle eingesetzt (z. B. Hartig & Höhler, 2008).
12 Es sei an dieser Stelle darauf hingewiesen, dass Kompetenzmodelle nicht notwendigerweise eine hierarchische Niveauabfolge aufweisen müssen: „Vor allem in Kompetenzbereichen, die affektive Aspekte und Einstellungen einschließen, wie der sozialen Kompetenz oder interkultureller Kom-petenz, gibt es möglicherweise keine klar abgrenzbaren und auf einer Skala von ‚niedrig’ bis ‚hoch’ bewertbaren Niveaus, sondern eher unterschiedliche Muster oder Typen“ (Klieme, 2004b, S. 13).
15
Abb. 1: Theoretisches Strukturmodell der DESI-Studie (in Anlehnung an: Beck & Klieme, 2007, S. 15 und
Nold & Rossa, 2007).
Abb. 1 verdeutlicht die Verbindung von Struktur- und Niveaumodellen am Bei-
spiel der DESI-Studie (Beck & Klieme, 2007; DESI-Konsortium, 2008). Darüber
hinaus ist in der Abbildung auf der rechten Seite unterhalb des Kompetenzni-
veaumodells für den Kompetenzbereich ‚Hörverstehen’ auch der Prozess zur Er-
stellung und Überprüfung von Kompetenzmodellen angedeutet. Kompetenzmo-
delle werden in aller Regel zunächst als theoretische Konstrukte entworfen, die
einer empirischen Überprüfung bedürfen (Klieme et al., 2003, S. 82), d. h., sie
müssen in Form von Aufgabenstellungen und Testverfahren operationalisiert wer-
den. Die Aufgaben operationalisieren einerseits die in einem theoretischen Model
angenommenen Strukturen einer Kompetenz. Andererseits dienen die Aufgaben
zur Illustration und Bildung von Kompetenzniveaus sowie zur weiteren Ausdiffe-
renzierung des Modells. Dies entspricht auch der Vorgehensweise, die im KoMus-
Projekt gewählt wurde (vgl. 2.2.3).
16
Exkurs: Kompetenzorientierung vs. Lernzieloperationalisierung13
Im Kontext von Bildungsstandards und Kompetenzorientierung wird oft auf die
sogenannte ‚Curriculumdiskussion’ in den 1960er und 70er Jahren verwiesen. Ei-
nige Beiträge konstatieren dann sinngemäß: Das hatten wir doch alles schon mal
und auch damals hat’s nicht funktioniert (z. B. Brügelmann, 2003; Rumpf, 2005).
Ein Vergleich ist naheliegend. Auch um 1970 war die Unzufriedenheit mit dem
Schulwesen groß – „Die deutsche Bildungskatastrophe“ (Picht, 1964) – und die
Erwartungen an eine wissenschaftlich fundierte Reform waren den heutigen z. T.
sehr ähnlich. Wenngleich mit anderer Terminologie, so sollte auch damals vor al-
lem der ‚System-Output’ gesteigert werden, damit – und auch das klingt bekannt
– Schule bei den Schülern Problemlösefähigkeiten für das spätere Leben aufbauen
kann. Ein ebenso nach wie vor aktuelles Argument war die Unzufriedenheit mit
der fehlenden Objektivität, Validität und (daraus resultierenden) Fairness von
Zeugnisnoten (z. B. Oelkers & Reusser, 2008, S. 18 ff.).
Im Folgenden sollen zwei zentrale Punkte skizziert werden, die verdeutlichen,
dass beide Konzeptionen – trotz einer ähnlichen Ausgangslage – durch wichtige
Unterschiede gekennzeichnet sind:14
(1) Der erste Punkt betrifft die theoretische Basis. In der Erziehungswissenschaft
hat sich ein Kompetenzbegriff durchgesetzt, der mittlerweile sowohl international
(u. a. OECD, PISA) als auch national (u. a. Bildungsstandards, DESI-Studie, Pro-
jekt VERA) Anwendung findet. In Abschnitt 2.1.2 wurde bereits dargestellt, dass
Kompetenz dabei als ein kontextspezifisches, komplexes Konstrukt definiert ist,
das sich im Zusammenspiel verschiedener Facetten manifestiert. Nun könnte man
argumentieren, dass eine ähnliche Konzeption auch den Lernziel-Taxonomien
zugrunde liegt. Auch dort trifft man auf verschiedene Facetten bzw. Bereiche:
Lernziele werden systematisiert in einen kognitiven, affektiven und psychomoto-
rischen Bereich (Anderson, Krathwohl & Airasian, 2001; Bloom, 1956). Während 13 Dieser Exkurs basiert auf dem Abschnitt „Kompetenzen vs. Lernzieloperationalisierung“ in Knigge & Lehmann-Wermser, 2009. 14 Ein systematischer und vor allem in historischer Hinsicht umfassender Vergleich von Lernzielo-perationalisierung und Bildungsstandards kann an dieser Stelle nicht erfolgen. Aus musikpädago-gischer Sicht sind hierfür vor allem die Ausführungen von Abel-Struth (1978, Kap. 3.2.2) und Fül-ler (1974) interessant. Des Weiteren sei in diesem Zusammenhang auf erziehungswissenschaftli-che Überblicksdarstellungen (z. B. Criblez et al., 2009, S. 58 ff.; Haft & Hopmann, 1987; Klieme, 2009) sowie einen sehr interessanten Beitrag aus der Geschichtsdidaktik (Borries, 2007) verwie-sen.
17
‚Kompetenz’ jedoch dezidiert als das Zusammenspiel diverser Facetten definiert
ist, spalten die Lernziel-Taxonomien die Bereiche voneinander ab und betrachten
sie isoliert voneinander. In jedem Bereich werden darüber hinaus die Ziele noch
weiter ‚zerlegt’: von obersten Lernzielen über Zwischenstufen bis hin zu Fein-
lernzielen, die dann operationalisiert, also in empirisch überprüfbare Ziele ‚über-
setzt’ werden. Diese sind dann jedoch so weit in ihre Bestandteile zerlegt, dass
z. B. nur noch die isolierte Abfrage von Wissensbeständen übrigbleibt.15 Sol-
chermaßen operationalisierte (meist kognitive) Feinlernziele sind dadurch sehr
weit entfernt von realen Anwendungssituationen. Der Unterschied zum Kompe-
tenzkonzept ist offensichtlich. Hier sollen gerade nicht einzelne, isolierte Facetten
einer Kompetenz getestet werden, sondern ein komplexes Konstrukt, und das in
möglichst realen und kontextspezifischen Anwendungssituationen:16
„Kompetenzen umschließen das Wissen und Können, das erforderlich ist, damit Schü-lerinnen und Schüler komplexe Anforderungen zu bewältigen vermögen. Dabei geht es nicht um Detailkenntnisse oder Fertigkeiten, wie sie im ‚lehrzielorientierten Unter-richt’ der 1970er Jahre abgearbeitet wurden. Mit dem Kompetenzbegriff stehen viel-mehr die ‚großen Linien’ im Vordergrund […]. Bei mathematischer Kompetenz bei-spielsweise geht es nicht nur darum, typische Aufgaben aus Algebra und Geometrie zu beherrschen, sondern um ein Verständnis für die zentralen Konzepte der Mathematik […] und um mathematikbezogene Tätigkeiten wie das Modellieren einer Problemsitu-ation, das Argumentieren und den Umgang mit unterschiedlichen Repräsentationsfor-maten.“ (Klieme, 2009, S. 47)
(2) Eng verbunden mit diesen eher theoretischen Unterschieden ist die empirisch-
methodische Umsetzung der beiden Konzeptionen (z. B. Klieme & Leutner,
2006b, S. 881). Im Vergleich zum analytischen Zerlegen von Lernziel-
Taxonomien gehen empirische Studien auf Basis des Kompetenzkonzepts einen
anderen Weg. Durch Fortschritte auf den Gebieten der Psychometrie und Testthe-
orie ist es inzwischen möglich, das Kompetenzkonstrukt in seiner Komplexität
auch empirisch adäquat zu erfassen. Hiermit sind zuvorderst sehr anspruchsvolle 15 Die Fokussierung auf den kognitiven Bereich – und dabei vor allem auf die Erfassung von Wis-sensbeständen – ist nicht vorgegeben durch die Lernziel-Taxonomien, die dem affektiven und psy-chomotorischen Bereich prinzipiell gleiches Gewicht einräumen. Trotzdem wurden in der deut-schen Musikpädagogik vor allem die Arbeiten zu kognitiven Lernziel-Taxonomien (v. a. Colwell, 1970b) rezipiert und angewendet (vgl. Abel-Struth, 1978, S. 64 ff.). Dies dürfte vor allem daran liegen, dass die kognitiven Taxonomien noch am ehesten überzeugen konnten, während der affek-tive und psychomotorische Bereich auch von den Autoren selbst als problematisch eingeschätzt wurde, sodass z. B. von Colwell hierfür noch eine Reihe kritischer konzeptioneller Überlegungen angestellt werden, aber keine Operationalisierung der beiden Bereiche mehr erfolgt (Colwell, 1970b). 16 Sehr anschaulich wird dieser grundlegende Unterschied, wenn man operationalisierten Feinlern-zielen z. B. Aufgaben aus den PISA-Studien gegenüberstellt, die zur Erfassung hoher Kompetenz-niveaus dienen.
18
statistische Verfahren gemeint, die in Abhängigkeit von der zu erfassenden Kom-
petenz verschiedene psychometrische Messmodelle zur Verfügung stellen (v. a.
sogenannte IRT-Modelle der probabilistischen Testtheorie; vgl. 5.1). Dabei ist es
möglich mithilfe einer größeren Anzahl an Testaufgaben die Dimensionen, Kom-
ponenten und Strukturen von Schülerkompetenzen zu erfassen und zu beschrei-
ben. Außerdem ermöglichen z. B. regressionsanalytische Verfahren die Analyse
von komplexen Aufgaben hinsichtlich ihrer schwierigkeitsgenerierenden Aufga-
benmerkmale, sodass bestimmt werden kann, welche Kompetenzen in welcher
Ausprägung zur Lösung einer Aufgabe notwendig sind (vgl. Kap. 7). Auch konn-
ten hinsichtlich der testpraktischen Durchführung von Kompetenztests wichtige
Fortschritte erzielt werden (z. B. Einsatz computerbasierter Tests, interaktive
Testformate, adaptive Tests, Multi-Matrix-Designs, erhöhter Anteil offener Item-
formate). Diese testtheoretischen und -praktischen Errungenschaften sind nicht zu
unterschätzen, denn auch die elaboriertesten Theorien über Lernziele oder Kom-
petenzen sind von relativ begrenzter Tragweite, wenn ihre empirische Umsetzung
nur verkürzt und unbefriedigend ausfällt. Entsprechend macht die empirische Er-
ziehungswissenschaft und pädagogische Psychologie gerade hierin den Hauptun-
terschied und Fortschritt zu den Lernzieloperationalisierungen der 1970er Jahre
aus:
„Die lern- bzw. lehrzielbezogenen Leistungsmessung der 1970er-Jahre ist nicht zuletzt auch daran gescheitert, dass sie den Anspruch einer engen Verbindung von kognitiver Modellierung, Psychometrie und diagnostischen bzw. Assessment-Konzepten nicht einlösen konnte. Entwicklungen in den betroffenen Disziplinen ermöglichen jetzt eine neue Form von Diagnostik und Assessment, die auf intensiver Grundlagenforschung beruht.“ (Klieme & Leutner, 2006b, S. 881)
Es spricht also einiges dafür, dass Bildungsstandards und Kompetenzkonzept die
Situation um 1970 nicht replizieren, da – trotz einiger Parallelen – ein anderer
theoretischer Hintergrund und auch eine verbesserte empirisch-methodische Stra-
tegie angewendet werden.17
17 Die konzeptuellen Unterschiede und Fortschritte werden bedauerlicherweise jedoch auf curricu-larer Ebene z. T. konterkariert. Dort sind häufig vermeintliche Kompetenzformulierungen anzu-treffen, die viel eher als Beispiel eines operationalisierten Lernziel gelten müssten: „Die Schüle-rinnen und Schüler kennen ausgewählte Kompositionen/Musiken unterschiedlicher Stilrichtungen und Merkmale aus Gegenwart und Vergangenheit (in Auszügen) sowie deren Komponistinnen o-der Komponisten“ (Niedersächsisches Kultusministerium, 2006, S. 17); „Die Schülerinnen und Schüler können Notenwerte, Pausen, einfache Rhythmen und Taktarten, Stammtöne und Vorzei-chen, Lautstärkeangaben, Stammintervalle und Tonleitern lesen, notieren […]“ (Freie Hansestadt
19
2.2 Bildungsstandards, Kompetenzorientierung und das Fach Musik
Auch das Fach Musik ist von den aktuellen bildungspolitischen Reformprozessen
betroffen. Wenngleich auf KMK-Ebene nationale Bildungsstandards für Musik
vorerst nicht geplant sind, so sind die Einflüsse des Reformprozesses auf Länder-
ebene eindeutig festzustellen. Ebenso spielt die Diskussion über Bildungsstan-
dards und Kompetenzorientierung eine Rolle im fachdidaktischen Diskurs der
letzten Jahre. Sowohl der Stand der curricularen Entwicklungen unter dem Ein-
fluss von Bildungsstandards als auch der darauf bezogene fachdidaktische Diskurs
wurden vom Autor der vorliegenden Arbeit bereits an anderer Stelle ausführlich
behandelt (Knigge & Lehmann-Wermser, 2008). Im folgenden Abschnitt erfolgt
eine zusammenfassende Darstellung dieser musikspezifischen Hintergründe, vor
denen das KoMus-Projekt und nicht zuletzt die vorliegende Arbeit entstanden
sind.
2.2.1 Curriculare Ebene
Bei der Betrachtung der momentan18 in Deutschland gültigen Musikcurricula19
wird zuallererst deutlich, dass sich der Paradigmenwechsel von der Input-
Orientierung alter Lehrpläne hin zur Output-Orientierung auch in den Curricula
für das Fach Musik niederschlägt. Seit der Jahrtausendwende haben nahezu alle
Bundesländer Neuentwicklungen oder Überarbeitungen ihrer Curricula vorgelegt,
die in Terminologie und Konzeption in die Richtung von Bildungsstandards wei-
sen.20
Die folgenden Ausführungen verdeutlichen, wie sich konkret der Einfluss von
Bildungsstandards und Kompetenzorientierung auf curricularer Ebene zeigt und
Bremen, 2007, S. 9). In diesem Sinne ist eines der Hauptprobleme von Standards und Kompetenz-orientierung nicht deren Konzeption, sondern deren Implementierung (vgl. 2.2.1). 18 Stand: Sommer 2008. Ein Verzeichnis der analysierten Curricula ist im Anschluss an das Litera-turverzeichnis aufgeführt. 19 Die gängige terminologische Unterscheidung in ‚Lehrplan’, der sich mehr auf Anweisungen für den Lehrenden beschränkt, und ‚Curriculum’, das auch begründet und reflektiert (vgl. Abel-Struth, 1978, S. 24), ist in diesem Kontext nicht von Bedeutung. Somit werden im Folgenden unter dem Begriff ‚Curricula’ sowohl Curricula als auch Lehrpläne, Rahmenpläne, Bildungspläne, curriculare Vorgaben etc. subsumiert. 20 Für alle weiteren Länder (bzw. Schulformen innerhalb der betreffenden Länder) sind aktuelle Arbeiten an neuen Curricula bekannt (z. B. Bremen, Hessen, Saarland). Die vorliegenden Entwür-fe dieser Länder deuten darauf hin, dass die Orientierung am Bildungsstandardkonzept zunehmend konstitutiv ist.
20
inwieweit die Curricula dabei mit den Kriterien kompatibel sind, die im Rahmen
der Klieme-Expertise (Klieme et al., 2003) für die Erstellung von Bildungsstan-
dards vorgeschlagen werden.
Dimensionen des Faches – Kompetenzbereiche
Ein Merkmal von Bildungsstandards ist die Identifizierung von Teildimensionen
eines Faches (‚Kompetenzbereiche’), innerhalb derer dann die Kompetenzen be-
schrieben und in Kompetenzmodellen differenziert erfasst werden können. In die-
ser Hinsicht ist ein übereinstimmendes Merkmal der betrachteten Curricula die
Systematisierung des Faches in übergeordnete Kernbereiche.21 Es werden Berei-
che definiert unter verschiedenen Überschriften wie beispielsweise „Arbeitsfel-
der“, „Lernfelder“, „Inhaltsbereiche“, „Betrachtungsdimensionen“, „Umgangs-
weisen“ oder eben „Kompetenzbereiche“ (vgl. Knigge & Lehmann-Wermser,
2008, S. 62 ff.):
� Dabei ist immer ein Bereich zu finden, der die musikpraktischen Umgangs-
weisen abdeckt (sowohl produktive als auch reproduktive).
� Häufig wird das Umsetzen von Musik in andere Bereiche (z. B. Bewegung,
Malen) bzw. umgekehrt (z. B. Komponieren nach Bildvorlage) als eigenstän-
diger Bereich ausgewiesen, gelegentlich ist es in den musikpraktischen integ-
riert.
� Daneben gibt es Bereiche, die schwerpunktmäßig das strukturierend hörende
Wahrnehmen und Verstehen von Musik zum Inhalt haben. Diesen ist grundle-
gend gemeinsam, dass es um ein Zusammenspiel von Wissen über Musik
(z. B. über musikalische Formen, Symbolsysteme etc.) und Wahrnehmen von
Musik geht. In unterschiedlichem Grad werden innerhalb dieser Bereiche be-
reits auch Reflexionsprozesse hinsichtlich des kritischen Beurteilens von Mu-
sik, aber auch deren kulturhistorischen und sozialen Dimensionen thematisiert.
� Diese zuletzt genannten Inhalte befinden sich somit auf der Grenze zu den
oftmals als eigenständig ausgewiesenen Bereichen des Nachdenkens über Mu-
sik. Hierbei steht explizit die Reflexion über Musik und teilweise auch des ei-
genen Umgangs mit Musik im Mittelpunkt. In vielen Fällen ist mit der Beto-
21 Hierbei ist größtenteils eine Orientierung an schon relativ alten Dimensionierungen des Faches, sogenannten ‚Umgangsweisen mit Musik’ (vgl. Kaiser & Nolte, 1989, S. 30 ff.) zu beobachten.
21
nung dieses Bereichs das Bildungsziel eines ‚offenohrigen’22 Umgangs mit
Musik verbunden.
Grundsätzlich kann festgehalten werden, dass auf curricularer Ebene eine relativ
große Übereinstimmung hinsichtlich der Einteilung des Faches in zumeist drei
oder vier Kernbereiche vorliegt (vgl. Knigge & Lehmann-Wermser, 2008, S.
63 f.).23
Kompetenz: Begriff und Modellierung
Des Weiteren stellt sich die Frage, in welcher Form der Kompetenzbegriff inner-
halb der Musikcurricula Verwendung findet. Dabei wird zunächst deutlich, dass
einige Curricula kein domänenspezifisches, sondern ein übergreifendes Kompe-
tenzkonzept verwenden (vgl. 2.1.2). Häufig werden in diesem Zusammenhang die
aus der Berufspädagogik stammenden und in der Öffentlichkeit viel gebrauchten
Konzepte der Sach-, Methoden-, Sozial- und Personalkompetenz angewandt. Es
scheint jedoch, dass sich die Formulierung von fachspezifischen Kompetenzen
durchsetzt, was vor allem bei Betrachtung der neueren Curricula deutlich wird.
In den Abschnitten 2.1.2 und 2.1.3 wurde dargestellt, dass neben der Fachspezifi-
tät die Beschreibung der Kompetenzen im Rahmen von Kompetenzmodellen ein
zentraler Aspekt ist. Jedes Kompetenzniveau sollte dabei durch Prozesse und
Handlungen von bestimmter Qualität gekennzeichnet sein, die Schüler auf diesem
Niveau bewältigen können, nicht aber auf niedrigeren Niveaus (Klieme et al.,
2003, S. 75 f.). Darüber hinaus bedürfen die formulierten Kompetenzen einer
Konkretisierung in Form von Aufgabenstellungen (Klieme et al., 2003, S. 23 f.).24
Von den Musikcurricula werden diese Anforderungen nicht oder nur ansatzweise
erfüllt. Dies soll an einigen Beispielen verdeutlicht werden:
� Häufig werden einfach traditionelle Lehrplaninhalte unter den neuen Über-
schriften ‚Standards’ oder ‚Kompetenzen’ aufgeführt; z. B. „Die Schülerinnen
22 ‚Offenohrigkeit’ (open earedness) ist als Terminus vor allem von Hargreaves (u. a. 1982) vorge-schlagen worden, um die relative Unvoreingenommenheit, die Grundschüler in den ersten Jahren gegenüber vielfältigen Musiken zeigen, zu beschreiben. 23 Diese Dimensionalisierung ist auch anschlussfähig an den internationalen Diskurs (vgl. Niessen, Lehmann-Wermser, Knigge & Lehmann, 2008, S. 10 ff.). 24 Damit ist nicht nur die Aufgaben- und Testentwicklung für Schulleistungsstudien, Bildungsmo-nitoring etc. gemeint, sondern auch die Aufgabenkonstruktion zur Orientierung für die Unter-richtspraxis und die Bewertung von Lernergebnissen (vgl. Klieme et al., 2003, S. 23 f.).
22
und Schüler verfügen über ein Liedrepertoire und spielen einfache Rhythmen,
Melodien und Akkorde auf verschiedenen Instrumenten“ (Sekundarstufe I,
Berlin).
� Eng verbunden mit dem zuvor genannten Punkt ist die oftmals sehr undiffe-
renzierte Beschreibung einer Kompetenz, z. B. „Schülerinnen und Schüler
können Musik in andere Ausdrucksbereiche umsetzen oder andere Ausdrucks-
bereiche mit Musik gestalten“ (Bildungsplan Gymnasium, Baden-
Württemberg).
� Fast ausnahmslos werden keine Kompetenzniveaus unterschieden. Ansätze
dazu gibt es lediglich in den „Niveaukonkretisierungen“ zum Bildungsplan
Baden-Württemberg, in denen die Bewältigung einer „Problemstellung“ auf
drei Niveaustufen beschrieben wird. Diese Niveaukonkretisierungen sind je-
doch bislang nur exemplarisch für einzelne Standards und Klassenstufen vor-
handen. Eine systematische Beschreibung im Sinne einer umfassenden Model-
lierung im Rahmen von Kompetenzstruktur- und -niveaumodellen liegt jedoch
für keines der Curricula vor.
� Ebenso fehlt größtenteils die Konkretisierung in Aufgabenstellungen. Versu-
che, wie z. B. im Kerncurriculum für die Grundschule des Landes Niedersach-
sen, bleiben auf einem sehr allgemeinen Niveau (z. B. „Instrumente eines
Werkes benennen“) und können ohne einen Bezug zu Kompetenzniveaus die
Ausprägung einer Kompetenz nur sehr undifferenziert beschreiben.
Zusammenfassend ist für die curriculare Ebene festzuhalten, dass bislang noch
keine Musikcurricula vorliegen, die den in der Klieme-Expertise formulierten Kri-
terien für Bildungsstandards genügen. Insbesondere fehlen Kompetenzmodelle
zur differenzierten Beschreibung und Erfassung der Schülerkompetenzen. Viele
Länder haben zwar offensichtlich den Weg in Richtung Bildungsstandards einge-
schlagen, was vor allem in einer Dimensionierung des Faches in Kernbereiche
und kompetenzorientierten Formulierungen sichtbar wird. Das Konzept von Stan-
dards und Kompetenzen, zu dem sich viele Präambeln bekennen, wird in der Fol-
ge jedoch nicht konsequent umgesetzt.
Wenngleich sich das Fach Musik offensichtlich noch am Anfang einer kompe-
tenz- und standardbasierten Entwicklung befindet, drängt sich trotzdem die Frage
auf, warum in den bislang vorgelegten Curricula eine doch relativ stark verkürzte
23
Umsetzung der entsprechenden Konzeptionen festzustellen ist. Für Musikcurricu-
la ergeben sich im Gegensatz zu den sogenannten ‚Hauptfächern’ besondere Prob-
leme: Zuvorderst liegt dies in der Natur eines ästhetischen Faches, auf das die
Konzeption von Bildungsstandards nicht so leicht übertragen werden kann, wie
dies beispielsweise für das Fach Mathematik der Fall zu sein scheint. Außerdem
bestehen insbesondere für die Hauptfächer lange und umfassende theoretische
sowie auch empirische Forschungstraditionen, die für die Entwicklung von Bil-
dungsstandards und insbesondere für Kompetenzmodelle nutzbar gemacht werden
können.25 Eine auch nur ansatzweise vergleichbare Situation ist für das Fach Mu-
sik nicht gegeben.
2.2.2 Fachwissenschaftlicher Diskurs
Notwendige fachwissenschaftliche Vorarbeiten
Die Annahme ist daher naheliegend, dass die Entwicklung von Bildungsstandards
vor allem dadurch erschwert wird, dass entscheidende Grundlagenarbeiten vonsei-
ten der Fachdidaktik fehlen. Deutlich wird dies bei Betrachtung der in der Klie-
me-Expertise beschriebenen notwendigen Vorarbeiten, die größtenteils unter Be-
teiligung der Fachwissenschaften zu leisten sind (Klieme et al., 2003):
� Bildungstheoretische Verankerung des Faches: Zentraler Punkt ist hierbei die
Bestimmung von Bildungszielen, denn „ohne Bezug auf allgemeine Bil-
dungsziele wären Kompetenzanforderungen reine Willkür oder bloße Exper-
tenmeinung. Erst die Orientierung an diesen Zielen legitimiert die Bestim-
mung von erwünschten Niveaustufen und die daraus resultierenden Testver-
fahren. Insbesondere sollten die Standards von einem Verständnis des Bil-
dungsauftrags der jeweiligen Fächer ausgehen, das expliziert werden muss“
(S. 23).
� Benennung der Kompetenzen, die Schülerinnen und Schüler erwerben müs-
sen, damit die Bildungsziele als erreicht gelten können (S. 71).
� Entwicklung von Kompetenzmodellen, die „auf der Basis fachdidaktischer
Konzepte die Komponenten und Stufen der Kompetenzen [beschreiben] und
25 Für das Fach Deutsch z. B. die intensiven und seit Jahrzehnten durchgeführten Forschungen zur Lesekompetenz (z. B. Richter & Christmann, 2002; Voss, Carstensen & Bos, 2005).
24
[…] sich dabei auf pädagogisch-psychologische Forschungen zum Aufbau von
Wissen und Können [stützen]“ (S. 17).
� Operationalisierung von Kompetenzmodellen und Testentwicklung: „Testver-
fahren […] operationalisieren die Kompetenzanforderungen durch konkrete
Aufgaben. Sie dienen unterschiedlichen diagnostischen und evaluativen Zielen
und ermöglichen zugleich die empirische Überprüfung der Kompetenzmodel-
le“ (S. 17).26
Bei Betrachtung des fachwissenschaftlichen Diskurses wird deutlich, dass zum
heutigen Zeitpunkt für das Fach Musik keiner der genannten Punkte zufriedenstel-
lend geklärt ist. Selbst auf grundlegender Ebene existiert kein Konsens, an dem
die Arbeit an Bildungsstandards direkt anschließen könnte (vgl. Niessen et al.,
2008, S. 6 ff.). Ganz im Gegenteil ist die Bestimmung von Zielen des Faches seit
vielen Jahren durch eine große Heterogenität geprägt (z. B. Abel-Struth, 1978;
Kaiser & Nolte, 1989; vgl. auch Schlegel, 2001).27
Darüber hinaus ist in der Musikpädagogik bis heute kein umfassender Diskurs
zum Kompetenzbegriff bzw. zu ‚musikalischer Kompetenz’ zu verzeichnen. Einer
der wenigen Beiträge, die sich grundlegend mit dem Kompetenzbegriff in musik-
pädagogischen Kontexten auseinandersetzen, stammt von Kaiser (2001). In seinen
Überlegungen formuliert Kaiser eine Vielzahl nach wie vor ungeklärter Fragen
und beschließt seine Analyse des fachdidaktischen Diskurses mit dem Satz: „Die
darin [im Kompetenz-Konzept; dV] zum Vorschein kommenden Probleme sind
bisher in der musikpädagogischen und -didaktischen Diskussion keineswegs ge-
löst, ja sie sind noch nicht einmal als Problem erkannt worden“ (Kaiser, 2001,
S. 10).
Ebenso wurden vonseiten der Musikpädagogik bislang noch keine Kompetenz-
modelle vorgelegt. Ein Problem ist hierbei vor allem, dass die dafür notwendigen, 26 Realistischerweise können empirisch gestützte Modelle nicht von Anfang an und in allen Fä-chern erstellt werden. Die Klieme-Expertise schlägt deshalb die Entwicklung von theoretischen Kompetenzmodellen auf Basis fachdidaktischen Erfahrungswissens vor, die nach und nach jedoch einer empirischen Überprüfung zugeführt werden sollten (Klieme et al., 2003, S. 71). 27 Dies gilt sowohl für den fachdidaktischen Diskurs als auch für die curriculare Ebene. Man fühlt sich auch heute noch an die Worte Abel-Struths erinnert: „Beobachtet man den Gebrauch des Wortes ‚Ziel’ im Zusammenhang musikalischen Lernens, so fällt zunächst auf, dass in außeror-dentlich hohem Maße von Zielen geredet wird; fast möchte man von einer auffallenden Bereit-schaft zu Lernziel-Bekenntnissen im Zusammenhang mit Musik sprechen“ (Abel-Struth, 1978, S. 13). Diese Problematik wird seit Langem in der Musikpädagogik reflektiert und gerade in Be-zug auf die Erstellung von Bildungsstandards erneut angemahnt (z. B. Bähr, 2004a; 2005).
25
größtenteils empirischen Grundlagenforschungen fehlen. Diese sind weder in den
Nachbardisziplinen (z. B. der Musikpsychologie) vorhanden, noch sind diesbe-
zügliche musikpädagogische Forschungsprojekte in Sicht.
An dieser Stelle wird deutlich, dass es hinsichtlich der Entwicklung von Bildungs-
standards und insbesondere dem Bedarf an Kompetenzmodellen ein Missverhält-
nis zwischen curricularer Realität und Fachwissenschaft gibt. Die folgende Be-
trachtung des fachwissenschaftlichen Diskurses geht nun der Frage nach, was die
Hintergründe für diese Situation sind.
Fachwissenschaftlicher Diskurs
Gemessen an der Tragweite der Umstellung des Bildungssystems auf Standards
fällt die Beachtung des Themas im musikpädagogischen Diskurs relativ beiläufig
aus. Neben einigen Einzelbeiträgen findet sich der größte Teil der Publikationen
in zwei speziellen Themenheften.28 Richter (2005) identifiziert mindestens vier
verschiedene Haltungen gegenüber Bildungsstandards für den Musikunterricht:
� „den Versuch, die Musik und das ‚Musik-Lernen‘ den formalen Vorgaben für Standards und Kompetenzen anzupassen […];
� den Versuch, bisher formulierte Ziele gemäß der neuen Terminologie umzu-deuten, bzw. die bisherigen Ziele einfach in Kompetenzen umzubenennen […];
� die Behauptung, die formulierten Forderungen seien im Fach Musik nicht er-füllbar, bzw. sie seien dem Fach nicht angemessen;
� die Erwägung, welche positiven Auswirkungen das Konzept der Bildungs-standards haben könne - neben allen fragwürdigen Einflüssen, die es für das Fach Musik mit sich bringt.“ (S. 14)
Interessant ist nun die Frage nach den Argumenten hinter diesen (und weiteren)
Haltungen. Die folgenden Ausführungen beschränken sich dabei auf die zentralen
und für das Fach Musik im Speziellen relevanten Argumentationsfiguren.29
Kritische Positionen
Unter der Vielzahl der kritischen Anmerkungen lassen sich vier zentrale Positio-
nen identifizieren:30
28 Diskussion Musikpädagogik, Nr. 27, 2005; Musik & Bildung, Nr. 4, 2004. 29 Für allgemeine, nicht musikspezifische Positionen sei auf die in Fußnote 4 genannte Literatur verwiesen. 30 Gegenpositionen und -argumente werden an dieser Stelle nicht dargestellt; vgl. hierzu Knigge & Lehmann-Wermser, 2008.
26
(1) Zuvorderst steht hierbei ein sehr grundsätzlicher Einwand gegen eine stan-
dard- und kompetenzbasierte Ausrichtung des Faches Musik. Den betreffenden
Autoren zufolge sei das, was musikalische (und insgesamt ästhetische) Bildung
ausmacht, nicht in Form von Kompetenzen zu formulieren oder in Standards ab-
zubilden (z. B. Richter, 2005; Rumpf, 2005; Weber, 2004; vgl. auch Niessen &
Lehmann-Wermser, 2005; Rolle, 2006) – zumindest nicht umfassend und auch
nicht im Rahmen der von Klieme et al. (2003) vorgeschlagenen Konzeption.31 Die
Schlussfolgerungen aus diesem Einwand reichen von totaler Ablehnung von Bil-
dungsstandards für Musik (z. B. Rumpf, 2005) bis hin zu einer konstruktiven
Auseinandersetzung mit der Problematik (z. B. Niessen & Lehmann-Wermser,
2005).
(2) Ein weiterer häufig angeführter Kritikpunkt drückt sich in der Befürchtung
aus, dass durch Bildungsstandards einer gewissen ‚Gleichmacherei’ Vorschub ge-
leistet werde, die gerade in einem ästhetisch-kreativen Bereich besonders unange-
bracht sei (z. B. Richter, 2005, S. 22).32
(3) Darüber hinaus insistieren Teile des musikpädagogischen Diskurses auf einer
vermeintlichen ‚kognitiven Beschränkung’ des im Rahmen von Bildungsstandards
verwendeten Kompetenzbegriffs.33
(4) Ebenfalls auf grundlegender Ebene setzen Argumentationen an, die eine be-
sondere Problematik in der Kulturabhängigkeit und Subjektbezogenheit des Fa-
ches sehen (Vogt, 2004, S. 11 f.; Rolle, 2008b, S. 51 ff.).
Positive Aspekte
Neben den genannten kritischen Positionen gibt es auch eine Reihe von Autoren,
die in einer Kompetenzorientierung und dem Systemwechsel hin zu Bildungs-
standards durchaus Positives und Chancen für das Fach Musik sehen. Vor allem
drei Punkte werden dabei immer wieder hervorgehoben:
31 Die Diskussion um das Verhältnis von musikalischer Bildung und Kompetenz kann an dieser Stelle nicht nachgezeichnet werden; vgl. hierzu z. B. Bähr, 2001, S. 49 ff.; Geuen & Orgass, 2007; Kaiser, 1995; Rolle, 2008b; Vogt, 2008. 32 Vgl. hierzu auch die Klieme-Expertise (Klieme et al., 2003, Kap. 5), die auf den von Richter ge-äußerten Reduktionismus-Vorwurf und den Vorwurf der Vereinheitlichung und Nivellierung ex-plizit eingeht. 33 Vgl. hierzu die Ausführungen zum Kompetenzbegriff in Abschnitt 2.1.2.
27
(1) Die Erarbeitung von Standards kann die Fachdidaktik fordern und fördern
(z. B. Geuen, 2006; Urban, 2004; Weber, 2004): Hiermit ist zuvorderst gemeint,
dass in der Auseinandersetzung mit Bildungsstandards wichtige Prozesse in Gang
gesetzt werden können, die auch unabhängig von diesem Systemwechsel für die
Musikpädagogik auf den Weg zu bringen wären, nun jedoch mit erhöhter Dring-
lichkeit und Priorität; so z. B. die Verständigung über didaktische Leitideen, In-
halte und Kernbereiche oder die Einigung auf Bildungsziele des Faches.
(2) Standards können zu einer qualitativen Weiterentwicklung des Musikunter-
richts beitragen (z. B. Bähr, 2003; 2004b; Krämer, 2005; Niessen & Lehmann-
Wermser, 2005; Rolle, 2006; Scheuer, 2003). Angesichts der gegenwärtigen Situ-
ation des Musikunterrichts (keine Kontinuität, Lehrermangel und Unterrichtsaus-
fall, stark heterogene Lehrpläne in den einzelnen Bundesländern etc.; vgl. z. B.
Bähr, 2003) könnte das Fach Musik besonders von der Implementierung von
Standards profitieren. Von besonderer Bedeutung wird hierbei der Aspekt der sys-
tematischen Rückkopplung von Unterricht an evaluative Maßnahmen angesehen.
Damit könnten sich sowohl auf Systemebene als auch auf Schul- und Klassenebe-
ne Möglichkeiten zur Qualitätskontrolle und -steigerung ergeben. Mit der Orien-
tierung des konkreten Unterrichts an Kompetenzmodellen bzw. darauf basieren-
den Aufgaben und Tests verbindet sich nicht zuletzt die Erwartung, Aussagen ü-
ber spezifische Stärken und Schwächen und damit den Förderbedarf einzelner
Schülerinnen und Schüler machen zu können.
(3) Das Fach Musik muss sich der Diskussion um Bildungsstandards stellen, da
ansonsten ein erhöhter Legitimationsdruck für das Fach zu erwarten ist (z. B.
Geuen, 2006; Köhler, 2004). Im schlimmsten Fall, so die Meinung einiger Musik-
pädagogen, könnte die konsequente Ablehnung von Standards sogar grundlegende
und existenziell negative Folgen für das Fach Musik haben (z. B. Schoenebeck,
2004).
Zusammenfassend ist festzuhalten, dass sich einerseits auf curricularer Ebene ein-
deutig eine standard- und kompetenzorientierte Entwicklung abzeichnet. Anderer-
seits wird diese Entwicklung vonseiten des fachwissenschaftlichen Diskurses
größtenteils sehr kritisch begleitet. Darüber hinaus stellt die Musikpädagogik bis-
lang keine Kompetenzmodelle und darauf bezogene Aufgaben bzw. Testinstru-
mente zur Verfügung, die für curriculare Entwicklungen verwendet werden könn-
ten. Angesichts dieser Situation plädieren eine Reihe von Musikpädagogen dafür,
28
sich umfassend und systematisch der fachdidaktischen Aspekte von Bildungsstan-
dards anzunehmen (z. B. Flämig, 2004; Bähr, 2005; Köhler, 2004; Niessen &
Lehmann-Wermser, 2005).
Die dargestellte curriculare und fachdidaktische Situation bildet den Hintergrund,
vor dem im Rahmen des KoMus-Projekts erstmalig der Versuch unternommen
wird, einen Kompetenzbereich des Musikunterrichts in einem Kompetenzmodell
abzubilden und hierfür Testaufgaben bzw. ein Testinstrument zu entwickeln.
2.2.3 Das KoMus-Projekt
Die vorliegende Arbeit entstand im Kontext eines größeren Forschungsprojekts.
Innerhalb der Arbeit werden dabei einerseits Ergebnisse des Gesamtprojekts als
Grundlage genutzt (v. a. das theoretische Kompetenzmodell; vgl. 4.1), anderer-
seits stellt die vorliegende Arbeit Erkenntnisse bereit, die wiederum in die Ergeb-
nisse des Gesamtprojekts einfließen. Es wird daher im Folgenden zunächst ein
kurzer zusammenfassender Überblick über das KoMus-Projekt gegeben und ins-
besondere die Einbettung der vorliegenden Arbeit in das Projekt dargestellt.34
In den vorangegangenen Abschnitten wurde deutlich, dass im Kontext aktueller
bildungspolitischer Reformbemühungen der Implementierung von nationalen Bil-
dungsstandards eine zentrale Bedeutung zukommt. Wenngleich für das Fach Mu-
sik auf nationaler Ebene bislang keine Bildungsstandards angestrebt werden, so
zeigt sich doch auf Länderebene ein deutlicher Einfluss der Standardkonzeption
auf die Curricula des Faches Musik (vgl. 2.2.1). Problematisch erscheint hierbei
insbesondere das Fehlen von Kompetenzmodellen und darauf bezogener Aufga-
ben und Testinstrumente.
Vor diesem Hintergrund begann eine Arbeitsgruppe, bestehend aus Wissenschaft-
lern der Universitäten Bremen und Köln sowie der Musikhochschule Würzburg,
mit Vorbereitungen für ein Projekt zur Entwicklung von Kompetenzmodellen.35
Von 2007 bis 2010 wurde das daraus resultierende Forschungsprojekt „Kompe-
34 Umfassendere Ausführungen zu Hintergründen, Design und Ergebnissen des KoMus-Projekts sind bei Niessen, Lehmann-Wermser, Knigge & Lehmann (2008); Jordan, Knigge & Lehmann-Wermser (2010) und Jordan, Knigge, Lehmann-Wermser, Lehmann & Niessen (i. Vorb.) darge-stellt. Weitere Informationen sind auch auf der Projekthomepage zu finden: http://www.musik.uni-bremen.de/forschung/komus. 35 Beteiligte Wissenschaftler: Andreas C. Lehmann (Hochschule für Würzburg), Andreas Leh-mann-Wermser (Universität Bremen) und Anne Niessen (Universität zu Köln).
29
tenzmodell für das Fach Musik“ (KoMus) von der Deutschen Forschungsgemein-
schaft (DFG) gefördert. Im Rahmen von KoMus wurden zwei zentrale Ziele ver-
folgt:
1. Entwicklung eines Kompetenzmodells für den Bereich „Musik wahrneh-
men und kontextualisieren“;
2. Entwicklung eines darauf bezogenen Testinstruments (Kompetenztest),
das für Bildungsmonitoring und Evaluation eingesetzt werden kann.
Zur Durchführung des Projekts wurde ein Drei-Phasen-Design gewählt (vgl. Abb.
2): (1) Erstellung eines theoretischen Kompetenzmodells, (2) Operationalisierung
des Modells in Form von Testaufgaben, (3) Empirische Validierung des Modells
und Erstellung des Testinstruments auf Basis einer systematischen Pilotie-
rungsstudie.
Abb. 2: Drei-Phasen-Design des KoMus-Projekts
Durchführung und Ergebnisse der ersten Phase sind ausführlich bei Niessen et al.
(2008) beschrieben. Zusammenfassend erfolgten hierbei vor allem theoretische
Vorarbeiten für die Entwicklung des Kompetenzmodells (u. a. Erstellung eines
bildungstheoretischen Rahmens, Analyse der Musikcurricula der Bundesländer
30
und anschließende Dimensionalisierung des Faches in Kompetenzbereiche, Sich-
tung der national und international verfügbaren Modelle und Testverfahren, Defi-
nition der Zielpopulation36). Auf dieser Basis konnte anschließend ein theoreti-
sches Kompetenzmodell für den Bereich „Musik wahrnehmen und Kontextuali-
sieren“ entworfen werden, das auch die Grundlage für vorliegende Arbeit bildet
(vgl. 4.1).
Im Zentrum der zweiten Phase, die vom Autor der vorliegenden Arbeit verantwor-
tet und durchgeführt wurde, stand die Operationalisierung des Modellentwurfs in
Form von Testaufgaben. Hierfür wurde ein zirkulärer Prozess der Aufgabenent-
wicklung und -optimierung konzipiert, dessen zentrale Komponente die Arbeit ei-
ner Entwicklungsgruppe, bestehend aus Kooperationslehrern und Wissenschaft-
lern des KoMus-Projekts, darstellte. Dieser Prozess, die dabei durchgeführten A-
nalysen und die erreichten Ergebnisse stehen im Zentrum der vorliegenden Arbeit
und werden entsprechend ausführlich in den betreffenden Kapiteln behandelt
(Kap. 4, 5, 6 und 7). Im Rahmen der Aufgabenentwicklung konnte ein Itempool
generiert werden, der einerseits psychometrischen Kriterien genügt (vgl. 6.1), an-
dererseits aber vor allem die Dimensionen und Niveaus des theoretischen Kompe-
tenzmodells operationalisiert. Dieser Itempool ist gleichzeitig die Grundlage für
die dritte Phase.
In dieser abschließenden Phase stand die Validierung des Kompetenzmodells im
Vordergrund. Hierfür wurde eine computerbasierte (vgl. 8.3), zweistufige Pilotie-
rungsstudie durchgeführt (vgl. Jordan et al., 2010). Als Stichprobe konnten 1451
Schüler sechster Klassen an Schulen aus Niedersachsen und Bremen gewonnen
werden. Ziel der ersten Stufe war die Überprüfung der internen Konsistenz der
theoretisch angenommenen Modelldimensionen, wofür die in der zweiten Pro-
jektphase generierten Items in vier Testheften zusammengefasst wurden, sodass
jeweils nur Items einer Dimension in einem Testheft enthalten waren. Die zweite
Stufe umfasste die Testung von Aufgaben aller Dimensionen in einem Finaltest-
heft. Auf Basis der in der zweiten Stufe erhobenen Daten konnten sowohl die I-
tems für das endgültige Testinstrument selektiert werden als auch die Überprü-
fung der Modellstruktur erfolgen. Hierfür wurden einerseits Analysen zur Validie-
36 Das Kompetenzmodell und die darauf bezogenen Testaufgaben wurden für Schüler der Klassen-stufe Sechs entwickelt (vgl. Niessen, Lehmann-Wermser, Knigge & Lehmann, 2008, S. 18).
31
rung der dimensionalen Struktur durchgeführt (uni- und multidimensionale
Raschmodellierungen, konfirmatorische Faktorenanalysen), andererseits kamen
Methoden zur Bildung von Kompetenzniveaus zum Einsatz.37
37 Die Ergebnisse des KoMus-Projekts können aus publikationsrechtlichen Gründen an dieser Stel-le nicht referiert werden. Eine entsprechende Publikation ist in Vorbereitung (Jordan, Knigge, Lehmann-Wermser, Lehmann & Niessen, i. Vorb.).
32
3 Aufgaben als zentrales Moment der Kompetenzerfassung
Das Entwickeln, Stellen, Bearbeiten und Lösen von Aufgaben ist traditionell eine
zentrale Komponente von Lehr-Lern-Prozessen.38 In der erziehungswissenschaft-
lichen, psychologischen und nicht zuletzt auch fachdidaktischen Literatur werden
verschiedene Aufgabensystematiken vorgeschlagen (vgl. z. B. Bausch, Burwitz-
Melzer, Königs & Krumm, 2006; Eikenbusch, 2008; Herget, 2006; Thonhauser,
2008a). Aufgaben werden dort z. B. hinsichtlich ihres Inhalts, ihrer Funktion oder
ihres Formats unterschieden. Es ergibt sich dabei eine Vielzahl von Aufgabenty-
pen: u. a. diagnostische Aufgaben, geschlossene/offene Aufgaben, kompetenzori-
entierte Aufgaben, konvergente/divergente Aufgaben, Lernaufgaben, Prüfungs-
aufgaben oder Testaufgaben.39 Der Diskurs zum Thema ‚Aufgaben’ ist entspre-
chend umfassend und hat vor allem im Kontext der kompetenz- und standardba-
sierten Reformprozesse an Dynamik gewonnen (vgl. Thonhauser, 2008b).
Im Zuge der Kompetenzorientierung stehen Aufgabenstellungen besonders im
Fokus, da ihnen mehrere zentrale Funktionen zugewiesen werden (z. B. Klieme,
2007, S. 78 f.; vgl. auch 2.1.1 und 2.1.3): (1) Auf curricularer Ebene sollen Auf-
gaben die dort formulierten Kompetenzen konkretisieren und illustrieren. Die
meist relativ abstrakt beschriebenen Kompetenzfacetten und -niveaus werden so
inhaltlich präzisiert und sollen als Orientierung für kompetenzorientierte Unter-
richtsentwicklung dienen.40 (2) Kompetenzorientierte (Lern-)Aufgaben haben auf
Unterrichtsebene die Funktion, Kompetenzaufbau und -förderung zu ermöglichen.
(3) Ein weiteres Einsatzgebiet von (Test-)Aufgaben besteht darin, die Kompeten-
zen von Schülerinnen und Schülern zu überprüfen.
38 Dies gilt auch für das Fach Musik, wenngleich das Thema auf fachwissenschaftlicher Ebene dort bislang kaum Beachtung fand (vgl. Niessen, 2008). 39 Jeder dieser Aufgabentypen bezieht sich in der Regel auf einen speziellen Anwendungskontext und weist entsprechende Besonderheiten in Bezug auf die Konstruktion, Verwendung und Aus-wertung der Aufgaben auf. Eine genauere Betrachtung dieser umfassenden Thematik kann an die-ser Stelle nicht erfolgen. Verwiesen sei auf die genannten Publikationen, die eine große Anzahl an Beiträgen zu den verschiedenen Aufgabentypen und deren Kontexte enthalten. 40 Trotz der Übernahme des Kompetenzkonzepts von fast allen neueren Musikcurricula besteht an diesem Punkt noch großer Entwicklungsbedarf (vgl. 2.2.1). Ebenso wie Kompetenzmodelle fehlen illustrative Aufgaben, sodass die meisten Curricula mit sehr vagen Kompetenzformulierungen o-perieren, deren Nützlichkeit für die Qualitätsentwicklung des Unterrichts zumindest fraglich er-scheint. Erste Versuche der Konkretisierung von Kompetenzbeschreibungen mittels Aufgaben wurden z. B. in Hessen und Baden-Württemberg („Niveaukonkretisierungen“) vorgelegt.
33
Für den vorliegenden Zusammenhang ist vor allem die funktionale Unterschei-
dung von Lern- und Testaufgaben wichtig (z. B. Benner, 2007; Caspari, Grotjahn
& Kleppin, 2008). Während bei Lernaufgaben der Anregungsgehalt und das
Lernpotenzial im Vordergrund stehen (Kompetenzen sollen beispielsweise aufge-
baut und gefördert werden), besteht die Funktion von Testaufgaben darin, Kompe-
tenzen einer empirischen Überprüfung zugänglich zu machen. In diesem Sinne
werden Testaufgaben zur Lernstandsfeststellung in Schulleistungsstudien, nicht
zuletzt aber auch in Klassen- und Abschlussarbeiten eingesetzt. Dieser Praxis liegt
die Annahme zugrunde, dass aus dem Lösen von Aufgaben mit einer relativ ho-
hen Sicherheit auf das Vorhandensein bzw. Fehlen der entsprechenden Kompe-
tenzen bei Schülern geschlossen werden kann. Um das leisten zu können, müssen
Testaufgaben bestimmten formalen und psychometrischen Kriterien genügen
(Granzer et al., 2008, S. 16 ff.).
3.1 Testaufgaben: Gütekriterien, Komponenten, Formate
Die im KoMus-Projekt entwickelten Testaufgaben erfüllen zwei Funktionen: (1)
Durch verschiedene Analyseverfahren und anschließende Aufgaben- bzw. Itemse-
lektion (vgl. 6.1) soll aus den Aufgaben ein standardisiertes Testinstrument gebil-
det werden. (2) Mittels der selektierten Aufgaben ist eine empirische Überprüfung
und ggf. notwendige Modifikation des Kompetenzmodells, auf das sich die Auf-
gaben beziehen, möglich.
Gütekriterien
Sowohl für die Validierung des Modells als auch für den darauf bezogenen Kom-
petenztest ist es erforderlich, dass die Aufgaben bestimmten Qualitätsansprüchen
genügen. Die Hauptgütekriterien von Tests (Objektivität, Reliabilität und Validi-
tät) sind in der empirischen Forschungsmethodik hinlänglich bekannt und be-
schrieben (z. B. Moosbrugger & Kelava, 2007). Es sollen an dieser Stelle daher
wenige zusammenfassende Ausführungen genügen:
Unter der Objektivität eines Tests versteht man den Grad, in dem das Testergebnis
unabhängig ist vom Testleiter bzw. den Personen, die den Test auswerten. Umge-
kehrt formuliert bedeutet dies, dass das Testergebnis nur von den Merkmalen (in
vorliegendem Kontext also den Kompetenzen) der Schüler abhängen darf. Übli-
34
cherweise gilt die Objektivität eines Testverfahrens als sichergestellt, wenn eine
gründliche Standardisierung und Dokumentation der Testdurchführung und -
auswertung vorliegt.41
Die Reliabilität (Zuverlässigkeit) bezeichnet die Messgenauigkeit, mit der ein
Test das zu messende Merkmal erfasst. Die verschiedenen Reliabilitätsarten kön-
nen mit statistischen Verfahren geprüft werden (z. B. Bühner, 2006, Kap. 4).42
Die Validität (Gültigkeit) beschreibt das Ausmaß, in dem ein Test tatsächlich das
Merkmal erfasst, das er messen soll. In Bezug auf Kompetenztests wird vor allem
die Bedeutung von Kriteriums- und Inhaltsvalidität betont (Hartig et al., 2007,
S. 22 f.). Gerade die Frage, wie gut sich ein Test praktisch bewährt, also Verhal-
ten außerhalb der Testsituation prognostizieren kann (Kriteriumsvalidität), er-
scheint für die Kompetenzerfassung im Schulkontext zentral. Ebenso bedeutsam
ist die Inhaltsvalidität, denn wenn untersucht werden soll, ob die auf curricularer
Ebene beschriebenen Kompetenzen von Schülern erworben wurden, so muss der
Test die entsprechenden Kompetenzen hinreichend gut abbilden.43
Die eben genannten Hauptgütekriterien sind nicht unabhängig voneinander (z. B.
Bühner, 2006, S. 42 f.): Nur ein hinreichend objektiver Test kann auch eine opti-
male Reliabilität erreichen. Ebenso ist die Reliabilität Voraussetzung für die Vali-
dität eines Tests. Zusammenfassend ist festzuhalten, dass standardisierte Tests
(und entsprechend die dabei verwendeten Testaufgaben) den genannten Gütekrite-
rien entsprechen müssen, um eine zuverlässige Messung der anvisierten Kompe-
tenzen sicherzustellen.
Neben diesen psychometrischen Gütekriterien ist auch die Wahl eines geeigneten
Itemformats entscheidend für die optimale Erfassung von Kompetenzen.
Aufgabenkomponenten und Itemformate
Folgende Komponenten einer Testaufgabe sind in formaler Hinsicht zu unter-
scheiden (vgl. Abb. 3): Aufgaben bestehen in der Regel aus einem Aufgaben-
stamm und mehreren Items, also den verschiedenen Fragestellungen und Ar-
41 Beides ist im Rahmen der vorliegenden Arbeit gewährleistet (vgl. 5.3.2 und 6.1). 42 Die Reliabilitäten der durchgeführten Tests sind in Abschnitt 6.1.3 (Tab. 15) dargestellt. 43 Die Frage der Validität der im Rahmen des KoMus-Projekts entwickelten Items bzw. des daraus zu bildenden Testinstruments wird ausführlicher in Kapitel 8.4 behandelt.
35
beitsaufträgen für die Schüler. In Ausnahmefällen kann es auch Aufgaben ohne
Aufgabenstamm geben, wenn die Aufgabenstellung allein durch die Itemstämme
definiert wird. In einer Aufgabe zur Hörwahrnehmung ist das Hörbeispiel der
Aufgabenstamm. Zu diesem Hörbeispiel können Fragen formuliert werden, für
deren Beantwortung die Schüler entweder aus mehreren vorgegebenen Lösungs-
vorschlägen die zutreffende Alternative auswählen sollen oder aber frei antworten
können. Eine Frage (Itemstamm) und die zugehörigen Lösungsvorschläge (Ant-
wortalternativen) bilden zusammen ein Item. Eine Testaufgabe kann also aus
mehreren Items bestehen, wobei ein Item die kleinste Analyseeinheit eines Tests
darstellt.
Abb. 3: Komponenten einer Testaufgabe am Beispiel eines Multiple-Choice-Items
Für die Entwicklung von Testaufgaben stehen verschiedene Item-Formate und
-Typen zur Verfügung (z. B. Bühner, 2006, S. 53 ff.). Wenn die Aufgabenstellung
verschiedene Elemente oder Antwortmöglichkeiten vorgibt, die bearbeitet werden
müssen bzw. aus denen ausgewählt werden muss, so spricht man von einem ge-
schlossenen Format. Wenn die Antwort auf ein Item frei und nach eigenem Er-
messen gewählt werden kann, so handelt es sich um offene Formate. Tab. 1 ent-
hält die im Rahmen des KoMus-Projekts eingesetzten Formate.
36
Tab. 1: Verwendete Item-Formate und -Typen (in Anlehnung an: Granzer et al., 2008, S. 20 und Hartig & Jude, 2007, S. 30)
Item-Formate und -Typen Vor- und Nachteile
1. Geschlossene Item-Formate
1.1 Richtig-Falsch-Items Diese Items bestehen aus einem Item-Stamm, der als Frage oder Aussage formuliert sein kann, und zwei Antwortalter-nativen, bspw. ‚Ja/Nein’ oder ‚Richtig/Falsch’, von denen immer eine wahr und die andere unwahr ist. Die Ratewahr-scheinlichkeit von 50 % ist ein schwerwiegender Nachteil dieses Item-Typs, der jedoch durch entsprechende Auswer-tungsstrategien ausgeglichen werden kann.44
1.2 Multiple-Choice-ltems MC-ltems bestehen aus einem Item-Stamm, der als Frage oder zu vervollständigende Aussage formuliert sein kann, und meist vier Antwortalternativen, wobei die korrekte Antwortalternative als ‚Target’ oder ‚Schlüsselantwort’ und die falschen Antwortmöglichkeiten als ‚Distraktoren’ be-zeichnet werden.
1.3 Matching- bzw. Zuordnungs-Items Bei Zuordnungs-Items sollen Elemente zweier Kategorien einander zugeordnet werden, bspw. die Wirkung von Mu-sikstücken und die dafür verantwortlichen kompositori-schen Mittel.
2. Halboffene-Item-Formate
2.1 Kurzantwort-Items Bei diesen Items werden die Schülerinnen und Schüler ge-beten, zur Beantwortung einer Frage einzelne Wörter, Zah-len oder Symbole anzugeben oder einen Satz zu vervoll-ständigen.
2.2 Korrektur- und Verbesserungsaufgaben Bei Korrekturaufgaben sollen Fehler im Noten- oder Hör-beispiel identifiziert und korrigiert bzw. beschrieben wer-den.
3. Offenes-Item-Format Die Schüler werden aufgefordert, eine umfassendere eigen-ständige Leistung zu erbringen durch freies Antworten auf ein Item. Um eine objektive Auswertung gewährleisten zu können, sind detaillierte Kodieranweisungen notwendig.
+ einfache Auswertung
+ hohe Objektivität
+ schnell zu beantworten
- anspruchsvolle Konstruk-tion
- fragliche Validität
+ hohe Inhaltsvalidität
+ einfach zu konstruieren
- zeitaufwendige Beantwor-tung
- aufwendige Auswertung
- fragliche Objektivität
Jedes der aufgelisteten Formate hat Vor- und Nachteile (Tab. 1, rechte Spalte).
Geschlossene Formate sind sehr ökonomisch in der Bearbeitung und Auswertung
bei gleichzeitig maximaler Auswertungsobjektivität.45 Komplexe und kreative Fä-
higkeiten können aber oft nur schwer oder gar nicht mit geschlossenen Formaten
44 Es werden hierfür bei der Auswertung mehrere Richtig-Falsch-Fragen bzw. -Aussagen zu einem Item zusammengefasst (vgl. auch 6.1.2). 45 U. U. kann die hohe Objektivität von geschlossenen Formaten jedoch zu Lasten der Validität des Tests gehen (Rost, 2004, S. 61).
37
erfasst werden (Rost, 2004, S. 59 ff.).46 Offene Aufgaben sind hingegen eher ge-
eignet für komplexere Anforderungen und das Antwortverhalten lässt sich leichter
auf reale Situationen übertragen. ‚Erkauft’ wird dies jedoch mit einem relativ ho-
hen Zeitaufwand bei der Bearbeitung der Aufgaben und vor allem bei der Aus-
wertung (Erstellung von detaillierten Kodieranweisungen, Kodierung der Schüler-
antworten durch mehrere Rater, Berechnung der Interrater-Reliabilität). Es muss
daher darauf geachtet werden, dass das gewählte Aufgabenformat und die anvi-
sierte Kompetenz in einem entsprechenden Passungsverhältnis zueinander stehen,
um eine ökonomische, aber gleichzeitig möglichst objektive und valide Messung
zu gewährleisten.
3.2 Tests und Aufgaben zur Erfassung musikalischer Kompetenz:
Stand der Forschung47
In Abschnitt 2.2.2 wurde der fachwissenschaftliche Diskurs zu Bildungsstandards
und Kompetenzorientierung im Fach Musik dargestellt. Die dort formulierten kri-
tischen Positionen sind zum Teil nicht auf den Kontext der aktuellen Reformen
des Bildungssystems beschränkt. Vielmehr herrscht in der deutschen Musikpäda-
gogik traditionell eine große und sehr grundsätzliche Skepsis gegenüber standar-
disierten Testverfahren zur Erfassung musikbezogener Leistungen (z. B. Bruhn,
1994; Kormann, 2005; Meißner, 1987; Oerter & Bruhn, 1997, S. 558). Kormann
(2005) nennt hierfür folgende Gründe:
„Die prinzipielle Ablehnung naturwissenschaftlicher Methoden im musikalisch-künstlerischen Bereich, das generelle Desinteresse weiter Kreise deutscher Schulpä-dagogen an Tests, die zunehmende Theoriemüdigkeit in der Musikpädagogik in den letzten Jahren, das ungelöste Hauptproblem der Validität von Musikalitätstests, Gefah-ren eines unreflektierten Einsatzes von Musiktests (Labeling- bzw. Stigmatisierungs-effekt, Negativprognosen), der in der Regel sehr hohe finanzielle und zeitliche Auf-wand bei der Konstruktion und Erprobung von Tests an repräsentativen Stichproben
46 Gerade in fachdidaktischen Kontexten bestehen oft große Vorbehalte gegenüber geschlossenen Formaten. „Dennoch besitzen MC-Items in Abhängigkeit von der Beschaffenheit der Fragestel-lung und der gewählten Distraktoren […] ein großes Potential, welches sich auch auf höhere kog-nitive Anforderungen ausdehnen lässt und oftmals unterschätzt wird“ (Granzer, Böhme & Köller, 2008, S. 20). Herget (2006, S. 186 f.) zeigt z. B. eindrucksvoll, wie ein offenes Format in ein ge-schlossenes überführt werden kann, ohne dass der Grad an Komplexität verlorengeht. 47 Es sei vorab darauf hingewiesen, dass bislang keine Testverfahren existieren, die sich explizit auf das Kompetenzkonzept beziehen, wie es der vorliegenden Arbeit zugrunde liegt (vgl. 2.1.2). Aus diesem Grund wird im Folgenden auf den breiteren Kontext der Testverfahren zur Erfassung musikalischer Leistung rekurriert.
38
und nicht zuletzt die Tatsache, dass Musikalitätstests im Vergleich zu Intelligenz- oder Schulleistungstests bei ‘justitiablen’ Entscheidungen […] nicht eingesetzt werden müssen.“ (S. 370-371)
Entsprechend waren lange Zeit in der deutschen Musikpädagogik weder ein um-
fassender Diskurs noch Forschungstätigkeiten zur Thematik auszumachen (Loh-
mann, 1997).48 Abgesehen von wenigen und schon relativ alten Publikationen im
Kontext der Curriculumdiskussion der 1970er Jahre (z. B. Füller, 1974) scheint
das Thema erst im letzten Jahrzehnt (z. B. Lütgert, 2001; Stöger, 2006) und insbe-
sondere im Zusammenhang mit den standard- und kompetenzbasierten Reform-
prozessen der letzten Jahre an Bedeutung zu gewinnen (z. B. Schäfer-Lembeck,
2008). Dem dabei immer wieder formulierten Bedarf an Verfahren zur möglichst
objektiven Erfassung musikbezogener Leistungen folgten bislang jedoch keine
umfassenderen Forschungsarbeiten auf dem Gebiet der Testkonstruktion. So ist
zum heutigen Zeitpunkt zu konstatieren, dass in der deutschen Musikpädagogik
weder standardisierte Testverfahren zur Erfassung musikalischer Leistungen ent-
wickelt noch entsprechende Verfahren aus dem Ausland adaptiert und in größe-
rem Umfang angewendet wurden.49
Vor diesem Hintergrund ist der ohnehin gebotene Blick ins Ausland umso not-
wendiger, da hier diverse Arbeiten auf dem Gebiet der Konstruktion und Nutzung
von Tests zur Erfassung musikbezogener Leistungen vorliegen. Einerseits sind
hierbei sogenannte ‚Musiktests’ von Interesse, die größtenteils vonseiten der US-
amerikanischen und englischen Musikpsychologie entwickelt wurden (3.2.1). An-
dererseits gibt es in den USA in jüngster Vergangenheit vermehrte Anstrengungen
auch für das Fach Musik nationale Schulleistungsstudien (‚large-scale-
assessments’) durchzuführen (3.2.2).
48 Aufgrund des fehlenden Diskurses lassen sich auch nur vereinzelt Positionen identifizieren, die für den Einsatz von Testverfahren zur Leistungserfassung plädieren bzw. deren Potential reflektie-ren (z. B. Lohmann, 1997; Meißner, 1999). Demgegenüber steht international ein relativ breiter Diskurs zum Thema „Assessment’s Potential in Music Education“ (Colwell, 2002), bei dessen Be-trachtung sich vor allem für die englischsprachigen Länder (insbesondere USA) eine relativ positi-ve Haltung gegenüber Assessment-Konzepten zeigt. Dieser Diskurs kann an dieser Stelle nicht nachgezeichnet werden, verwiesen sei exemplarisch auf folgende Publikationen: Asmus, 1999; Brophy, 2008; 2010; Colwell, 1999b; 2004; Murphy, 2007; Pistone, 2002; Wolf & Pistone, 1991. Interessant ist vor allem ein Beitrag von Fisher (2009), der das Potential aber auch die Probleme standardbasierter Leistungsmessung im US-amerikanischen Kontext überblicksartig darstellt. 49 Eine der wenigen Ausnahmen stellt die Arbeit von Bähr (2001) dar, der sowohl bestehende Ver-fahren adaptiert als auch eigene Testinstrumente entwickelt; weitere Ausführungen erfolgen hierzu in Abschnitt 3.2.1.
39
3.2.1 Musiktests
In der internationalen Musikpädagogik und -psychologie (v. a. Australien, Eng-
land und USA) gibt es eine lange Tradition standardisierter Musiktests, die bis in
die Mitte des 19. Jahrhunderts zurückreicht.50 Unter dem Terminus ‚Musiktest’
wird üblicherweise eine Vielzahl von Messverfahren zusammengefasst. Systema-
tisieren lassen sich diese in die folgenden Bereiche (Boyle & Radocy, 1987; vgl.
auch Kormann, 2005, S. 373):51 musikalische Begabungstests (‚tests of musical
aptitude and ability’), musikalische Leistungstests (‚tests of musical achieve-
ment’), Gesangs- und Instrumentaltests (‚tests of musical performance’) und Tests
der musikbezogenen Einstellung und Wertung (‚tests of musical attitude and ap-
preciation’). Für den vorliegenden Zusammenhang sind lediglich Leistungstests
von Interesse. Wenngleich Begabungstests z. T. inhaltliche Überschneidungen mit
Leistungstests aufweisen, so beziehen sich beide auf ein deutlich zu unterschei-
dendes theoretisches Konstrukt:
„Begabungs- oder Musikalitätstests wollen das von Lernerfahrungen unabhängige, angeborene Potential an musikalischen Fähigkeiten (aptitude) messen. Musikalische Leistungstests beziehen sich auf die Prüfung von musikalischen Fähigkeiten, die durch Unterricht erlernt wurden (achievement).“ (Gembris, 1998, S. 111 f.)
Das Verhältnis von Begabungs- zu Leistungstests ist somit in etwa dem bereits
diskutierten Verhältnis von Intelligenz und Kompetenz vergleichbar (vgl. 2.1.2).
Im Fokus der folgenden Betrachtungen stehen daher ausschließlich musikalische
Leistungstests, die jedoch innerhalb der Gesamtheit der Musiktests nur einen
marginalen Anteil ausmachen:
“The number of assessment devices for music K-12 published in the past thirty-five years can be counted on one hand, yet in this same period of time most of the research requiring assessment in music education has been conducted. There is more interest in measuring music aptitude than music achievement. Apparently parents and teachers find musical talent identification more important than accurate measures of achieve-ment. The research literature does not reveal this priority as a problem; there is no call to arms, no pressure to resolve the differences.” (Colwell, 1999b, S. 59 f.)
Musikalische Leistungstests beinhalten die Erfassung von musiktheoretischen und
-geschichtlichen Wissensbeständen (‚general musical knowledge’), Wissen in Be-
zug auf Notation, auditiv-visuelle Fähigkeiten, auditive Fähigkeiten und komposi-
50 Überblicksdarstellungen finden sich z. B. bei Boyle & Radocy (1987) und Kormann (2005). 51 In der Literatur finden sich noch weitere Vorschläge für die Systematisierung von Musiktests (vgl. Kormann, 2005, S. 373 f.).
40
torische Fähigkeiten (Boyle & Radocy, 1987, S. 157 ff.).52 Im Folgenden werden
die drei bekanntesten musikalischen Leistungstests kurz skizziert (Boyle & Rado-
cy, 1987, S. 164 ff.):53
(1) Bereits Ende der 1960er, Anfang der 70er Jahre entwickelte Colwell die aus
vier Tests bestehenden „Music Achievement Tests“ (Colwell, 1969; 1970a). Die
Itementwicklung basierte auf der Analyse von Schulbüchern und wurde in Zu-
sammenarbeit mit einem Team aus erfahrenen Lehrkräften durchgeführt. Inhalt-
lich erfassen die Tests ausschließlich auditive bzw. auditiv-visuelle Fähigkeiten
(Tonhöhendiskrimination, Intervalldiskrimination, Takterkennung, Diskrimination
von Dur/Moll, Fehlerhören auf Basis einer Notation, tonales Gedächtnis, Melo-
dieerkennung, Instrumentenerkennung, Erkennung von musikalischen Stilen, Er-
kennung von musikalischen Gestalten, Akkorderkennung, Kadenzerkennung). Für
die vier Tests liegen gute bis sehr gute Reliabilitäten (Kuder-Richardson) zwi-
schen .88 und .94 vor. Die Inhaltsvalidität wurde mittels Lehrerurteilen abgesi-
chert. Da es sich um ein normorientiertes Testverfahren handelt, wurde eine Test-
normierung für alle vier Tests und für jede Klassenstufe (4-12) durchgeführt.
(2) Die „Iowa Tests of Music Literacy“ (ITML) wurden etwa zur gleichen Zeit
von Gordon zur Erfassung auditiver Wahrnehmung und tonal-rhythmischen Fä-
higkeiten entwickelt (Gordon, 1971). Die Tests sind unterteilt in verschiedene
Schwierigkeitslevels, wobei Level 1-3 für die Klassenstufen 4-12 und Level 4-6
für die Klassenstufen 7-12 vorgesehen ist. Inhaltlich sind alle Levels gleich kon-
struiert und beinhalten jeweils Items zu den beiden Bereichen ‚tonale Konzepte’
und ‚rhythmische Konzepte’ (jeweils unterteilt in Subtests zu auditiver Wahrneh-
mung, lesendem Wiedererkennen und Notationsverständnis). Die Inhaltsvalidität
wurde nicht speziell abgesichert, die Reliabilitäten (Split-Half) liegen für alle Le-
vels in einem Bereich zwischen .87 und .94. Auch für diese Tests liegen Normie-
rungen für alle Levels und Klassenstufen vor.
52 In den Bereich der Leistungstests fällt prinzipiell auch die Erfassung von musikpraktischen Fä-higkeiten. Hierfür existiert jedoch die eigenständige Testgruppe der Gesangs- und Instrumental-tests. 53 Es existiert noch eine kleine Anzahl weiterer Tests, die jedoch in der Regel nicht publiziert sind (Boyle & Radocy, 1987, S. 164). Die drei im Folgenden beschriebenen Tests sind hingegen gut dokumentiert und über Testverlage erhältlich. Somit konnte eine detaillierte Auswertung hinsicht-lich einer möglichen Nutzung für das KoMus-Projekt erfolgen.
41
(3) Die „Silver Burdett Music Competency Tests“ umfassen insgesamt 18 Tests
auf sechs verschiedenen Levels. Es handelt sich bei den ebenfalls von Colwell
(1979) entwickelten Verfahren um kriterienorientierte Tests, die sich explizit auf
eine Schulbuchserie beziehen. Inhaltlich erfassen die Tests die Wahrnehmung von
Melodien, Rhythmen, Klangfarbe, Gestalt, Form, Tonalität und Dynamik. Die Te-
streliabilitäten (Test-Retest) liegen zwischen .69 und .94. Die Inhaltsvalidität be-
zieht sich auf die verwendeten Schulbücher und wurde durch Lehrerurteile abge-
sichert.
Bei genauerer Betrachtung der dargestellten Tests zeigt sich zunächst, dass eine
Reihe von Subtests und Items vorliegen, die eine inhaltliche Nähe zum KoMus-
Kompetenzmodell aufweisen (vgl. 4.1). Gleichzeitig wird aber auch die Herkunft
der Tests deutlich: Diese sind einerseits sehr stark auf das US-amerikanische
Schulsystem, im Extremfall (Colwell, 1979) sogar explizit auf eine bestimmte
Schulbuchreihe abgestimmt. Andererseits sind die Testverfahren relativ alt und
weisen eine starke Nähe zu damaligen theoretischen Konzepten (v. a. den Bloom-
schen Lernzieltaxonomien) auf.54 Unter Berücksichtigung der unterschiedlichen
theoretischen Hintergründe und vor allem aufgrund der mangelnden Inhaltsvalidi-
tät (verstanden als curriculare Validität in Bezug auf das deutsche Schulsystem)
erscheint es nicht sinnvoll ganze Tests oder Subtests für die Operationalisierung
des KoMus-Modells zu verwenden. Trotzdem sind die bereits vorhandenen Test-
instrumente überaus hilfreich als Orientierung für den Prozess der Itemkonstrukti-
on (vgl. 4.3).
Abschließend sei noch auf die einzige umfassendere Testentwicklung der letzten
Jahre in Deutschland verwiesen. Bähr (2001) entwickelte bzw. adaptierte im
Rahmen seiner Dissertation mehrere Testverfahren für Schüler der Klassenstufen
fünf und sechs, von denen für den vorliegenden Zusammenhang vor allem der
MLT-Gruppentest55 von Interesse ist. Der MLT enthält mehrere Subskalen, von
denen sich vier auf Wahrnehmungsfähigkeiten beziehen: Instrumentendiskrimina-
tion, Instrumentenerkennung, hörendes Wahrnehmen musikalischer Gestaltungs-
elemente und Formwahrnehmung. Während der MLT insgesamt eine gute Relia-
54 Es verwundert daher auch nicht, dass die Items meist sehr isolierte Teilfähigkeiten erfassen. Komplexere und nahe an realen Anforderungssituationen konstruierte Aufgabenstellungen zur Kompetenzerfassung finden sich hingegen höchst selten. 55 MLT = Musikleistungstest.
42
bilität aufweist (Cronbachs Alpha = .81), liegt die Reliabilität für die Subskalen
zur Hörwahrnehmung bei nur .60. Eine Verwendung des Testinstruments erschien
daher aus Gründen der mangelnden Reliabilität, aber vor allem auch hinsichtlich
der Inhaltsvalidität problematisch, da sich der MLT speziell auf das hessische
Curriculum bzw. einen in diesem Rahmen durchgeführten Schulversuch bezieht.
Ähnlich den US-amerikanischen Leistungstests wurde aber auch der MLT als
Grundlage für die KoMus-Itementwicklung herangezogen.
3.2.2 Schulleistungsstudien
Während für die sogenannten ‚Hauptfächer’ (incl. naturwissenschaftliche Fächer)
in regelmäßigen Abständen großangelegte nationale und internationale Schulleis-
tungsstudien durchgeführt werden (z. B. DESI, IGLU, PISA, TIMMS), liegen Stu-
dien dieser Größenordnung bislang für das Fach Musik nicht vor. Lediglich in den
USA gab es größere nationale Musik-Schulleistungsstudien im Rahmen des
NAEP-Programms.56
Bis zum heutigen Zeitpunkt wurden insgesamt vier NAEP-Studien durchgeführt
(1972, 1978, 1997 und 2008; im Überblick: Fisher, 2009). Für den vorliegenden
Zusammenhang ist vor allem die Studie aus dem Jahr 1997 von Interesse, da diese
einerseits einen direkten Bezug zu den ‚National Standards for Music Education’
(Music Educators National Conference, 1994) aufweist und andererseits in Anlage
und Durchführung die umfangreichste und am besten dokumentierte Studie dar-
stellt (Allen, Jenkins & Schoeps, 2004; Persky, Sandene & Askew, 1998).57 Un-
tersucht wurden die musikalischen Fähigkeiten von Schülern der achten Jahr-
gangsstufe in den drei Bereichen ‚responding to music’, ‚creating’ und ‚perfor-
ming’. Die umfangreichen Ergebnisse der gesamten Studie können an dieser Stel-
le nicht dargestellt werden (vgl. hierzu Persky et al., 1998). Interessant für den
vorliegenden Zusammenhang ist vor allem der Bereich ‚responding to music’, der
neben Hörwahrnehmungsfähigkeiten u. a. auch Notationskenntnisse, Wissen in
56 NAEP = National Assessment of Educational Progress; darüber hinaus werden aktuell auch in einigen US-Bundesstaaten größere Schulleistungsstudien durchgeführt (vgl. die entsprechenden Beiträge in Brophy, 2008). Umfassendere Publikationen stehen hierzu jedoch noch aus. 57 Die jüngste Studie aus dem Jahr 2008 benutzte das „assessment framework“ (National Assess-ment Governing Board, 1994) und die Testinstrumente der 1997er Studie, jedoch mit einer aus Kostengründen deutlich kleineren Stichprobe und begrenzt auf nur einen Inhaltsbereich (‚respon-ding to music’). Es erfolgen daher an dieser Stelle nur Ausführungen zu der Studie von 1997.
43
Bezug auf die kulturellen und historischen Kontexte von Musik und die Fähigkeit
zur kritischen Bewertung eines Musikstücks bzw. dessen Ausführung umfasst
(National Assessment Governing Board, 1994, S. 12; Persky et al., 1998, S. 11).
Bereits in dieser inhaltlichen Ausrichtung des Bereichs ‚responding to music’ deu-
tet sich eine – im Vergleich zu den Musiktests – andere Konzeption der Erfassung
von musikalischer Leistung an. Ohne den Terminus ‚Kompetenz’ zu verwenden,
geht die konzeptionelle Ausrichtung der NAEP-Studie doch eindeutig in diese
Richtung. Entscheidend ist in diesem Zusammenhang der Begriff „authentic as-
sessment“ (Persky et al., 1998, S. 10): Es sollen hierbei kontextspezifische und
auf möglichst reale Anforderungssituationen bezogene Leistungen erfasst werden,
was sich auch in den Testaufgaben entsprechend widerspiegelt.58 Aus methodi-
scher Sicht ist die NAEP-Studie auch deshalb interessant, da hier erstmals proba-
bilistische Methoden im Rahmen eines Musik-Leistungstests eingesetzt wurden
(vgl. 5.1). Es konnte für den ‚responding’-Bereich eine Rasch-Skalierung durch-
geführt und anschließend die Skala – ähnlich der Definition von Kompetenzni-
veaus – in drei Abschnitte eingeteilt werden (Persky et al., 1998, S. 40 f.). Wenn-
gleich an die NAEP-Studie verschiedene Kritik herangetragen wurde – insbeson-
dere in Bezug auf die Validität der Ergebnisse (z. B. Colwell, 1999a) –, so stellt
sie doch international das umfassendste und methodisch avancierteste Vorgehen
zur Erfassung musikalischer Leistung im Large-Scale-Bereich dar.
Hinsichtlich einer direkten Übernahme von Aufgaben stellt sich auch hier das
Problem der Inhaltsvalidität, denn die Tests sind für Schüler der achten Klassen-
stufe und größtenteils sehr speziell für den US-amerikanischen Schulkontext kon-
struiert.59 Trotzdem bilden die innovativen und teilweise sehr komplexen Aufga-
benformate der NAEP-Studie eine wichtige Grundlage für die Aufgabenentwick-
lung im Rahmen des KoMus-Projekts.
58 Exemplarisch werden ausgewählte Aufgaben – insbesondere unter dem Aspekt einer möglichen Verwendung im Rahmen des KoMus-Projekts – bei Knigge & Lehmann-Wermser (2008) und Niessen, Lehmann-Wermser, Knigge & Lehmann (2008) dargestellt. 59 Darüber hinaus sind nur wenige Items publiziert, da das gesamte Testinstrumentarium für weite-re Studien verwendet werden soll.
44
B. EMPIRISCHE UNTERSUCHUNGEN
4 Modellbasierte Aufgabenentwicklung
„Historically, task design has been regarded more as an art than a science.”
(Mislevy, Steinberg & Almond, 2002, S. 98)
In Kap. 3.2 wurde dargestellt, dass bislang nur sehr wenige und größtenteils veral-
tete Testverfahren zur Erfassung von musikalischen Fähigkeiten vorliegen. Diese
sind zudem vor anderen theoretischen Hintergründen entstanden und somit nur
bedingt fruchtbar für die Konstruktion eines Kompetenztests. Nicht zuletzt er-
scheint eine direkte Übernahme von existierenden Tests oder Subtests aus Grün-
den der Inhaltsvalidität nicht sinnvoll. Es wurde daher im Rahmen des KoMus-
Projekts entschieden, die bestehenden Instrumente zwar zur Orientierung heran-
zuziehen, grundsätzlich aber eine vollständige Neukonstruktion eines Testinstru-
ments (Kompetenztest) und der entsprechenden Testaufgaben durchzuführen.
Test- bzw. Aufgabenkonstruktionen können auf verschiedene Weise erfolgen
(z. B. Bühner, 2006, S. 46 ff.). Insbesondere im Bereich der Schulleistungsfor-
schung wurden Tests häufig konstruiert, indem für einen bestimmten Inhaltsbe-
reich eine große Menge von Aufgaben eher unsystematisch entwickelt und erprobt
wurden, sodass die entsprechenden Leistungstests in der Regel nur eine normori-
entierte Interpretation der Testergebnisse zulassen (Klieme et al., 2003, S. 124).
Im Rahmen der Erfassung von Kompetenzen wird hingegen eine kriteriumsorien-
tierte Interpretation von Schülerleistungen angestrebt (z. B. Hartig & Jude, 2007,
S. 24; vgl. auch 2.1 und 5.1). Um dies zu gewährleisten, ist ein systematisches
Vorgehen notwendig, das als modellbasierte Aufgaben- bzw. Testentwicklung be-
zeichnet wird. Modellbasiert meint in diesem Zusammenhang zunächst schlicht,
dass dem Entwicklungsprozess ein Modell zugrunde liegt. In solch einem Modell
sollten grundlegende Annahmen über Inhalte und Strukturen (Dimensionalität und
Niveaustruktur) der zu erfassenden Kompetenzen formuliert sein. Ein entspre-
chendes Modell kann rein theoretischer Natur sein, stützt sich aber bestenfalls be-
reits auf empirische Erkenntnisse. Auf Basis des Modells können dann systema-
tisch Aufgaben entwickelt werden, die zu den inhaltlichen und kognitiven Anfor-
derungen der Dimensionen und Niveaus des Modells passen und diese in ver-
schiedenen Kontexten variieren (Klieme et al., 2003, S. 124).
45
Durch solch ein modellbasiertes und relativ stark theoriegeleitetes Vorgehen wer-
den den entwickelten Aufgaben starke Annahmen auferlegt, die sich im Rahmen
der statistischen Auswertungen bestätigen müssen (vgl. Kap. 6). Es erfolgt also
bereits im Prozess der Aufgabenentwicklung eine ständige Rückkopplung zwi-
schen Empirie und Theorie: Sollten die empirischen Aufgabeneigenschaften nicht
den im Modell angenommenen entsprechen, so ist entweder nach Problemen im
Rahmen der Aufgabenkonstruktion zu suchen oder aber es sind die im zugrunde-
liegenden Modell formulierten theoretischen Annahmen zu revidieren. Es zeich-
net sich bereits an dieser Stelle ab, dass eine modellbasierte Aufgabenentwicklung
nur als zirkulärer Prozess der Entwicklung, Überprüfung und ggf. Modifikation
von Modell und/oder Aufgaben zu konzipieren ist. Wie genau dieser Prozess im
Rahmen des KoMus-Projekts realisiert wurde, ist in Abschnitt 4.3 beschrieben.
Zunächst folgen jedoch in Abschnitt 4.1 einige Ausführungen zum theoretischen
Kompetenzmodell, das die Grundlage für die modellbasierte Aufgabenentwick-
lung darstellt. Die Darstellung des Modells verdeutlicht die theoretisch angenom-
menen Strukturen der anvisierten Kompetenz des Wahrnehmens und Kontextuali-
sierens von Musik. Gleichzeitig zeigt sich aber auch, dass das Modell relativ abs-
trakt und primär basierend auf fachdidaktischem Erfahrungswissen formuliert ist.
Für die Operationalisierung des Modells ist daher eine möglichst präzise Be-
schreibung der Kompetenz und auch der Inhalte, an denen sich die Kompetenz
manifestiert, notwendig, was durch die Formulierung eines Testkonstrukts geleis-
tet wird (Abschnitt 4.2).
4.1 Das theoretische Kompetenzmodell „Musik wahrnehmen und
kontextualisieren“
Im Zentrum der vorliegenden Arbeit steht die modellbasierte Entwicklung und
Analyse von Testaufgaben (Kap. 4 bis 7). Als Grundlage dient hierfür das theore-
tische Kompetenzmodell, das in der ersten Phase des KoMus-Projekts entwickelt
wurde (vgl. 2.2.3). Im Folgenden werden die Inhalte und Strukturen des in Abb. 4
dargestellten Modells erläutert.60
60 Ursprünglich publiziert und ausführlich beschrieben ist das Modell bei Niessen, Lehmann-Wermser, Knigge & Lehmann (2008, S. 18 ff.).
46
Abb. 4: Theoretisches Kompetenzmodell „Musik wahrnehmen und kontextualisieren“ (basierend auf:
Niessen et al., 2008, S. 20)61
Das Kompetenzmodell spannt sich auf zwischen zunehmender Wahrnehmungs-
kompetenz (Dimension 1) und einem zunehmend reflektierten Einsatz musikali-
schen Sach- und Weltwissens (Dimensionen 2-4). Die drei wissensbasierten Di-
mensionen (D2-4) sind dabei jedoch nicht isoliert von Interesse, sondern aus-
schließlich im Zusammenhang mit der Hörwahrnehmung (D1).62 Erst durch die
Vernetzung der Modelldimensionen entsteht die anvisierte Kompetenz des Wahr-
61 Es handelt sich hierbei bereits um eine minimal modifizierte Fassung des publizierten Modell-entwurfs, die in dieser Form als Grundlage für die Aufgabenentwicklung diente. 62 Inhalt des Kompetenzmodells ist es beispielsweise nicht, isolierte Notenlesefähigkeiten oder terminologisches Wissen zu erfassen (z. B. Benennung der Töne einer bestimmten Skala). Im Rahmen des Modells geht es vielmehr darum, musikbezogene Wissensbestände im Zusammen-hang mit der Hörwahrnehmung einzusetzen (z. B. ein klingendes Musikstück in einer Partitur mit-zuverfolgen oder einen wahrgenommenen Klang mit den entsprechenden Fachwörtern beschreiben zu können); vgl. hierzu auch die Ausführungen zur curricularen Verankerung des Modells im Rah-men des Testkonstrukts in Abschnitt 4.2.1.
47
nehmens und Kontextualisierens von Musik.63 Innerhalb der Dimensionen werden
jeweils drei aufeinander folgende Niveaus unterschieden. Der Niveaustruktur liegt
dabei die Hypothese zugrunde, dass Schüler auf einem höheren Niveau immer
auch die Anforderungen der vorausgehenden Niveaus bewältigen können.
Auf grundsätzlich konzeptioneller Ebene ist das Modell also einerseits ein Struk-
turmodell, denn es unterscheidet verschiedene Kompetenzdimensionen. Gleich-
zeitig handelt es sich um ein Niveaumodell, da verschiedene Graduierungen der
Kompetenzen beschrieben werden (vgl. 2.1.3).
Inhaltlich lassen sich die einzelnen Dimensionen wie folgt charakterisieren:
Dimension 1: In Bezug auf die Wahrnehmung beschreiben die drei Niveaus Fä-
higkeiten zur Erfassung von musikalischen Ereignissen mit zunehmend größerer
Komplexität. Das Erkennen von Abschnittbildung und der Vergleich klar unter-
scheidbarer musikalischer Phänomene sind z. B. Voraussetzung für das Identi-
fizieren von musikalischen Grundformen. Zusätzlich spielt das musikalische Ge-
dächtnis eine wichtige Rolle, wenn z. B. ein musikalisches Thema memoriert
werden muss, um es später in variierter Form wiederzuerkennen.
Dimensionen 2-4: In Bezug auf das musikalische Sach- und Weltwissen lassen
sich drei Dimensionen unterscheiden: Verbalisierungsfähigkeit (D2), Fähigkeiten
im Umgang mit Notation (D3) sowie Wissen über kulturelle, historische und sozi-
ale Zusammenhänge (D4). Die Niveaudifferenzierung erfolgt hierbei einerseits in
Abhängigkeit des Differenzierungsgrades der Verbalisierung, andererseits durch
den Komplexitätsgrad der Notation.64 Darüber hinaus wird der Umgang mit Kon-
textwissen ausgehend von alltagsnahen Wissensbeständen hin zu einem historisch
und kulturell reflektierten Umgang mit Musik modelliert. Auf eine Besonderheit
ist an dieser Stelle noch hinzuweisen: Auf Niveau C ist die Facette „Kritische
Bewertung von Musik und ihrer Aufführung“ quer über die Dimensionen 2-4
63 Diese Festlegung auf theoretischer Modellebene ist von großer Bedeutung für die Aufgabenent-wicklung. Somit müssen Aufgaben, die Fähigkeiten der Dimensionen 2-4 erfassen sollen, immer auch Hörwahrnehmungsanteile haben. 64 Hier muss allerdings angemerkt werden, dass nicht etwa das Verständnis graphischer Notation, wie sie beispielsweise im Rahmen ‚Neuer Musik’ vorkommt, als weniger komplex angesehen wird als das Verstehen einfacher Formen traditioneller Notation. Mit dem Stichwort graphische Notati-on ist vor allem gemeint, dass die Schüler verstanden haben sollen, dass sich Musik als Zeitverlauf in einem räumlichen Verlauf abbilden lässt und dass sich begründet und nachvollziehbar Bezie-hungen zwischen beiden Dimensionen herstellen lassen.
48
hinweg ausgewiesen, da diese in den drei Dimensionen gleichermaßen eine Rolle
spielt.65
Zusammenfassend ist die Kompetenz des Wahrnehmens und Kontextualisierens
von Musik im theoretischen Kompetenzmodell als kontinuierliche, zunehmend
komplexere Fähigkeitsdimension gedacht.66 Sie ist mehrdimensional definiert und
wird verstanden als ein Zusammenspiel von Hörwahrnehmungsfähigkeit und dem
reflektierten Einsatz musikbezogener Wissensbestände.67
Abschließend ist noch anzumerken, dass das KoMus-Kompetenzmodell in dieser
Form bewusst als vorläufiger Entwurf konzipiert war. Mit dem Modell wurde ein
theoretischer Rahmen eröffnet, der vor allem als Basis für die Aufgabenentwick-
lung dienen sollte. Die endgültige Ausformulierung des Modells, u. a. in Bezug
auf die dimensionale Struktur und die Abfolge der Kompetenzniveaus, kann erst
auf Basis der Analysen der Pilotierungsstudie erfolgen.68 Erste Modifikationen er-
folgten jedoch bereits im Kontext der Aufgabenentwicklung und der dort durchge-
führten Analysen (vgl. 6.2).
4.2 Testkonstrukt: Vom Modell zu den Testaufgaben
Im vorangegangenen Abschnitt wurde das theoretische Kompetenzmodell vorge-
stellt, das auf fachdidaktischem Erfahrungswissen basiert und eine möglichst
plausible Dimensionierung und Graduierung der Kompetenz beinhaltet. Um eine
Operationalisierung des Modells zu ermöglichen, muss im Testkonstrukt mög-
lichst präzise beschrieben werden, was genau unter der Kompetenz „Musik wahr-
nehmen und kontextualisieren“ verstanden wird und welche Aspekte der Kompe-
65 So z. B. wenn die Ausführung eines Musikstücks auf Basis eines Notentextes bewertet werden soll. Sofern dabei ein bestimmtes sprachliches Differenzierungsniveau oder die Anwendung spe-zieller Fachterminologien verlangt ist, kommt die zweite Dimension ins Spiel. Auch die vierte Dimension kann eine Rolle spielen, wenn es um die Bewertung einer stilgerechten oder histo-risch/kulturell angemessenen musikalischen Ausführung geht. 66 Die Untergliederung der Fähigkeitsdimension in Niveaus scheint zunächst in Widerspruch hier-zu zu stehen. Es ist jedoch ein übliches Vorgehen, Kompetenzmodelle zum Zweck der Veran-schaulichung und der leichteren Kommunizierbarkeit in verschiedene Niveaus einzuteilen, obwohl das zugrundeliegende Konstrukt als kontinuierliches aufgefasst wird (vgl. z. B. Hartig, 2004). 67 Für eine präzisere Definition unter Berücksichtigung musikpsychologischer Aspekte vgl. die Ausführungen zum Testkonstrukt in Abschnitt 4.2.2. 68 In diesem Zusammenhang wird zu zeigen sein, ob sich die angenommenen vier Dimensionen auch empirisch als unabhängige Dimensionen abbilden. Ebenso bedarf die über alle Niveaus hin-weg angenommene Abstufung in Form von drei Kompetenzniveaus der empirischen Validierung.
49
tenz durch den Test erfasst bzw. nicht erfasst werden. Das Testkonstrukt dient da-
bei einerseits einer theoretischen und empirischen Fundierung im Rahmen vor-
handener (musikpsychologischer) Forschungen, andererseits können in diesem
Zusammenhang die im theoretischen Modell noch relativ abstrakt formulierten
Kompetenzdimensionen und -facetten ausgeschärft und konkretisiert werden.
Denn erst wenn man dies „elaboriert hat […], wird man aus der Konstruktdefini-
tion Verhaltensweisen ableiten können, die bei hohen oder geringen Ausprägun-
gen auf dem Konstrukt beobachtbar sein sollten“ (Köller, 2008, S. 166).
Die mit einem Modell bzw. Test anvisierte Schülerschaft bestimmt den Rahmen,
innerhalb dessen ein valides Testinstrument entwickelt werden kann. Die Aufga-
benentwicklung orientierte sich in KoMus an Schülern der sechs-
ten Jahrgangsstufe im Alter von etwa elf bis zwölf Jahren sowie an deren Erfah-
rungen und musikbezogenen Entwicklungsstand, und sie musste auf die Lerner-
fahrungen im Fach Musik ausgelegt sein. Aus diesem Grund basiert das Testkon-
strukt sowohl auf musikpsychologischen Befunden als auch auf Curriculaanaly-
sen. Das Testkonstrukt bildet somit die Gelenkstelle zwischen dem theoretischen
Modell und dessen empirischer Umsetzung in Form von Testaufgaben.
Der eleganteste Weg, ein Testkonstrukt zu definieren, ist die Anbindung an eine
Theorie, die Struktur und Ausprägungen der in Frage stehenden Kompetenz be-
schreibt. So ist es z. B. in der Sprachdidaktik möglich, verschiedene Theorien und
Modelle zum Prozess des Leseverstehens der Testkonstruktion zugrunde zu legen
(z. B. Nold & Willenberg, 2007). Eine vergleichbare Situation ist für die Musik-
pädagogik nicht gegeben, da bislang keine umfassende Theorie oder ein dem Le-
severstehen vergleichbares Modell entwickelt wurde, das die Dimensionen, Facet-
ten, Graduierungen und Interaktionen einer musikalischen Wahrnehmungskompe-
tenz beschreiben würde.
Das im KoMus-Projekt definierte Testkonstrukt stützt sich daher auf mehrere
Quellen. Von zentraler Bedeutung ist hierbei zunächst die Verankerung auf curri-
cularer Ebene, wodurch die Inhaltsvalidität der zu entwickelnden Aufgaben abge-
sichert wird (4.2.1). Darüber hinaus werden aber auch musikpsychologische Er-
kenntnisse in das Testkonstrukt einbezogen (4.2.2).
50
4.2.1 Curriculare Analysen
Die zentrale Komponente des Testkonstrukts, vor allem hinsichtlich der Inhaltsva-
lidität des Modells und des Testinstruments, ist die Verankerung auf curricularer
Ebene. Sofern, wie in vorliegendem Fall, der Anspruch erhoben wird, dass ein
Kompetenzmodell die in einer Domäne (Fach Musik) erworbenen Kompetenzen
abbildet, muss sich ein entsprechendes Testinstrument notwendigerweise am Un-
terricht orientieren oder anders formuliert: „Tests must reflect teaching as it is ex-
perienced, i.e. the test items must be formulated in such a way that good teaching
is evident in the results (awareness of the teaching given)“ (Dubs, 2007, S. 421;
vgl. auch Criblez et al., 2009, S. 38 f.). Hartig et al. (2007) sprechen in diesem
Zusammenhang auch von ‚curricularer Validität’ eines Tests als Sonderfall der
Inhaltsvalidität. Curricular valide ist ein Test dann, wenn die Aufgaben des Tests
die auf curricularer Ebene „definierten Fähigkeiten umfassend abdecken und da-
mit die Menge möglicher Aufgaben hinreichend gut repräsentieren“ (Hartig et al.,
2007, S. 141). Nur wenn die curriculare Validität eines Tests sichergestellt ist, ist
eine Verallgemeinerung über die konkret verwendeten Testaufgaben hinaus zuläs-
sig:69
„Die verallgemeinernde Interpretation des Testergebnisses besteht darin anzunehmen, dass ein Schüler mit einem hohen Testwert auch bei einer Vielzahl anderer Aufgaben, die das Lernziel repräsentieren, erfolgreich wäre, wenn man sie ihm vorlegen würde.“ (Hartig et al., 2007, S. 142)
Deshalb wurden im Rahmen des KoMus-Projekts alle bundesdeutschen Musikcur-
ricula der sechsten Jahrgangsstufe im Hinblick auf die dort geforderten Kompe-
tenzen analysiert.70 Ziel der Analyse war nicht ein Vergleich der heterogenen
Lehrpläne, sondern das Auffinden von Gemeinsamkeiten. Zusammenfassend er-
gab die Analyse folgende Befunde:
69 Dieses Vorgehen wird auch als ‚Repräsentationsschluss’ bezeichnet, da von der Lösungshäufig-keit bearbeiteter Aufgaben auf die Lösungshäufigkeit hypothetischer Aufgaben (‚Itemuniversum’) geschlossen wird (Hartig, Frey & Jude, 2007, S. 141 f.). 70 Der Einwand liegt nahe, dass das Verhältnis von unterrichtlicher Realität und curricularen Vor-gaben empirisch völlig ungeklärt ist. Gerade im Fach Musik, das größtenteils nicht versetzungs- oder abschlussrelevant ist, könnte die Steuerungsfunktion von Curricula zumindest eingeschränkt sein. Trotzdem erscheint es plausibel, dass Curricula in jedem Fall auf übergeordneter Ebene eine Orientierungsfunktion erfüllen und nicht zuletzt durch daran ausgerichtete Fortbildungsangebote, didaktische Materialen und Schulbücher einen entscheidenden Einfluss auf den Musikunterricht haben. Sie sind zudem die einzig rechtlich verbindlichen Dokumente, an denen sich eine schul- und bundeslandübergreifende Test- bzw. Modellentwicklung orientieren kann.
51
� Im Rahmen der Dimensionalisierung des Faches weisen die Curricula das hö-
rende Wahrnehmen übereinstimmend als einen zentralen Bereich des Musik-
unterrichts aus (Knigge & Lehmann-Wermser, 2008; vgl. auch 2.2.1). Ent-
sprechende Bereiche sind bspw. überschrieben mit „Musik hören und reflek-
tieren“, „Musik wahrnehmen und verstehen“, „Musik hören, verstehen und
einordnen“.
� Den Curricula ist grundlegend gemeinsam, dass es in diesem Lernbereich um
ein Zusammenspiel von musikalischer Wahrnehmung und Wissen über Musik
geht. In unterschiedlichem Grad werden auch Reflexionsprozesse hinsichtlich
des Beurteilens von Musik, aber auch deren kulturhistorischen und sozialen
Dimensionen thematisiert. Diese Befunde sind bei der Modell- und Testent-
wicklung zu berücksichtigen und wurden entsprechend bereits in die mehrdi-
mensionale Struktur des theoretischen Kompetenzmodells eingearbeitet (vgl.
Abb. 4).
� Über diese grundsätzliche Ausrichtung des Bereichs hinaus lässt sich auch ein
relativ breiter Konsens hinsichtlich der konkret geforderten und z. T. sehr de-
tailliert beschriebenen Wissensbestände und Fähigkeiten identifizieren.71 Auch
diese Analyseergebnisse können direkt für die Aufgabenentwicklung genutzt
werden.
� Gleichzeitig konnten durch die Curriculaanalysen aber auch Aspekte identifi-
ziert werden, die zwar auf curricularer Ebene eine Rolle spielen, aber auf-
grund testpraktischer oder theoretischer Überlegungen keinen Eingang in das
Modell und die Testkonstruktion fanden.72 In dieser Hinsicht erfüllt das Test-
konstrukt eine abgrenzende Funktion.
71 So wird beispielsweise in nahezu allen Curricula die Kenntnis von Dur und Moll, 3/4 und 4/4-Takt, Dynamikbezeichnungen, Violin- und Bassschlüssel sowohl als Wissensbestand als auch in der Anwendung beim Hören gefordert. Im Rahmen der Analysen wurden für jede Dimension und Facette des theoretischen Modells die Inhalte identifiziert, die durch den Großteil der Curricula abgedeckt sind, sodass diese dann bevorzugt für die Aufgabenkonstruktion verwendet werden konnten. 72 Der Ausschluss von bestimmten Bereichen/Kompetenzen in diesem Zusammenhang bedeutet keinesfalls, dass diese nicht relevant für den Musikunterricht wären. Es erschien jedoch häufig plausibler, die entsprechenden Kompetenzen in gesonderten Kompetenzmodellen zu verorten; so z. B. die in den Curricula häufig geforderte Fähigkeit zur Interpretation von Musik bzw. dem äs-thetischen Urteilen über Musik. Beides könnte evtl. besser in ein Modell ‚musikbezogener Argu-mentationskompetenz’ integriert werden, für das aktuell bereits Vorarbeiten laufen (Rolle, 2008a; vgl. auch Cvetko & Knigge, im Druck). Ähnliches gilt für Kompetenzen mit sehr hohen motivati-onalen und sozialen Anteilen (z. B. „respektvoller Umgang mit unterschiedlichen Hörgewohnhei-
52
Tab. 2 enthält die auf Basis der Curriculaanalysen für die Aufgabenentwicklung
berücksichtigten Bereiche und Inhalte.
Tab. 2: Für die Aufgabenentwicklung berücksichtigte Bereiche und Inhalte der Hörwahrneh-mung in bundesdeutschen Curricula
Bereiche/Inhalte (elementare) musikalische Verläufe, Strukturen, Formen musikalische Gestaltungsmittel/Parameter (Rhythmus, Intervalle, Dynamik etc.) Instrumente traditionelle Notation einfachere (grafische) Notationsformen73 Gattungen, Stile, Genres Wirkungen von Musik, Ausdrucksgehalt Fachsprache (Begründung/Anwendung von Kriterien zur) Beurteilung von Musik H
örw
ahrn
ehm
ung
unte
r
Ver
wen
dung
von
Wis
sen
in
Bez
ug a
uf
historische, kulturelle und gesellschaftliche Kontexte von Musik
4.2.2 Musikpsychologische Forschung
Eine weitere wichtige Komponente des Testkonstrukts ist die Verankerung in der
musikpsychologischen Forschung. Hierbei sind drei Dimensionen zu unterschei-
den:
(1) Entwicklungspsychologische Befunde wurden herangezogen, um abzusichern,
inwieweit die im theoretischen Kompetenzmodell und auf curricularer Ebene for-
mulierten grundlegenden Wahrnehmungsfähigkeiten tatsächlich bei 11- bis 12-
Jährigen aufgrund ihres Entwicklungsstands ausgeprägt sind. Eine Reihe von Ü-
berblicksarbeiten fassen die Forschungsergebnisse zum Entwicklungsstand musi-
kalischer Fähigkeiten bei Kindern und Jugendlichen zusammen (z. B. Brophy,
2000; Gembris, 2005; Runfola & Swanwick, 2002). Die Befunde sind an dieser
Stelle eindeutig und bestätigen, dass die in Bezug auf das theoretische Modell
notwendigen Fähigkeiten im Alter von 11 bis 12 Jahren prinzipiell und ohne spe-
ten“); vgl. hierzu die Überlegungen zu einem Kompetenzmodell ‚musikbezogener interkultureller Kompetenz’ bei Niessen, Lehmann-Wermser, Knigge & Lehmann (2008). 73 Grafische Notationsformen wurden trotz einer relativ seltenen Nennung in den Curricula in das Modell aufgenommen bzw. bei der Aufgabenentwicklung berücksichtigt. Es ist davon auszugehen, dass dieser Bereich in den vorangegangenen Klassenstufen eine größere Rolle spielt und nach der Grundschulzeit zunehmend von traditioneller Notation abgelöst wird. Vor diesem Hintergrund wurde die Verbindung von Wahrnehmung und einfachen grafischen Notationsformen im Testkon-strukt als ein basales Niveau bestimmt auf dem aufbauend der Umgang mit komplexeren Notati-onsformen folgt.
53
zielle musikalische Ausübung ausgeprägt sind. Tab. 3 verdeutlicht dies im Über-
blick:
Tab. 3: Entwicklungsstand musikalischer Wahrnehmungsfähigkeit bei Kindern im Alter von 12 Jahren (in Anlehnung an: Bähr, 2001, S. 35 ff.)
Allgemein
Wahrnehmung und Wiedergabe musikalischen Ausdrucks (Manturzewska & Kaminska, 1993)
Unterscheidungsfähigkeit von verschiedenen Musikstilen (Campbell, 1991; Manturzewska & Kaminska, 1993)
Mehrfach-Wahrnehmung - Invarianz/Erhaltung
Fähigkeit zur gleichzeitigen Betrachtung verschiedener Aspekte der Melodie (Rhythmik, Harmonik) und zum Erkennen von Identität oder Ähnlichkeit des Rhythmus, der Melodie und Harmonik bei gleichzeitiger Veränderung einzelner Parameter (Pflederer & Sechrest, 1968)
Wiedererkennen einzelner musikalischer Merkmale in verschiedenen musikalischen Zusammenhängen (Serafine, 1988)
Erkennen nach Gehör von Motiven, musikalischen Pattern und Phrasenbildungen als zeitlich konstituierende musikalische Elemente (Serafine, 1988)
Verstehen, dass mehrere Klänge oder Motive zu musikalischen Einheiten zusammengesetzt werden können (Serafine, 1988)
Melodik – Erhaltung
Erkennen invarianter melodischer Strukturen (Poppensieker, 1986; Pick & Palmer, 1993)
Erkennen von veränderten Melodien als Variationen (Pflederer & Sechrest, 1968)
Identifizierung gleichzeitig erklingender Melodien (Gudmundsdottir, 1999)
Identifizierung von Melodien in transponierter und variierter Form – auch im Zusammenhang einer längeren Komposition (Serafine, 1988)
Erkennen von Melodien, die von verschiedenen Instrumenten gespielte werden, auch wenn sie begleitet wer-den - auch in unterschiedlichem Tempo (Manturzewska & Kaminska, 1993)
Tonalität und Harmonik
Unterscheiden von Dur und Moll und von Halbtönen (Imberti, 1969)
Rhythmus/Metrum/Tempo – Erhaltung
Unterscheidung von rhythmischen Pattern (Manturzewska & Kaminska, 1993)
Erhaltung rhythmischer Figuren bei tonaler Veränderung (Zimmermann & Sechrest, 1968)
Erhaltung des Metrums (Serafine, 1975)
Das metro-rhythmische Konzept ist entwickelt (Jones, 1976; Zenatti, 1993)
Unterscheidung von langsamen und schnellen Tempi (Young, 1982)
Festigung der Differenzierung von Dauer und Tempo – auch operational (Andrews & Deihl, 1967)
Klangfarbe
Erkennen von Instrumenten im Zusammenklang mit anderen (Schellberg, 1998)
Unterscheidung von zusammenklingenden Instrumenten (Serafine, 1988)
54
(2) Musikpsychologische Grundlagenforschung zu musikbezogenen Wahrneh-
mungsprozessen: Innerhalb der Musikpsychologie existiert eine lange Tradition
der Erforschung musikbezogener Wahrnehmung (vgl. z. B. Bruhn, 2005; La Mot-
te-Haber, 2004; 2005b; Lange, 2005; Nauck-Börner, 1987; Stoffer, 2005). Im
Rahmen des KoMus-Projekts wurden die entsprechenden Arbeiten gesichtet und
hinsichtlich ihrer Verwertbarkeit für die Operationalisierung des Modells ausge-
wertet. Auf dieser Basis wurde folgende Arbeitsdefinition erstellt:
„Unter musikalischer Wahrnehmung verstehen wir im Folgenden die aktiv (re-) kon-struierende Verarbeitung akustischer Eindrücke mit Hilfe spezifischer Techniken und unter Verwendung vorhandener Erfahrungs- und Wissensbestände. Der Verarbei-tungsprozess selbst kann als Zusammenspiel von bottom-up- und top-down-Prozessen beschrieben werden: Zunächst werden kleinere wahrgenommene Einheiten zu größe-ren zusammengefasst bzw. abstrahiert (bottom-up). Hier spielt das Gedächtnis eine entscheidende Rolle. Diese Wahrnehmungs- bzw. Verarbeitungsprozesse von Musik werden bei Musikern wie Nicht-Musikern von Kenntnissen und Erwartungen über ‚musikalische Syntax’ mit gesteuert (top-down), die zwar deklarative Anteile beinhal-ten können, aber zum großen Teil implizit erworben wurden.“ (Jordan, Knigge, Leh-mann-Wermser, Lehmann & Niessen, i. Vorb.)
Darüber hinaus sind unter musikpsychologischen Gesichtspunkten drei grundle-
gende Aspekte hervorzuheben, die für die musikalische Wahrnehmung, wie sie im
Rahmen von KoMus modelliert wird, eine besondere Rolle spielen (vgl. Jordan et
al., i. Vorb.):
� Aufmerksamkeitssteuerung: Aufmerksamkeit und ihre Steuerung spielen beim
Musikhören generell eine besondere Rolle; man unterscheidet u. a. zwischen
willkürlicher und unwillkürlicher, wissensabhängiger und -unabhängiger
Aufmerksamkeitssteuerung (Stoffer, 2005, S. 594). In den meisten Fällen er-
folgt die Aufmerksamkeitssteuerung bei der Bearbeitung von Testaufgaben
willkürlich und wissensabhängig. Diese starke willkürliche Aufmerksamkeits-
steuerung ist beim alltäglichen Hören in dieser Form und Ausprägung kaum
vorhanden und unterscheidet es damit vom aufgabengeleiteten Hören, wie es
in schulischen Zusammenhängen und insbesondere bei Leistungstest häufig
vorkommt.
� Abbruch der Informationsaufnahme bei Inferenz: Ein weiteres relevantes Phä-
nomen ist die Ausschnitthaftigkeit bzw. Unvollständigkeit musikalischer
Wahrnehmung. Gemeint ist hiermit der Abbruch der Informationsverarbei-
tung, sobald ein Ergebnis ausreichend präzise erscheint (Bruhn, 1993b,
S. 445). Gerade weil die musikalische Wahrnehmung bei Leistungstests von
55
Aufgaben geleitet wird und nach dem Zeitpunkt der Lösungsfindung nicht
weiter differenziert werden muss, ist davon auszugehen, dass die Schüler bei
vielen Aufgaben zielgerichtet nur jeweils einen kleinen Teil der akustischen
Eindrücke nutzen, die ihnen dargeboten werden. Dieses Phänomen erlaubt es
überhaupt erst, beispielsweise nach einer Lautstärkeveränderung in einem Sin-
fonieausschnitt zu fragen. Eine adäquate Verarbeitung aller gegebenen Infor-
mationen wäre schon bei wenig komplexer Musik nicht mehr möglich.
� Bedeutung von Wissensbeständen: Es wurde bereits darauf hingewiesen, dass
im Rahmen des KoMus-Kompetenzmodells nicht allein Wahrnehmungsleis-
tungen erfasst werden sollen, sondern auch das Zusammenspiel von Wahr-
nehmungsfähigkeit und dem Einsatz musikbezogener Wissensbestände (vgl.
4.1 und 4.2.1). Aus musikpsychologischer Sicht ist in diesem Kontext implizi-
tes und explizites Wissen zu unterscheiden. Implizites Wissen bezeichnet Ge-
dächtnisinhalte, die nicht bewusst zugänglich sind, aber im Verhalten wirksam
werden (Lange, 2005, S. 89). Explizites Wissen (oft auch deklaratives Wissen
genannt) ist hingegen bewusst zugänglich und bezieht sich auf semantische
Inhalte (Bruhn, 2005, S. 537). Beide Wissensformen spielen bei der Aufga-
benkonstruktion bzw. der späteren Aufgabenbearbeitung eine Rolle: deklarati-
ves Wissen beispielsweise bei der Benennung von wahrgenommenen Instru-
menten. Implizites Wissen wird beispielsweise wirksam bei der Kenntnis ele-
mentarer Melodieverlaufsmuster, Formtypen oder stilspezifischer Einschrän-
kungen (Stoffer, 2005, S. 611). Häufig werden aber auch beide Wissensformen
gleichermaßen angesprochen, z. B. wenn ein Hörbeispiel einem Stil oder einer
historischen Epoche zugeordnet werden soll.
(3) Einzelne Modell-Facetten konnten auf der Basis musikpsychologischer For-
schungen inhaltlich präzisiert und in Bezug auf ihre Operationalisierung konkreti-
siert werden. Dies betrifft z. B. die Wahrnehmung der Wirkung von Musik (z. B.
Gabrielsson & Lindström, 2001; Gabrielsson, 2001/2002; Kreutz, Ott & Vaitl,
2006), Formwahrnehmung (z. B. Kreutz, 1995; La Motte-Haber, 2005a), Melo-
diewahrnehmung (z. B. Kreutz, 2005; Thompson & Schellenberg, 2006) oder das
Rhythmus- und Tempoempfinden (z. B. Auhagen, 2005; Bruhn, 1993a; 2000).74
74 Die z. T. sehr umfangreichen Forschungen können an dieser Stelle nicht ausführlicher darge-stellt werden. Sofern sie von Relevanz für die in der vorliegenden Arbeit durchgeführten Analysen
56
Zusammenfassend ist die Kompetenz des Wahrnehmens und Kontextualisierens
von Musik im Testkonstrukt mehrdimensional definiert. Sie wird als ein Zusam-
menspiel von Hörwahrnehmungsfähigkeit und dem reflektierten Einsatz musikbe-
zogener Wissensbestände verstanden. Durch musikpsychologische Befunde ist ei-
nerseits sichergestellt, dass das zu entwickelnde Modell bzw. Testinstrument dem
Entwicklungsstand der Schüler angepasst ist. Darüber hinaus kann das Verständ-
nis musikbezogener Wahrnehmung, wie sie im KoMus-Projekt modelliert wird,
auf Basis musikpsychologischer Grundlagenforschung konkretisiert werden.
Durch Curriculaanalysen ist das Testkonstrukt in der unterrichtlichen Praxis ver-
ankert, wodurch eine curricular-inhaltliche Validität des Modells und der darauf
bezogenen Testaufgaben angestrebt wird.
4.3 Design und Prozess der Aufgabenentwicklung
Aphorisms for a Questionnaire
Keep it simple,
One thing at a time.
Little words work best,
Two lines are too many,
Long is wrong
When in doubt, leave it out.
Reasons for asking aren’t reasons for answering,
Answers ask questions.
(Ben Wright)75
Der Aufgabenentwicklungsprozess, der die Grundlage für den empirischen Teil
der vorliegenden Arbeit darstellt, fand im Rahmen der zweiten Phase des KoMus-
Projekts statt (vgl. 2.2.3). Konzeption und organisatorische Durchführung lagen
dabei in der Verantwortung des Autors. Im Folgenden werden zunächst einige
grundlegende Informationen hinsichtlich der Aufgabenentwicklung gegeben, be-
sind, so erfolgt eine genauere Betrachtung in den entsprechenden Kapiteln (insbesondere im Rah-men der Identifikation der schwierigkeitsgenerierenden Aufgabenmerkmale in Kap. 7). 75 Entnommen aus: Rost, 2004, S. 57.
57
vor anschließend eine detaillierte Betrachtung der einzelnen Prozessphasen er-
folgt.
Dokumentenanalysen
Vorbereitend für den Aufgabenentwicklungsprozess wurden umfassende Doku-
mentenanalysen von Curricula76, didaktischen Materialien (v. a. Schulbücher),
Musiktests und Schulleistungsstudien durchgeführt (vgl. auch 3.2). Hiermit war
das Ziel verbunden, Aufgabeninhalte und -formate zu identifizieren, die für die
Operationalisierung des Modells adaptiert/modifiziert werden können. Die Analy-
sen waren diesbezüglich jedoch wenig ergiebig, denn nur eine sehr kleine Anzahl
der Aufgaben war inhaltlich mit dem theoretischen Kompetenzmodell in Verbin-
dung zu bringen und entsprach gleichzeitig den Anforderungen, die an Testaufga-
ben zu stellen sind (vgl. 3.1). Erwartungsgemäß erbrachte z. B. die Analyse der
gebräuchlichsten Schulbücher fast ausschließlich Lern-Aufgaben, die für ein
Kompetenzmessinstrument nicht geeignet schienen. Ähnliches gilt für Curricula,
die überhaupt nur in sehr seltenen Fällen Aufgaben enthalten. Vielversprechender
erschien die Aufarbeitung von Musiktests, wie sie vorwiegend in der Musikpsy-
chologie eingesetzt werden. Hier liegen zwar eine Reihe von Testaufgaben vor,
die auch in Bezug auf ihre psychometrischen Messeigenschaften gut abgesichert
sind, diese sind jedoch inhaltlich zu weit vom Kompetenzkonzept und von einer
möglichen Anbindung an die inhaltlichen Anforderungen deutscher Curricula ent-
fernt (vgl. 3.2.1). Die meisten Anregungen in Bezug auf die Aufgabenentwicklung
konnten der US-amerikanischen NAEP-Studie von 1997 entnommen werden (vgl.
3.2.2). Insgesamt betrachtet waren die Dokumentenanalysen hinsichtlich einer
konkreten Übernahme von Aufgaben wenig ertragreich. Trotzdem konnte zumin-
dest eine Reihe von Anregungen in Bezug auf die Gestaltung von Aufgabenfor-
maten und vor allem Aufgabenstämmen (Hörbeispiele, Notenbeispiele, Abbildun-
gen von Instrumenten etc.) für den Entwicklungsprozess gewonnen werden.
76 Interessant waren hierfür vor allem neuere, an Bildungsstandards orientierte Curricula, die teil-weise bereits Aufgabenstellungen enthalten (so z. B. die sogenannten „Niveaukonkretisierungen“ innerhalb des Bildungsplan 2004 des Landes Baden-Württemberg).
58
Richtlinien zur Aufgabenkonstruktion
Um eine möglichst effiziente und an den Testgütekriterien orientierte Aufgaben-
entwicklung sicherzustellen (vgl. 3.1), wurde ein Handbuch mit ausführlichen
Hinweisen und Richtlinien zur Aufgabenkonstruktion erstellt (Knigge, 2008)77.
Darin waren u. a. folgende Vorgaben festgelegt:
� Handlungsleitend für die jeweilige Aufgabenentwicklung sollte die vorab zu
treffende Entscheidung sein, welche der im theoretischen Kompetenzmodell
beschriebenen (Teil-)Kompetenzen mit einer Aufgabe erfasst werden soll. Je-
der Aufgabenentwurf war dementsprechend mit einer Beschreibung der inten-
dierten Kompetenzmessung (Dimension und Niveau) zu versehen.78
� Zwischen einzelnen Items durften keine Abhängigkeiten bestehen.79
� Items sollten die Testpersonen nicht aufgrund ihres Geschlechts, ihrer Her-
kunft, Religion oder Sozialschichtzugehörigkeit benachteiligen oder bevorzu-
gen (‚Itemfairness’).
� Es sollten ca. 25 % offene, 25 % halb-offene und 50 % geschlossene Items
verwendet werden, wobei halb-offene und insbesondere offene Items haupt-
sächlich für komplexere Anforderungen auf höheren Kompetenzniveaus vor-
gesehen waren.
� Aufgrund der hohen Ratewahrscheinlichkeit bei Richtig-Falsch-Items sollten
diese ‚blockweise’ verwendet und zusammengefasst werden.80
77 Das Handbuch ist eine weiterentwickelte und speziell auf KoMus abgestimmte Fassung von Köller et al., 2005. 78 Vor allem die A-priori-Beschreibung des anvisierten Schwierigkeitsniveaus ist von großer Be-deutung für die späteren Itemanalysen, innerhalb derer die angenommenen mit den empirisch ge-messenen Schwierigkeiten abzugleichen sind (vgl. 6.1 und 6.2.3). 79 Eine Abhängigkeit liegt beispielsweise vor, wenn ein Item für eine Testperson leichter zu bear-beiten ist, die ein vorangegangenes Item richtig gelöst hat bzw. schwieriger für eine Testperson, die das entsprechende Item nicht korrekt bearbeitet hat. Auch wenn bei einem Item eine Formulie-rung verwendet wird, die an anderer Stelle als Antwortalternative fungiert, besteht eine Item-Abhängigkeit. In diesem Fall würde zusätzlich zu den eigentlich anvisierten Kompetenzen auch die Fähigkeit der Testpersonen erfasst, sich an frühere Items zu erinnern oder Schlüsse zu ziehen. Außerdem muss es immer möglich sein, ein folgendes Item zu lösen, auch wenn ein vorangegan-genes nicht gelöst werden konnte. Items dürfen also inhaltlich nicht aufeinander aufbauen. 80 Damit ist gemeint, dass 5 bis 10 Einzelfragen oder -aussagen zu einem Item zusammengefasst werden und dieses Item nur dann als richtig gelöst gilt, wenn eine Mindestanzahl der Einzelfragen korrekt beantwortet wurde (z. B. 8 von 10). Alternativ können entsprechende Items auch als ‚par-tial-credit’ ausgewertet werden. Ein Item wird dann in Abhängigkeit der Anzahl der richtig bear-beiteten Einzelfragen z. B. als falsch (1-6 von 10), teilweise richtig (7-8 von 10) und vollständig gelöst (9-10 von 10) bewertet.
59
� Die Hörbeispiele sollten ein breites stilistisches Spektrum abdecken und mög-
lichst nicht länger als 20-30 Sekunden sein.81
� Für jede Aufgabe waren die Lösungen zu dokumentieren.82
� Insgesamt sollten mind. 120 Items entwickelt werden.83
Aufgabenentwicklungsprozess
Auf Basis der Dokumentenanalysen und der Richtlinien führte eine Entwick-
lungsgruppe, bestehend aus Kooperationslehrern und Wissenschaftlern des Ko-
Mus-Projekts, von Februar bis Dezember 2008 zehn Sitzungen zur Entwicklung
von Testaufgaben durch.
Abb. 5: Zirkulärer Aufgabenentwicklungsprozess
Die wichtigsten Phasen des zirkulär konzipierten Entwicklungsprozesses sind in
Abb. 5 dargestellt: (1) monatliche Sitzung der Entwicklungsgruppe zur Erstellung
81 Hintergrund für die geforderte stilistische Vielfalt ist einerseits die angestrebte curriculare Vali-dität des Kompetenztests bzw. -modells, andererseits soll hierdurch aber auch möglichen Präfe-renz- oder Gewohnheitseffekten entgegengewirkt werden, die im Sinne der ‚Itemfairness’ zu ver-meiden sind. 82 Besonders wichtig ist in diesem Zusammenhang die Erstellung von Kodieranweisungen für die Auswertung von offenen Items. Hierbei muss zunächst entschieden werden, ob eine dichotome oder mehrkategorielle Auswertung angemessen erscheint bzw. wie viele Kategorien für die Aus-wertung zur Anwendung kommen sollen (z. B. drei Kategorien: falsch/teilweise richtig/vollständig gelöst). Anschließend ist für jede Kategorie möglichst präzise zu formulieren, welche Antworten einer Auswertungskategorie zuzuordnen sind. 83 Zugrunde gelegt wurde hierbei die Struktur des theoretischen Modells von drei Kompetenzni-veaus je Modelldimension (vgl. 4.1). Die anvisierte Itemanzahl ergibt sich somit aus 10 Items pro Dimension und Niveau. So eine relativ große Anzahl von Items ist im Speziellen bei einer Neu-entwicklung eines Testinstruments vonnöten, da im Zuge der Itemselektion ein gewisser Teil der Items verworfen werden muss.
60
von Aufgaben; (2) Erprobung der entwickelten Aufgaben in den Klassen der Ko-
operationslehrer; (3) Auswertung der Tests (Itemanalysen); (4) Diskussion der
Analyseergebnisse, Überarbeitung problematischer Aufgaben und Erstellung neu-
er Aufgaben im Rahmen der nächsten Entwicklungssitzung.
Die einzelnen Phasen der Aufgabenentwicklung werden nun im Einzelnen erläu-
tert (vgl. Abb. 6):
Grundsätzlich ist zunächst festzuhalten, dass für einen vollständigen Durchlauf al-
ler vier Phasen vier bis sechs Wochen vorgesehen waren. In der Regel entfielen
hiervon ein bis zwei Wochen auf die Erstellung/Überarbeitung der einzelnen Auf-
gaben und das jeweils entsprechende Testheft, zwei Wochen waren für die Test-
durchführungen reserviert und weitere ein bis zwei Wochen wurden für die Ana-
lyse der Tests sowie die Vorbereitung der folgenden Sitzung der Entwicklungs-
gruppe benötigt.
Die in Abb. 6 grün gekennzeichneten Felder stellen Phasenabschnitte dar, die die
komplette Entwicklungsgruppe betreffen. Die grauen Phasenabschnitte wurden
hingegen von einer ‚Steuergruppe’ durchgeführt, der neben dem Autor der vorlie-
genden Arbeit auch zwei weitere Wissenschaftlerinnen des KoMus-Projekts an-
gehörten.84
Bei der Zusammenstellung der Entwicklungsgruppe wurde darauf geachtet, dass
Lehrer aus allen Schulformen vertreten waren. Es konnten hierfür sechs Musik-
lehrer aus Bremen, Hessen und Niedersachsen gewonnen werden, die an Gymna-
sien, Realschulen, Sekundarschulen, Gesamtschulen und Sonderschulen unterrich-
teten.85
84 Anne Niessen und Anne-Katrin Jordan. 85 Lediglich die Hauptschule war nicht durch einen Kooperationslehrer in der Entwicklungsgruppe vertreten. Für die Testdurchführungen konnten jedoch zwei Hauptschullehrer aus Niedersachsen gewonnen werden.
61
Abb. 6: Phasen der Aufgabenentwicklung
Phase 1: Die Aufgabenentwürfe wurden in der Regel von allen Mitgliedern der
Entwicklungsgruppe erstellt und jeweils eine Woche vor dem Sitzungstermin zu
einer ersten Durchsicht an die Steuergruppe übersendet. Somit konnten im Rah-
men der Entwicklungssitzung bereits erste Überarbeitungen gemeinsam diskutiert
werden. Um eine gleichmäßige Verteilung der Items über die gesamte Modell-
struktur hinweg zu gewährleisten, wurden jeweils die Dimensionen und Niveaus
des theoretischen Kompetenzmodells festgelegt, für die als nächstes Aufgaben
konstruiert werden sollten.
Phase 2: Im Zentrum der zweiten Phase standen die Testdurchführungen zur Er-
probung der entwickelten Aufgaben. Hierfür wurden zunächst alle Aufgaben mit
Hörbeispielen86 versehen und in ein einheitliches Layout gebracht. Die so aufbe-
reiteten Aufgaben konnten anschließend in ein standardisiertes Testheft übertra-
gen und zusammen mit einer Audio-CD sowie Anweisungen für die Testdurch-
führungen (Testleiter-Manual) an die Kooperationslehrer zur Erprobung mit ihren
Klassen versandt werden.87 Die bearbeiteten Testmaterialien wurden spätestens
eine Woche vor der nächsten Entwicklungssitzung zur Auswertung an die Steuer-
gruppe zurückgeschickt.
86 Nach Möglichkeit wurde für die Erstellung der Hörbeispiele auf bereits vorhandenes Material zurückgegriffen. Für ca. ein Fünftel der Items mussten jedoch vollständig neue Hörbeispiele in Ei-genproduktion erstellt werden. 87 Weitere Ausführungen zur Testdurchführung erfolgen in Abschnitt 5.3.2.
62
Phase 3: Auf Basis der so erhobenen Daten konnten relativ umfangreiche Analy-
sen durchgeführt werden. Die dabei verwendeten Methoden und insbesondere die
mehrschrittige Itemselektion sind ausführlich in den Kapiteln 5 und 6 beschrie-
ben. Die Analyseergebnisse bildeten jeweils die Grundlage für die folgende Sit-
zung der Entwicklungsgruppe.
Phase 4/1: Die aufgrund der Itemanalysen als kritisch klassifizierten Items konn-
ten im Rahmen der Sitzung überprüft und ggf. modifiziert oder eliminiert werden.
Außerdem wurden die wiederum eine Woche vor der Sitzung bereits erstellten
neuen Aufgabenentwürfe diskutiert. Sowohl die neu entwickelten als auch die ü-
berarbeiteten Items des letzten Testhefts wurden daraufhin erneut in einem Test-
heft zusammengefasst und innerhalb der folgenden Testdurchführung erprobt,
womit ein vollständiger Durchlauf der vier Phasen abgeschlossen ist.
Zusammenfassend kann festgehalten werden, dass sich das angewandte Design
zur Entwicklung von Testaufgaben bewährt hat. Es war so möglich, innerhalb
kurzer Zeit einen relativ großen Itempool zu generieren (vgl. 6.1.3), der durch die
beteiligten Kooperationslehrer sowohl in der schulischen Praxis verankert war als
auch während des gesamten Prozesses kontinuierlich empirisch überprüft, und
darauf basierend, optimiert werden konnte.
Die im Rahmen der Itementwicklung durchgeführten Analysen und dabei erziel-
ten Ergebnisse werden ausführlich in Kap. 6 und 7 beschrieben. Zuvor erfolgt je-
doch im nun folgenden Kapitel eine Darstellung der methodischen Grundlagen
der Test- und Itemanalyse.
63
5 Methoden
In folgendem Kapitel sind die statistischen Methoden beschrieben, die in der vor-
liegenden Arbeit zum Zwecke der Test- und Itemanalyse eingesetzt werden. Tra-
ditionell werden Tests und Items meist mittels Methoden der sogenannten ‚Klassi-
schen Testtheorie’ (KTT) entwickelt und analysiert. Im Zusammenhang mit der
Erfassung und Modellierung von Kompetenzen kommen in jüngster Zeit jedoch
zunehmend Methoden der ‚Probabilistischen Testtheorie’ (PTT) zum Einsatz. Da-
bei sind diese beiden testtheoretischen Ansätze nicht als konkurrierende Modelle
aufzufassen, sondern vielmehr komplementär und in Abhängigkeit des For-
schungsgegenstandes zu verwenden (z. B. Moosbrugger, 2007, S. 215; Rost,
1999; 2004, S. 12). Es verwundert daher nicht, dass bei Testkonstruktionen auf
Basis der PTT in aller Regel ergänzend auch klassische Methoden genutzt werden
(z. B. Ehmke, Leiß, Blum & Prenzel, 2006; vgl. auch Wu & Adams, 2007,
S. 64 ff.). Diesem Ansatz folgend werden in vorliegender Arbeit sowohl klassi-
sche als auch probabilistische Analyseverfahren eingesetzt.
Da probabilistische Methoden in musikpädagogischen Zusammenhängen bislang
noch kaum Verwendung fanden, erfolgt in einem ersten Abschnitt (5.1) eine kurze
Betrachtung des testtheoretischen Hintergrunds. Daran anschließend werden die
einzelnen Analyseverfahren dargestellt (5.2). Abschließend werden Stichprobe
und Datengrundlage beschrieben (5.3), auf die im dann folgenden Kapitel 6 die
dargestellten Analyseverfahren angewendet werden.
5.1 Testtheoretischer Hintergrund
Mithilfe eines Tests sollen bestimmte Eigenschaften einer Person erfasst werden.
Entsprechende Eigenschaften können beispielsweise Einstellungen oder Fähigkei-
ten sein und werden häufig als Personenmerkmale bezeichnet. „Testtheorien be-
fassen sich entweder mit dem Zusammenhang von Testverhalten und dem zu er-
fassenden psychischen Merkmal oder mit der Frage, in welche Bestandteile sich
Messwerte aufgliedern“ (Bühner, 2006, S. 20). Auf grundsätzlich konzeptueller
Ebene können die Klassische und die Probabilistische Testtheorie unterschieden
werden. Beide werden im Folgenden kurz skizziert, wobei ein Schwerpunkt auf
64
der PTT und im Speziellen deren Anwendungsmöglichkeiten im Kontext der
Kompetenzmodellierung liegt.
5.1.1 Klassische und Probabilistische Testtheorie
Die Klassische Testtheorie ist eine reine Messfehlertheorie, die sich mit den un-
terschiedlichen Bestandteilen von Messwerten befasst (wahrer Wert + Messfeh-
ler). Die Grundannahme ist hierbei, dass sich der beobachtete Messwert (X) einer
Person aus dem wahren Wert (T) einer Person und einem Messfehler (E) zusam-
mensetzt (z. B. Bühner, 2006, S. 27):
ETX ��
Wenngleich die KTT mathematisch durchaus befriedigend formuliert ist, so wer-
den in der Literatur doch einige ihrer Grundannahmen infrage gestellt (vgl. z. B.
Amelang & Schmidt-Atzert, 2006, S. 60). Ohne an dieser Stelle im Detail auf die
kritischen Punkte einzugehen, so ist doch zumindest eine zentrale Schwäche der
KTT zu nennen, die vor allem in Bezug auf die Erfassung von Kompetenzen von
Bedeutung ist: die KTT formuliert – im Gegensatz zur PTT (s. u.) – keine explizi-
ten Annahmen zwischen einem Personenmerkmal (z. B. Kompetenz) und der I-
tembeantwortung. Nichtsdestotrotz hat sich die KTT in vielen Bereichen der psy-
chologischen oder pädagogischen Forschung bewährt und dient nach wie vor ei-
nem Großteil der Testkonstruktionen als Basis.88
Im Gegensatz zur KTT formuliert die PTT Annahmen, inwiefern ein Personen-
merkmal (z. B. musikalische Kompetenz) das Testverhalten einer Person beein-
flusst (z. B. Antworten in einem Musik-Kompetenztest). Die Formulierung einer
Theorie bezüglich dieses Zusammenhangs ist nicht zuletzt deshalb von Bedeu-
tung, da bei der Auswertung eines Tests genau umgekehrt vorgegangen wird: Man
schließt von dem Antwortverhalten auf das Personenmerkmal (Rost, 2004, S. 21;
vgl. auch Abb. 7).
88 Laut Rost (1999, S. 140) erfolgen über 95 % der Testentwicklungen auf Basis der KTT.
65
Abb. 7: Zusammenhang von Personenmerkmal und Testverhalten (in
Anlehnung an: Rost, 2004, S. 21)
Die PTT geht dabei nicht von direkt messbaren Persönlichkeitsmerkmalen aus,
sondern von sogenannten ‚latenten’ Merkmalen, die nur indirekt über ‚manifeste’
Variablen (z. B. Antworten in einem Test) erschlossen werden können. Dahinter
steht die Annahme, dass ein latentes Merkmal „für das Zustandekommen der
Antworten bei bestimmten Items ‚verantwortlich’ ist und daher deren beobachtba-
re Zusammenhänge ‚produziert’“ (Bühner, 2006, S. 21). Auf den vorliegenden
Zusammenhang übertragen bedeutet dies, dass es sich bei der Kompetenz der
Wahrnehmung und Kontextualisierung von Musik um eine latente Variable (�)
handelt, die durch manifeste Variablen (Antworten auf die Items der KoMus-
Tests: X1, X2, …) beobachtet werden kann (vgl. Abb. 8).
Abb. 8: Latente Variable und manifeste Merkmalsausprägungen
Der Zusammenhang von latenter Variable und manifesten Variablen wird inner-
halb der PTT mittels verschiedener psychometrischer Testmodelle modelliert (im
Überblick z. B. Rost, 2004). Grafisch veranschaulicht beschreiben diese Modelle
den Zusammenhang (die Pfeile) zwischen der Kompetenz und den Itemantworten
(siehe Abb. 8). Wenn die Antwortmuster der Testpersonen zu den Annahmen ei-
66
nes Modells passen, so kann von der Gültigkeit des entsprechenden Modells aus-
gegangen werden; oder anders formuliert: das Testmodell sagt in solch einem Fall
die Itemantworten gut vorher. Die grundlegende und in probabilistischen Testmo-
dellen mathematisch ausformulierte Annahme ist dabei, dass mit steigender Per-
sonenfähigkeit die Wahrscheinlichkeit89 einer korrekten Itemlösung zunimmt
(Bühner, 2006, S. 33). Die Lösungswahrscheinlichkeit hängt neben der Fähigkeit
einer Person aber auch von der Schwierigkeit eines Items ab. In probabilistischen
Testmodellen werden daher (mindestens) zwei Parameter verwendet: Personenpa-
rameter �v (Fähigkeitsausprägung einer Person)90 und Itemparameter �i (I-
temschwierigkeit). Bei der getrennten Schätzung der Parameter wird so vorgegan-
gen, dass der Personenparameter aufgrund der Anzahl der Items, die eine Person
erfolgreich bearbeitet hat, geschätzt wird, während der Itemparameter auf der Lö-
sungshäufigkeit eines Items basiert.
Die steigende Popularität der PTT in der Bildungsforschung der letzten Jahre ist
vor allem dadurch zu erklären, dass sie verschiedene Vorzüge in Bezug auf Kom-
petenzmessung und -modellierung aufweist.91 Der entscheidende Vorteil von pro-
babilistischen Testmodellen besteht hierbei in der Möglichkeit, Itemschwierigkei-
ten und Personenparameter (Schülerfähigkeiten) auf einer gemeinsamen Skala ab-
zubilden. Dadurch wird es möglich, kriteriumsbezogene Aussagen zu machen,
was eine zentrale Anforderung an Kompetenztests darstellt (Hartig & Jude, 2007,
S. 24).92 Durch eine kriteriumsorientierte Interpretation von Schülertestwerten
kann beispielsweise bestimmt werden, über welche konkreten fachspezifischen
Kompetenzen verschiedene Schülergruppen verfügen und inwieweit bestimmte
89 Es handelt sich also um eine probabilistische Beziehung zwischen Personenfähigkeit und Item-lösungswahrscheinlichkeit, worauf auch der Terminus ‚probabilistische Testtheorie’ zurückzufüh-ren ist. 90 Der Personenparameter kennzeichnet den Wert einer Person auf der latenten Variablen (Bühner, 2006, S. 313). Wird als latente Variable z. B. ‚Intelligenz’ erfasst, so entspricht der Wert auf der latenten Variable der Intelligenz einer Testperson. Aus diesem Grund werden Personenfähigkeit und latente Variable gleich bezeichnet (�). 91 Im Speziellen auf dem Gebiet der empirischen Schulleistungsforschung hat sich die Probabilisti-sche Testtheorie mittlerweile durchgesetzt. So operieren alle größeren Schulleistungsstudien wie beispielsweise PISA, DESI, IGLU oder die US-amerikanischen NAEP-Studien durchweg auf Basis der PTT. 92 „Mit kriteriumsorientierter Testwertinterpretation ist im Unterschied zu einer Bezugsnormorien-tierung gemeint, dass ein Testergebnis dahingehend interpretiert wird, ob ein bestimmtes, vorher definiertes Kriterium erreicht wird. Ein derartiges Kriterium kann in der pädagogischen Diagnostik z. B. durch Bildungsstandards definiert werden. Die Einschätzung der Erreichung eines Kriteriums erfolgt unabhängig von Bezugsnormen, d. h. unabhängig davon, wie viele der anderen untersuch-ten Personen das Kriterium erreichen“ (Hartig & Jude, 2007, S. 24).
67
Anforderungen mit einer ausreichenden Sicherheit bewältigt werden können
(Rauch & Hartig, 2007, S. 242). Darüber hinaus ist die kriteriumsorientierte
Testwertinterpretation eine Voraussetzung für die Beschreibung und Bestimmung
von Kompetenzniveaus (Hartig & Jude, 2007, S. 24). An diesem Punkt wird deut-
lich, dass die psychometrischen Eigenschaften von PTT-Testmodellen zur Kon-
zeption von Kompetenzkonstrukten passen. Denn die möglichst präzise inhaltli-
che Beschreibung der Ausprägung der latenten Personenmerkmale
„[…] ist für Kompetenzen im Unterschied zu anderen Fähigkeits- oder Leistungskon-strukten besonders wichtig, da der enge Bezug zu konkreten Situationen und Hand-lungskontexten ein definierendes Merkmal von Kompetenzen darstellt. Ohne eine kri-teriumsorientierte Testwertinterpretation können z. B. keine substanziellen Aussagen über gesamte Populationen gemacht werden, wie sie für ein System-Monitoring not-wendig sind […].“ (Hartig & Jude, 2007, S. 24)
Wie konkret Itemschwierigkeit und Personenfähigkeit in einem Testmodell mit-
einander in Beziehung gesetzt werden, wird im Folgenden anhand des Rasch-
Modells verdeutlicht, das auch für die Skalierungen der Tests in vorliegender Ar-
beit zur Anwendung kommt.
5.1.2 Verwendete probabilistische Testmodelle: dichotomes und ordinales
Rasch-Modell
Das Rasch-Modell ist das bekannteste und zugleich einfachste probabilistische
Testmodell. Es gehört zur Gruppe der Latent-Trait-Modelle und geht von einer
quantitativen, kontinuierlichen latenten Variablen aus (Moosbrugger, 2007). In
Latent-Trait-Modellen wird der Zusammenhang von latenter Variable und mani-
festen Variablen als mathematische Funktion beschrieben, die sogenannte ‚Item-
charakteristische Funktion’ (IC-Funktion).93 Mittels der IC-Funktion kann für jede
Ausprägung der latenten Variablen eine Wahrscheinlichkeit p(Xvi = 1) bestimmt
werden, mit der ein Proband v ein bestimmtes Item i lösen wird.
Das dichotome Rasch-Modell
Als IC-Funktion des dichotomen Rasch-Modells wird eine logistische Funktion
verwendet, die auf folgender Modellgleichung basiert (Bühner, 2006, S. 318):
93 Im Englischen sowie in den meisten Softwareanwendungen wird der Terminus ‚Item Characte-ristic Curve’ (ICC) verwendet.
68
)exp(1))(exp()(
iv
ivvivi
xxXp�������
��
p(Xvi = x) = Wahrscheinlichkeit einer Person v, bei Item i die Antwortkategorie x zu wählen �v = Personenparameter für eine Person v �i = Itemparameter eines Items i exp = Exponentialfunktion (die Umkehrfunktion des Logarithmus) xvi = Wert einer Person v auf dem Item i (0 = falsch gelöst, 1 = richtig gelöst)
Aus der Modellgleichung ist ersichtlich, dass die Lösungswahrscheinlichkeit im
Rasch-Modell ausschließlich von zwei Modellparametern abhängt: Personenpa-
rameter (�v) und Itemparameter (�i). Abb. 9 zeigt den Verlauf der logistischen IC-
Funktion des Rasch-Modells in Abhängigkeit von �v und �i für die Lösungswahr-
scheinlichkeit p(xvi = 1).
Abb. 9: IC-Funktion des dichotomen Rasch-Modells für ein Item mit der Schwierig-
keit �i = 0 (entnommen aus: Rost, 2004, S. 120)
Der grafisch dargestellte Verlauf der IC-Funktion veranschaulicht, wie Ausprä-
gungen der Personenfähigkeit in Lösungswahrscheinlichkeiten für Items mit be-
stimmten Schwierigkeiten übertragen werden können. Hierfür ist im Rasch-
Modell die Itemschwierigkeit definiert als der Wendepunkt der IC-Funktion. An
diesem Punkt beträgt die Lösungswahrscheinlichkeit einer Person, deren Fähig-
keit �v genau der Itemschwierigkeit �i entspricht, 50 %. Sind Personen- und Item-
parameter bekannt, so kann aufgrund der Additivität der Parameter für jeden be-
liebigen Punkt der IC-Funktion die Lösungswahrscheinlichkeit berechnet werden
(z. B. Bühner, 2006, S. 314; vgl. hierzu auch den folgenden Abschnitt zur ‚Logit-
Skala’). Je größer die Fähigkeit �v einer Person im Vergleich zur Schwierigkeit �i
eines Items ist, desto größer wird die Lösungswahrscheinlichkeit p; oder einfacher
formuliert: bei ansteigender Fähigkeit wird es immer wahrscheinlicher, dass eine
69
Person ein entsprechendes Item löst. So hat beispielsweise eine Person mit der
Fähigkeitsausprägung � = 1 bei dem bereits aus Abb. 9 bekannten Item mit dem
Parameter � = 0 eine deutlich höhere Lösungswahrscheinlichkeit (vgl. Abb. 10).
Abb. 10: Lösungswahrscheinlichkeit für eine Person mit � = 1 bei einem Item mit � = 0
Wie aus den beiden vorangegangenen Abbildungen ersichtlich ist, sind Item- und
Personenparameter auf einer Skala mit einer bestimmten Einheit verortet. Es han-
delt sich hierbei um die sogenannte ‚Logit-Skala’, deren Einheit als ‚Logit der
Wahrscheinlichkeit’ bezeichnet wird und die durch die Umformung der Modell-
gleichung des Rasch-Modells hergeleitet werden kann.94 Der Wertebereich der
Logit-Skala liegt theoretisch zwischen plus und minus unendlich, wobei im Rah-
men von Testskalierungen die Item- und Personenparameter meist in einem Wer-
tebereich von -3 bis +3 liegen (Bühner, 2006, S. 314). Dem Nullpunkt der Skala
ist eine Lösungswahrscheinlichkeit von 50 % zugeordnet. Entsprechend sind
leichtere Items bzw. Personen mit geringerer Fähigkeit durch negative Logitwerte
gekennzeichnet und schwere Items bzw. Personen mit höherer Fähigkeit durch
positive Logitwerte. Durch die Verwendung der Logit-Skala können die Parame-
ter des Rasch-Modells additiv (bzw. subtraktiv) verknüpft werden. Der Logit der
Lösungswahrscheinlichkeit entspricht somit der Differenz zwischen Personen-
und Itemparameter (Bühner, 2006, S. 318). Veranschaulicht wird dies exempla-
risch für alle ganzzahligen Logitwerte im Bereich -4 bis +4 in Tab. 4. Wenn bei-
spielsweise der Personenparameter den Itemparameter um 4 logits übersteigt
(z. B. � = 2, � = -2), dann resultiert daraus eine Lösungswahrscheinlichkeit von
98 %. Auch für das Beispiel aus Abb. 10 kann so eine konkrete Lösungswahr-
94 Die sogenannte ‚Logit-Transformation’ ist z. B. bei Rost (2004, S. 116 ff.) beschrieben.
70
scheinlichkeit angegeben werden: Eine Person mit � = 1 hat bei einem Item mit
� = 0 eine Lösungswahrscheinlichkeit von 73 %, also 23 % höher als eine Person
mit � = 0 bei dem gleichen Item.
Tab. 4: Logitdifferenzen und Lösungs-wahrscheinlichkeiten im Rasch-Modell (in Anlehnung an: Wilson, 2005, S. 98)
�v - �i p(Xvi = 1) 4.00 0.98
3.00 0.95
2.00 0.88
1.00 0.73
0.00 0.50
-1.00 0.27
-2.00 0.12
-3.00 0.05
-4.00 0.02
Die Berechnung der Lösungswahrscheinlichkeit ist in gleicher Weise für jedes
Item mit beliebiger Schwierigkeit möglich. Aufgrund der Eigenschaften des
Rasch-Modells haben Itemfunktionen für unterschiedlich schwierige Items immer
den gleichen Anstieg und sind lediglich parallel bezüglich der X-Achse verscho-
ben (Rost, 2004, S. 120). Abb. 11 verdeutlicht dies anhand von drei Items mit un-
terschiedlicher Schwierigkeit.
Abb. 11: Itemfunktionen von drei Items mit den Parametern �1 = 0, �2 = 1 und �3 = 2
(entnommen aus: Rost, 2004, S. 120)
71
Das ordinale Rasch-Modell (Partial-Credit-Modell)
Der Großteil der KoMus-Items kann dichotom (richtig/falsch) ausgewertet und
entsprechend mit dem dichotomen Rasch-Modell skaliert werden. Darüber hinaus
gibt es aber auch eine Reihe (meist offener) Items, für die eine mehrkategorielle
Auswertung erfolgt. D. h., die entsprechenden Itemantworten werden nicht nur di-
chotom ausgewertet, sondern mittels einer sogenannten ‚partial-credit’-Bewertung
(z. B. falsch/teilweise richtig/vollständig richtig). Für die Skalierung solcher Items
steht das ordinale Rasch-Modell zur Verfügung, das auch als Partial-Credit-
Modell bezeichnet wird (z. B. Rost, 2004, S. 203 ff.).95 Grundsätzlich treffen die
bereits dargestellten Eigenschaften des dichotomen Rasch-Modells auch auf das
ordinale Modell zu.
Der entscheidende Unterschied besteht darin, dass es nun nicht mehr eine IC-
Funktion pro Item gibt, sondern so viele ‚Kategorienfunktionen’, wie ein Item
Antwortkategorien aufweist. Abb. 12 zeigt die Kategorienfunktionen für ein drei-
kategorielles Item (Kategorie 0: falsch, Kategorie 1: teilweise richtig, Kategorie 2:
vollständig richtig).
Abb. 12: Kategorienfunktionen eines dreikategoriellen Items (entnommen aus:
Rost, 2004, S. 203)
Geht man in Abb. 12 auf der x-Achse von links nach rechts, so ist zunächst die
Wahrscheinlichkeit am höchsten für eine falsche Antwort (Kategorie 0). Mit stei-
gender Personenfähigkeit �v sinkt diese Wahrscheinlichkeit jedoch ab, während
95 Es existieren verschiedene Untermodelle des ordinalen Rasch-Modells. In vorliegender Arbeit wird ausschließlich das Partial-Credit-Modell verwendet.
72
die Wahrscheinlichkeit für eine teilweise richtige Lösung (Kategorie 1) gleichzei-
tig ansteigt. Bei einer noch höheren Personenfähigkeit sinkt auch diese Wahr-
scheinlichkeit wieder ab, bei gleichzeitigem Anstieg der Wahrscheinlichkeit für
eine vollständig richtige Lösung (Kategorie 2). Man kann sich die mathematisch
formulierte Annahme der Kategorienfunktionen auch unter Zuhilfenahme von drei
unterschiedlich kompetenten Schülern verdeutlichen: Für einen wenig kompeten-
ten Schüler ist es sehr wahrscheinlich, dass er ein entsprechendes Item nicht löst.
Bei einem Schüler mit mittlerer Kompetenzausprägung überwiegt hingegen die
Wahrscheinlichkeit, dass er das Item zumindest teilweise löst, während für einen
sehr kompetenten Schüler sehr wahrscheinlich von einer vollständig richtigen Lö-
sung ausgegangen werden kann.
Die Parametrisierung des ordinalen Rasch-Modells erfolgt in Anlehnung an das
dichotome Modell. Dort wurde der Itemparameter definiert als der Abszissenwert
des Wendepunkts der logistischen Funktion (s. o.). Würde man im dichotomen
Rasch-Modell anstelle einer IC-Funktion zwei Kategorienfunktionen verwenden
(Kategorie 0: falsch, Kategorie 1: richtig), so zeigt sich, dass der Wendepunkt der
logistischen Funktion gleichzeitig auch Schnittpunkt beider Kategorienkurven ist
(Rost, 2004, S. 203). Demgemäß sind im ordinalen Rasch-Modell die Schnitt-
punkte der Kategorienfunktionen als Parameter definiert. Die Schnittpunkte wer-
den auch als ‚Schwellen’ bezeichnet, um zu verdeutlichen, dass an diesen Punkten
„der Übergang von einer Kategorie zur anderen stattfindet, d. h. die Wahrschein-
lichkeit, in der folgenden Kategorie zu antworten, von diesem Punkt an größer
wird als die Wahrscheinlichkeit, in der vorangegangenen Kategorie zu antworten“
(Rost, 2004, S. 205).96 Im Rahmen der Itemskalierungen erhält man daher für alle
mehrkategoriellen Items immer auch mehrere Schwellenparameter, und zwar für k
Kategorien stets k – 1 Schwellenparameter. Im Falle des in Abb. 12 dargestellten
Items wären dies zwei Schwellenparameter: ein Parameter für die Schwelle zwi-
schen Kategorie 0 und 1 und ein Parameter für die Schwelle zwischen Kategorie 1
und 2.
Für die konkreten Skalierungs- und Analysearbeiten (vgl. Kap. 6 und 7) ist es
nicht relevant, ob in einem Testheft nur Items mit dichotomen oder mehrkatego-
96 Auf einer Schwelle sind die Antwortwahrscheinlichkeiten für zwei benachbarte Kategorien je-doch gleich groß.
73
riellen Auswertungsformaten oder beide gleichzeitig auftreten. Die verwendete
Analysesoftware ConQuest (Wu, Adams & Wilson, 1998) nutzt ein generalisier-
tes Rasch-Modell, was sowohl dichotome als auch mehrkategorielle Formate in-
nerhalb desselben Tests modellieren kann.
In den vorangegangenen Ausführungen wurden einige zentrale Aspekte des di-
chotomen und ordinalen Rasch-Modells in aller Kürze und in ihrer Relevanz für
vorliegende Arbeit dargestellt. Darüber hinaus weist das Rasch-Modell noch eine
Reihe weiterer Eigenschaften auf, deren detaillierte Behandlung zum Verständnis
der Arbeit jedoch nicht notwendig ist und die daher abschließend lediglich zu-
sammenfassend aufgelistet werden. Sofern für einen Datensatz die Gültigkeit des
Rasch-Modells angenommen werden kann, treffen folgende Annahmen zu (Büh-
ner, 2006, S. 316):
� Die Summenwerte sind suffiziente oder erschöpfende Statistiken der Perso-
nenfähigkeit.
� Die Vergleiche zwischen Items und Personen sind spezifisch objektiv.
� Die Items sind eindimensional (die Forderung der lokalen stochastischen Un-
abhängigkeit der Items ist erfüllt).
5.2 Analyseverfahren
5.2.1 Itemschwierigkeit
Sowohl im Rahmen der Itemselektion (6.1), aber auch für die inhaltlichen Analy-
sen (6.2 und Kap. 7) ist die Schwierigkeit eines Items von zentraler Bedeutung.
Zunächst kann mit der Analyse der Itemschwierigkeit kontrolliert werden, dass in
den endgültigen Kompetenztest weder zu schwere noch zu leichte Items aufge-
nommen werden. Gleichzeitig ist es das Ziel des zu entwickelnden Kompetenz-
tests, ein möglichst breites Fähigkeitsspektrum zu erfassen. Deshalb muss sicher-
gestellt werden, dass die Itemschwierigkeiten über das gesamte Spektrum verteilt
sind. Darüber hinaus ist die Itemschwierigkeit ein wichtiges statistisches Kriteri-
um für die Überarbeitung der Items im Rahmen des Entwicklungsprozesses (vgl.
4.3): Items wurden dort in der Regel explizit für ein bestimmtes Schwierigkeitsni-
veau entwickelt. Die Analyse der Itemschwierigkeit dient daher dem Abgleich
zwischen anvisierter und empirischer Schwierigkeit. Nicht zuletzt spielt die I-
74
temschwierigkeit aber auch eine wichtige Rolle im Rahmen der Identifikation von
schwierigkeitsgenerierenden Aufgabenmerkmalen (Kap. 7).
Für alle genannten Bereiche kann die Itemschwierigkeit verwendet werden, wie
sie im Rasch-Modell formalisiert ist. Ergänzend wird jedoch auch die klassische
Itemschwierigkeit für den Prozess der Itemselektion herangezogen (vgl. 6.1.1).
Itemschwierigkeit im Rasch-Modell
Die Itemschwierigkeit entspricht im dichotomen Rasch-Modell dem Itemparame-
ter �i, der durch den Wendepunkt der IC-Funktion definiert ist.97 Wie bereits be-
kannt, beträgt die Lösungswahrscheinlichkeit einer Person, deren Fähigkeit �v ge-
nau der Itemschwierigkeit �i entspricht, an diesem Punkt 50 %.
Wu & Adams (2007, S. 41) weisen darauf hin, dass bei mehrkategoriellen Items
die Schwierigkeit einer Kategorie nicht auf Basis der Schwellenparameter beur-
teilt werden sollte.98 Sie schlagen hingegen die Verwendung von ‚Thurstonian
thresholds’ vor (Wu & Adams, 2007, S. 50). Der ‚Thurstonian threshold’ einer
Antwortkategorie markiert den Ort auf der Logit-Skala, an dem die Lösungswahr-
scheinlichkeit für die entsprechende Kategorie (oder eine höhere) 50 % beträgt.
Wichtig für die Analyse eines mehrkategoriellen Items ist die ordinale Abfolge
der ‚Thurstonian thresholds’ gemäß der Kategorienreihenfolge. D. h., eine als
schwerer angenommene Kategorie (z. B. vollständig gelöst) sollte immer auch ei-
ne höhere empirisch gemessene Schwierigkeit aufweisen als eine leichtere Kate-
gorie (z. B. teilweise gelöst).
Sowohl Itemparameter als auch Thurstonian thresholds werden in logits angege-
ben und variieren in der Regel zwischen -3 (sehr leichte Items bzw. Kategorien)
und +3 (sehr schwere Items bzw. Kategorien). Eine grafische Darstellung der I-
tem- und Kategorienschwierigkeiten eines gesamten Testhefts ist in Abb. 13 ge-
geben. In einer sogenannten ‚Wright map’99 werden Personenfähigkeit und I-
97 Vgl. auch die Ausführungen zu Rasch-Modell und Itemparameter in Abschnitt 5.1.2. 98 Die Interpretation der Schwellenparameter ist vor allem deshalb problematisch, da sie abhängig sind von der Anzahl der Testpersonen in den jeweiligen Kategorien (Wu & Adams, 2007, S. 45). 99 Diese Form der grafischen Darstellung wurde von Benjamin D. Wright (University of Chicago) entwickelt und ist daher nach ihm benannt; ausführlich ist die Konstruktion und Interpretation von Wright maps bei Wilson (2005, S. 90 ff.) dargestellt.
75
temschwierigkeit vertikal auf einer gemeinsamen Logit-Skala verortet. Die hier
verwendete Skala hat einen Bereich von ungefähr -3.5 bis 2.5 logits.
Abb. 13: Beispiel einer Wright map
76
Die Personenfähigkeit ist auf der linken Seite jeweils durch ein ‚X’ repräsentiert,
während die Itemparameter und thresholds auf der rechten Seite positioniert sind.
Die thresholds eines mehrkategoriellen Items werden jeweils nach dem Item be-
nannt und anschließend aufsteigend indiziert. Die Kategorie 1 des Items Nr. 9 ist
dementsprechend als ‚9.1’ gekennzeichnet und hat einen Wert von -2.83 logits.
Die vollständig richtige Lösung dieses Items (‚9.3’) ist mit einem Wert von 1.81
logits offensichtlich deutlich schwerer. Mittels einer Wright map kann auf diese
Art sowohl die Verteilung der Itemschwierigkeiten eines Testhefts als auch die
ordinale Abfolge der thresholds überprüft werden.
Klassische Itemschwierigkeit
Zur Berechnung der klassischen Itemschwierigkeit wird ein Schwierigkeitsindex
Pi verwendet, der sich aus dem Prozentsatz an Testpersonen zusammensetzt, die
ein Item richtig gelöst haben (Bühner, 2006, S. 83):
100��NNP R
i
NR = Anzahl der Testpersonen, die ein Item gelöst haben N = Anzahl aller Testpersonen Pi = Schwierigkeitsindex
Der Index nimmt folglich Werte zwischen 0 und 100 an und wird umso höher, je
leichter ein Item ist. Lösen beispielsweise bei einer Stichprobengröße von 200
Testpersonen nur 10 Personen ein Item, so ergibt sich ein Schwierigkeitsindex
von Pi = 5; das betreffende Item ist also sehr schwer. Lösen hingegen 190 Perso-
nen ein Item in demselben Test, so handelt es sich um ein sehr leichtes Item mit
einem Schwierigkeitsindex von Pi = 95.
Ergänzend sind für Schwierigkeitsindizes in der Literatur verschiedene Korrek-
turmaße zu finden (z. B. Bühner, 2006; Kelava & Moosbrugger, 2007), von denen
die Zufallskorrektur und die Inangriffnahmekorrektur für vorliegende Arbeit ver-
wendet werden.
Die Inangriffnahmekorrektur des Schwierigkeitsindex (PIK) ist deshalb notwendig,
da die Testdurchführungen zeitlich begrenzt waren; pro Testheft stand jeweils ei-
ne Schulstunde (45 Min.) zur Verfügung. In einigen Klassen kam es daher vor,
dass die Testhefte nicht vollständig bearbeitet werden konnten, d. h. für die Items
am Ende eines Testhefts liegen in diesem Fall keine Antworten vor. Um die
77
Schwierigkeit der entsprechenden Items nicht zu überschätzen, werden durch die
Inangriffnahmekorrektur nur Testpersonen berücksichtigt, die die Items bearbeitet
haben. Entsprechend wird der Schwierigkeitsindex für diese Items nicht mittels
der gesamten Stichprobe (N) berechnet, sondern nur auf Basis der Teilstichprobe
(NB), die das jeweilige Item bearbeitet hat (Kelava & Moosbrugger, 2007,
S. 75 ff.):100
100��B
RIK N
NP
Der größte Teil der KoMus-Items sind geschlossene Formate, bei denen die Ant-
worten vorgegeben sind (z. B. Multiple-Choice-Items). Bei diesen Items kann ei-
ne richtige Lösung auch durch Raten erzielt werden. Dies ist einerseits problema-
tisch, da in den Tests sowohl Items mit einer unterschiedlichen Anzahl von Ant-
wortalternativen eingesetzt werden als auch Items, bei denen nicht geraten werden
kann (halb-offene und offene Formate); in Abhängigkeit des Itemformats ergeben
sich folglich jeweils spezifische Lösungswahrscheinlichkeiten durch Raten. Ande-
rerseits ist die Verfälschung der Testergebnisse durch Raten nicht bei allen Test-
personen konstant, da der prozentuale Anteil der durch Raten richtig beantworte-
ten Items mit abnehmender Fähigkeit der Untersuchungsteilnehmer zunimmt
(Bortz & Döring, 2006, S. 216). Um diesen Problemen zu begegnen, berücksich-
tigt die Zufallskorrektur sowohl die Anzahl der Testpersonen, die ein Item nicht
lösen, als auch die Anzahl der Antwortalternativen (Bühner, 2006, S. 83 ff.):101
1001 ���
�N
mNN
PF
R
ZK
NF = Anzahl der Testpersonen, die ein Item falsch gelöst haben m = Anzahl der Antwortalternativen PZK = Schwierigkeitsindex mit Zufallskorrektur
Die Zufallskorrektur kann auch leicht mit der Inangriffnahmekorrektur kombiniert
werden, indem anstelle der gesamten Stichprobe nur die Teilstichprobe NB für die
100 Die Inangriffnahmekorrektur kommt jedoch nicht zum Einsatz, wenn Items innerhalb eines Testhefts ausgelassen wurden, wenn also nach einer fehlenden Antwort ein folgendes Item bear-beitet wurde. Solche ausgelassenen Items werden als falsch gewertet. 101 Genauer gesagt werden nur die falschen Antwortalternativen (Distraktoren) berücksichtigt (da-her: m – 1). Dies basiert darauf, dass als Schätzer für das Ausmaß, in dem ein Item durch Raten beeinflusst wird, die Anzahl aller Falschantworten verwendet wird (Bühner, 2006, S. 84).
78
Berechnung des Schwierigkeitsindex mit Zufallskorrektur verwendet wird (Büh-
ner, 2006, S. 86).
5.2.2 Trennschärfe
Die Trennschärfe (rit) im Sinne der klassischen Testtheorie drückt aus, wie groß
der korrelative Zusammenhang der einzelnen Itemwerte mit dem Gesamttestwert
ist (Kelava & Moosbrugger, 2007, S. 82). Die Trennschärfe ist somit ein Maß da-
für, wie gut ein Item den gesamten Test repräsentiert und zur Messqualität des
Tests beiträgt. An einem trennscharfen Item lässt sich ablesen, welche Personen
bezüglich des betrachteten Konstrukts hohe oder niedrige Ausprägungen besitzen.
Beide Gruppen werden durch entsprechende Items also gut voneinander ‚getrennt’
(Bortz & Döring, 2006, S. 219). Eine niedrige Trennschärfe deutet darauf hin,
dass ein Item etwas anderes misst als der Gesamttest und folglich ein schlechter
Indikator für das anvisierte Konstrukt ist.
Berechnet wird die Trennschärfe für jedes Item bzw. jede Antwortkategorie als
punktbiseriale Korrelation zwischen Item/Antwortkategorie und Testwert, wobei
das entsprechende Item nicht für die Bildung des Testwerts berücksichtigt wird,
da sonst die Trennschärfe überschätzt würde (sogenannte ‚part-whole-Korrektur’;
z. B. Bühner, 2006, S. 95). Die Trennschärfe hat einen korrelationstypischen Wer-
tebereich von -1 bis +1, wobei positive Werte zwischen 0.3 und 0.5 als mittelmä-
ßig und Werte größer als 0.5 als hoch gelten (Bortz & Döring, 2006, S. 220). I-
tems, die negativ mit dem Gesamttestwert korreliert sind, sowie Items mit einer
Trennschärfe rit < 0.25 sollten aus einem Test entfernt werden (Kelava & Moos-
brugger, 2007, S. 84; OECD, 2005, S. 123). Bei mehrkategoriellen Items ist es
darüber hinaus wichtig, dass die Trennschärfen der Kategorien aufsteigend geord-
net sind (OECD, 2005, S. 123). Z. B. sollte bei einem dreikategoriellen Item die
höchste Kategorie (vollständig gelöst) immer auch die höchste Trennschärfe auf-
weisen, ebenso wie die Trennschärfe der mittleren Kategorie (teilweise gelöst) die
der niedrigsten Kategorie (nicht gelöst) übersteigen sollte.
In Bezug auf die Trennschärfe eines Items ist außerdem zu beachten, dass diese
vom Schwierigkeitsindex abhängt: je extremer die Schwierigkeit eines Items, des-
to geringer die Trennschärfe (Bortz & Döring, 2006, S. 220). D. h., bei einem
Test, der auch in den Randbereichen des untersuchten Konstrukts möglichst gut
differenzieren soll, sind Einbußen bei den Trennschärfen unvermeidlich (vgl.
79
Amelang & Schmidt-Atzert, 2006, S. 120). Sofern die Trennschärfe – wie in der
vorliegenden Arbeit (vgl. 6.1.1) – als Kriterium für die Itemselektion verwendet
wird, besteht damit die Gefahr, Items mit extrem hoher oder niedriger Schwierig-
keit überproportional häufig zu eliminieren. Bühner schlägt daher die Verwen-
dung eines Selektionskennwerts (SK) vor, der die Trennschärfe von Items mit ex-
tremer Schwierigkeit nach oben korrigiert (Bühner, 2006, S. 99):
i
it
SrSK�
�2
rit = Korrelation des Items i mit der Skala t (Gesamttestwert) Si = Standardabweichung des Items i
Der Selektionskennwert ist dabei so konzipiert, dass die Korrektur umso stärker
ausfällt, je weiter sich der Schwierigkeitsindex eines Items den Randbereichen 0
und 100 nähert (Bühner, 2006, S. 100). Die Anwendung des Selektionskennwerts
führt daher dazu, dass sehr leichte und sehr schwere Items im Rahmen der Itemse-
lektion nicht zu häufig aufgrund einer niedrigen Trennschärfe entfernt werden
(vgl. auch 6.1.1).
5.2.3 Distraktorenanalyse
Die Entwicklung und Analyse von Distraktoren (falsche Antwortalternativen; vgl.
3.1) ist von großer Bedeutung für die Qualität geschlossener Itemformate. So
kann der Schwierigkeits- und Komplexitätsgrad eines Items entscheidend durch
die Wahl der Distraktoren gesteuert werden (z. B. Rost, 2004, S. 62 f.). Ebenso ist
die Ratewahrscheinlichkeit bei geschlossenen Items abhängig von den Distrakto-
ren (z. B. Bortz & Döring, 2006, S. 214). Die Qualität der Distraktoren kann
durch eine Kombination inhaltlicher und statistischer Analysen sichergestellt wer-
den (vgl. 6.2.1).
Das statistische Vorgehen besteht hierbei aus zwei Schritten (Lienert & Raatz,
1994, S. 124 f.): Zunächst wird für jede Antwortalternative die prozentuale Häu-
figkeit berechnet, mit der die entsprechende Antwortalternative gewählt wurde,
wobei im optimalen Fall für alle Distraktoren eine ungefähr gleiche Häufigkeit
vorliegt. Es handelt sich hierbei also um die Berechnung der Schwierigkeitsindi-
zes Pi für die richtige Antwortalternative und Pd für alle Distraktoren. Außerdem
erfolgt eine Analyse der Trennschärfe, die für die richtige Antwortalternative ei-
80
nen Wert rit > 0.25 und für alle Distraktoren eine negative Korrelation (rd) erge-
ben sollte. Bei einem MC-Item mit vier Antwortalternativen könnte eine Distrak-
torenanalyse beispielsweise folgendermaßen aussehen:
Tab. 5: Beispiel einer Distraktorenanalyse
Beispielitem (NB = 171) Häufigkeit Pi, Pd rit, rd
Antwortalternative 1 (richtige Antwort) 52 30.40 0.36
Antwortalternative 2 (Distraktor 1) 59 34.50 -0.16
Antwortalternative 3 (Distraktor 2) 56 32.74 -0.17
Antwortalternative 4 (Distraktor 3) 4 2.33 -0.04
Die Analyse der Trennschärfen ergibt das erwartete Ergebnis: Die Korrelation der
richtigen Antwortalternative mit dem Gesamttestwert, welche der Trennschärfe rit
des Items entspricht (vgl. 5.2.2), ist > 0.25, während alle Distraktoren negativ mit
dem Gesamttestwert korrelieren. Die Durchsicht der Häufigkeitsverteilung zeigt
zunächst, dass alle Distraktoren gewählt wurden. Darüber hinaus wird jedoch
deutlich, dass die Distraktoren eins und zwei besonders ‚attraktiv’ sind für Perso-
nen, die die richtige Antwort nicht kennen, während Distraktor drei nur von sehr
wenigen Testpersonen gewählt wird. Solch ein Distraktor ist aus statistischer
Sicht sehr ungünstig, denn es scheint für nahezu alle Testpersonen offensichtlich
zu sein, dass diese Antwortalternative nicht als Aufgabenlösung infrage kommt.
Entsprechend erhöht sich die Ratewahrscheinlichkeit auf 33.33 %, da statistisch
betrachtet bei diesem Item nur noch von drei Antwortalternativen bzw. zwei ‚ech-
ten’ Distraktoren ausgegangen werden kann. Im Zuge der Analyse und Überarbei-
tung eines entsprechenden Items müsste nun der dritte Distraktor näher betrachtet
und evtl. modifiziert werden (vgl. 6.2.1).
5.2.4 Itemfit
Der Itemfit ist ein entscheidender Kennwert, anhand dessen die Qualität eines ein-
zelnen Items beurteilt werden kann. In ihm drückt sich aus, ob ein Item zu den
Annahmen des Rasch-Modells passt, also überhaupt raschskalierbar ist.
Für die Berechnung des Itemfit stehen verschiedene statistische Ansätze zur Ver-
fügung (vgl. Rost, 2004, S. 371 ff.). In der für die vorliegende Arbeit genutzten
Software ConQuest (Wu et al., 1998) werden residuen-basierte Fit-Maße verwen-
81
det. Als Residuen werden die Abweichungen von beobachteten und theoretisch
erwarteten Werten bezeichnet. Bei der Analyse des Itemfit geht es also darum,
wie stark die empirisch beobachteten Itemantworten von den aufgrund des Rasch-
Modells erwarteten Itemantworten abweichen. Zur Beurteilung des Itemfit werden
Fit-Statistiken berechnet, auf deren Basis die Modellverträglichkeit der Items ein-
geschätzt werden kann.
Das in ConQuest verwendete Itemfit-Maß ist der sogenannte ‚weighted mean
square’ (MNSQ), der einen Erwartungswert von 1 hat. Werte nahe 1 deuten somit
auf eine geringe Abweichung von empirischen und erwarteten Werten hin; für
entsprechende Items kann von einem guten Itemfit gesprochen werden. Abb. 14
zeigt die IC-Funktion eines Items mit nahezu exaktem Itemfit (MNSQ = 0.99).
Grafisch wird dies dadurch deutlich, dass die empirischen Werte (Punkte bzw. ge-
strichelte Linie) kaum von den durch das Rasch-Modell angenommenen Werten
(durchgezogene Linie) abweichen.
Abb. 14: Beobachtetes Antwortverhalten und theoretische IC-Funktion eines Items mit gutem Itemfit
Viel diskutiert wird in der Literatur, welche Abweichung vom Erwartungswert to-
lerierbar ist (z. B. Bond & Fox, 2007, S. 235 ff.). Werte < 1 werden im Allgemei-
nen als unproblematisch angesehen, da es sich hierbei um einen ‚Overfit’ handelt;
d. h., entsprechende Items passen ‚zu gut’ zum Modell. Rost erklärt diesen zu-
nächst etwas seltsam anmutenden Fall so, dass in den Daten zu wenig Probabi-
listik ist, d. h., „dass jede Person exakt die Antwortkategorie auswählt, die ihrer
82
Eigenschaftsausprägung entspricht“ (Rost, 2004, S. 374). Problematischer ist hin-
gegen ein ‚Underfit’. Bei Items mit MNSQ-Werten > 1 liegt eine zu geringe Ab-
hängigkeit der Itemantwort von der Eigenschaftsausprägung vor, die Antwortmus-
ter weichen also zu stark von den durch das Rasch-Modell vorhergesagten ab.
Abb. 15 zeigt ein entsprechendes Item mit Underfit.
Abb. 15: Beobachtetes Antwortverhalten und theoretische IC-Funktion eines Items mit schlechtem Itemfit
Konkret schlagen Bond & Fox (2007, S. 243) für Schulleistungsstudien den Wer-
tebereich von 0.8 bis 1.2 als tolerierbare MNSQ-Werte vor. Dieser Wertebereich
wird beispielsweise für die PISA-Studien verwendet (Adams, 2002, S. 105) und
liegt auch der Itemselektion in vorliegender Arbeit zugrunde (vgl. 6.1.1).
Der Itemfit kann außerdem inferenzstatistisch überprüft werden. Hierfür wird der
MNSQ in standard-normalverteilte Maße transformiert, die in ConQuest mit t be-
zeichnet werden (Wu & Adams, 2007, S. 75). Überprüft man mit 5 %iger Irr-
tumswahrscheinlichkeit den Itemfit inferenzstatistisch, so weisen t-Werte außer-
halb des Intervalls [–1.96, 1.96] auf signifikante Abweichungen des MNSQ hin
(Wu & Adams, 2007, S. 82).
83
5.2.5 Globaler Modelltest: Geltung des Rasch-Modells
„Jede Testauswertung beruht auf einem Modell über das Antwortverhalten der Perso-nen in diesem Test. Ob die Testergebnisse etwas über die getesteten Personen aussa-gen und was sie bestenfalls aussagen können, hängt davon ab, ob das bei der Auswer-tung angewendete Testmodell überhaupt auf die erhobenen Daten passt. Dies ist die Frage nach der Modellgültigkeit, die mithilfe von […] Modellgeltungstests zu beant-worten ist.“ (Rost, 2004, S. 330; Hervorhebungen im Original)
Rost weist in diesem Zitat auf einen testtheoretisch entscheidenden Punkt hin: Die
mit einem bestimmten Testmodell ausgewerteten Daten können erst dann sinnvoll
analysiert und interpretiert werden, wenn sichergestellt ist, dass das verwendete
Testmodell tatsächlich auf die Daten passt.
Dem KoMus-Projekt liegt die Annahme zugrunde, dass die Kompetenz ‚Musik
wahrnehmen und kontextualisieren’ als kontinuierliche latente Variable modelliert
werden kann, wobei mit steigender Personenfähigkeit die Wahrscheinlichkeit ei-
ner korrekten Itembearbeitung zunimmt. Entsprechend wurde für die Testauswer-
tung ein passendes probabilistisches Testmodell gewählt. Es ist somit einerseits
von grundlegendem Interesse, ob die theoretischen Annahmen in Bezug auf das
Kompetenzkonstrukt zutreffen und das entsprechend gewählte Rasch-Modell tat-
sächlich ein für die Testauswertung sinnvoll anzuwendendes Testmodell darstellt.
Andererseits ist die Kontrolle der Modellgeltung auch deshalb wichtig, weil eini-
ge der weiteren Analyse- und Interpretationsschritte nur dann sinnvoll durchzu-
führen sind, wenn die Gültigkeit des Rasch-Modells für die Daten sichergestellt
ist. Dies betrifft z. B. die DIF-Analysen (5.2.6) und vor allem die Analysen im
Rahmen der Identifikation von schwierigkeitsgenerierenden Aufgabenmerkmalen
(Kap. 7).
Zur Prüfung der Modellgeltung gibt es verschiedene Verfahren (im Überblick:
Rost, 2004, S. 330 ff.). Die Wahl eines Verfahrens ist primär von der Datenlage
und dem Erkenntnissinteresse abhängig. Soll z. B. entschieden werden, ob ein
Testmodell besser als ein anderes passt, so werden sogenannte ‚informationstheo-
retische Maße’ verwendet. Für die vorliegende Arbeit ist es jedoch von Interesse,
ob das Rasch-Modell ganz grundsätzlich auf die Daten passt. Hierfür kommen
globale Modelltests zum Einsatz, die eine inferenzstatistische Entscheidung hin-
sichtlich der Geltung eines Modells ermöglichen. Die in diesem Zusammenhang
eingesetzten Prüfgrößen sind der Likelihoodquotient und die �2-Statistik, die je-
doch annähernd äquivalent sind und in der Regel zu den gleichen Resultaten füh-
84
ren (Rost, 2004, S. 336). Ein Problem beider Prüfstatistiken ist es, dass die Vor-
aussetzungen für diese statistischen Verfahren nur sehr selten erfüllt sind, insbe-
sondere bei Tests mit einer größeren Anzahl an Items (ebd.). Daher können beide
Verfahren nicht für vorliegende Arbeit verwendet werden. Rost (2004, S. 336 ff.)
verweist jedoch auf eine mögliche Alternative, das sogenannte ‚bootstrap’-
Verfahren.
Beim ‚bootstrapping’ geht es darum, die Prüfverteilung über computersimulierte
Daten zu ermitteln.102 Hierfür verwendet man zunächst einen ‚echten’ Datensatz,
für den die Parameter auf Basis des Rasch-Modells geschätzt wurden. Mit diesen
Paramterschätzungen werden anschließend neue Daten simuliert, von denen man
weiß, dass sie zu dem gewählten Testmodell passen, also in vorliegendem Fall
Rasch-konform sind. Auf diese Weise werden eine größere Anzahl Datensätze
simuliert (in der Regel genügen 100), für die dann jeweils eine �2-Prüfgröße be-
rechnet wird.103 Die so simulierte Prüfverteilung besteht folglich ausschließlich
aus Werten, die durch Rasch-konforme Datensätze generiert wurden und mit de-
nen der �2-Wert der ‚echten’ Daten verglichen werden kann. Zur Beurteilung, ob
das Rasch-Modell auf die empirischen Daten passt oder nicht, wird folgenderma-
ßen vorgegangen: Wenn der �2-Wert der empirischen Daten zu den 5 % höchsten
�2-Werten der simulierten Verteilung gehört, so wird die Gültigkeit des Rasch-
Modells für diesen Datensatz abgelehnt.
Das vollständige bootstrap-Verfahren – sowohl die Simulation der Daten als auch
die Berechnung der Prüfgrößen – ist in WINMIRA (Von Davier, 2001) implemen-
tiert und wurde mithilfe dieser Statistiksoftware für alle Datensätze der neun
Testhefte durchgeführt (vgl. 6.1).
102 Im Folgenden wird das Vorgehen stark zusammengefasst dargestellt. Eine detaillierte Be-schreibung findet sich z. B. bei Bühner (2006, S. 347) und Rost (2004, S. 336 ff.). 103 Von Davier (1997) schlägt darüber hinaus die Verwendung der Cressie-Read-Statistik vor, die eine Abwandlung der �2-Prüfgröße darstellt (vgl. Bühner, 2006, S. 346 f.). Konzeptuell sind die beiden Verfahren vergleichbar, sodass an dieser Stelle keine gesonderte Behandlung der Cressie-Read-Statistik erfolgt. Beide Prüfstatistiken werden standardmäßig von WINMIRA (von Davier, 2001), dem für die Modelltests eingesetzten Programm, ausgegeben und können für vorliegende Arbeit verwendet werden.
85
5.2.6 Differential Item Functioning (DIF)
Wie jedes Testinstrument, so sollte auch ein Kompetenztest valide Messungen für
alle Subgruppen einer Testpopulation ermöglichen (Wu & Adamas, 2007, S. 69).
Daher wird im Rahmen von Rasch-basierten DIF-Analysen untersucht, ob Items
für unterschiedliche Gruppen unterschiedlich gut ‚funktionieren’.104 Die Gruppen
können dabei z. B. in Abhängigkeit von Variablen wie Geschlecht, Migrationshin-
tergrund oder außerschulischem Musikunterricht definiert sein. Bei einem Item
liegt DIF vor, wenn die Lösungswahrscheinlichkeiten des betreffenden Items
nicht vollständig aufgrund von Personenfähigkeit und Itemschwierigkeit erklärt
werden können (Adams & Carstensen, 2002, S. 154). Dies führt dazu, dass Test-
personen mit gleicher Fähigkeit bei DIF-Items unterschiedliche Lösungswahr-
scheinlichkeiten haben. Es geht also bei DIF-Analysen nicht um Gruppenmittel-
wertsunterschiede bezüglich der Personenfähigkeit, sondern darum, dass Items für
verschiedene Gruppen nach der Kontrolle von Gruppenmittelwerten unterschied-
lich schwer oder leicht sind (ebd.). DIF kann z. B. auftreten, wenn ein Item so
formuliert wurde, dass bestimmte Personengruppen besonders benachteiligt oder
übervorteilt sind, da nur ihnen ein zur Aufgabenlösung notwendiges Kontextwis-
sen zur Verfügung steht bzw. fehlt. In diesem Fall spricht man auch von ‚biased’
Items (Ayala, 2009, S. 324 ff.). DIF deutet also auf problematische, ‚unfaire’ I-
tems hin, die daraufhin inhaltlich untersucht werden müssen.
Aus methodischer Sicht basiert eine DIF-Analyse zunächst auf der getrennten
Raschskalierung eines Tests für die interessierenden Subgruppen (z. B. Jungen
und Mädchen).105 Dadurch erhält man für jedes Item eines Tests jeweils zwei (o-
der in Abhängigkeit von der Gruppenvariable auch mehrere) getrennt geschätzte
Itemparameter. Der anschließend durchzuführende Vergleich der resultierenden
Itemparameter kann grafisch in einem Streudiagramm veranschaulicht werden
(vgl. Abb. 16). Man trägt hierbei die Itemparameter der beiden Gruppen gegen-
einander auf, wodurch pro Item ein Punkt entsteht, der idealerweise auf der Gera-
104 Im Folgenden werden die konzeptuellen Grundlagen des ‚Differential Item Functioning’ zu-sammenfassend dargestellt. Eine ausführliche Behandlung der Thematik findet sich z. B. bei Ayala (2009, S. 323); die statistischen Grundlagen sind z. B. bei Lind & Knoche (2004, S. 63 ff.) be-schrieben. 105 In ConQuest wird dies jedoch im Rahmen einer Skalierung durch ein sogenanntes ‚multi-faceted modelling’ durchgeführt (vgl. Wu, Adams & Wilson, 1998). Es wird hierfür ein ‚item-by-facet interaction term’ in das Standardmodell eingefügt, wobei als ‚facet’ die jeweilige Gruppenva-riable fungiert.
86
den (oder zumindest sehr nahe an dieser) liegen sollte. In diesem Fall sind die Pa-
rameterwerte für beide Gruppen (annähernd) gleich. Je weiter ein Punkt jedoch
von der Diagonalen entfernt liegt, desto größer ist die Differenz der Itemparame-
ter und entsprechend groß der DIF-Wert. Abb. 16 veranschaulicht, dass auf diese
Weise Items mit hohen DIF-Werten einfach identifiziert werden können.
-3
-2
-1
0
1
2
3
-3 -2 -1 0 1 2 3
Itemparameter (M)
Item
para
met
er (J
)
Abb. 16: Beispiel für eine grafische Kontrolle auf DIF; Vergleich
der Itemschwierigkeiten für Jungen (J) und Mädchen (M)
Auf Itemebene kann die Kontrolle des DIF auch über die IC-Funktionen erfolgen.
Abb. 17 zeigt ein Item mit sehr hohem DIF. Die Logit-Differenz der Itemparame-
ter beträgt hierbei 0.9. Außerdem ist das Item offensichtlich für Mädchen (obere
IC-Funktion) deutlich einfacher als für Jungen (untere IC-Funktion). Die Inspek-
tion der IC-Funktionen ist auch deshalb aufschlussreich, da u. U. der DIF nicht
über die ganze latente Dimension gleich verläuft (wie in Abb. 17). Möglich ist
auch der Fall, dass beispielsweise ein Item nur für Testpersonen mit niedriger Fä-
higkeitsausprägung DIF aufweist (vgl. Bond & Fox, 2007, S. 93).
87
Abb. 17: Beispiel-Item mit starkem DIF
Der eigentlich wünschenswerte Fall ist in Abb. 18 dargestellt. Hier liegen die IC-
Funktionen für beide Gruppen übereinander; das Item weist also keinen DIF auf.
Abb. 18: Beispiel-Item ohne DIF
Wenngleich grafische DIF-Analysen sehr anschaulich sind, so ist es doch schwie-
rig auf dieser Grundlage zu entscheiden, ob ein ‚substantieller’ DIF vorliegt. Dies
ist vor allem deshalb schwer, da in der Testpraxis fast jedes Item einen gewissen
Grad an DIF aufweisen wird (Wu & Adams, 2007, S. 71). Für die Entscheidung,
ob ein Item ‚substantiellen’ DIF aufweist und evtl. überarbeitet oder aus einem
88
Test eliminiert werden muss, kann einerseits die Größe der Differenz der I-
temschwierigkeiten festgelegt werden, ab der für ein Item von DIF ausgegangen
wird. Andererseits ermöglicht ConQuest einen Signifikanztest des DIF (vgl. Wu
et al., 1998). Nach Wang (2000) ist dann von einem ‚substantiellen’ DIF bezüg-
lich zweier Teilpopulationen auszugehen, wenn die Differenz der Itemschwierig-
keiten signifikant ist und mindestens 0.50 logits beträgt.
5.3 Durchführung der Erhebungen
Ziel des KoMus-Projekts ist die Entwicklung und Validierung eines Kompetenz-
modells und eines darauf basierenden Kompetenztests. Entsprechend wurde im
Rahmen des modellbasierten Aufgabenentwicklungsprozesses ein Itempool gene-
riert (vgl. 4.3). Die entwickelten Items wurden während des gesamten Prozesses
kontinuierlich in Feldtests erprobt und analysiert. Durchgeführt wurden die Tests
mit der in Abschnitt 5.3.1 beschriebenen Stichprobe. Der konkrete Testablauf ist
daran anschließend in Abschnitt 5.3.2 dargestellt.
5.3.1 Stichprobe
Das KoMus-Kompetenzmodell und der darauf basierende Kompetenztest werden
für Schüler der Klassenstufe sechs entwickelt (vgl. 2.2.3). Entsprechend wurde
auch für die Testdurchführungen im Rahmen der Aufgabenentwicklung eine
Stichprobe primär bestehend aus Sechstklässern rekrutiert. Vereinzelt nahmen je-
doch auch Schüler aus fünften und siebten Klassen an den Tests teil. Der Haupt-
teil der Stichprobe bestand aus Klassen der an dem Aufgabenentwicklungsprozess
beteiligten Kooperationslehrer. Darüber hinaus konnten auch einige Parallelklas-
sen an den entsprechenden Schulen gewonnen werden. Insgesamt wurden von
März 2008 bis Februar 2009 alle entwickelten Items im Rahmen von neun Tests
bzw. Testheften erprobt. Beteiligt waren an den Tests jeweils zwei Schulen aus
Bremen (Gymnasium und Sekundarschule/Gymnasium), vier niedersächsische
Schulen (Gymnasium, Realschule, Hauptschule, Gesamtschule) und eine Schule
aus Hessen (Gymnasium). Durchschnittlich nahmen 215 Schüler pro Test teil.
Tab. 6 gibt einen Überblick über die Stichprobenzusammensetzung für jedes
Testheft.
89
Tab. 6: Stichprobengröße und Geschlechtsverhältnis nach Schulart für die realisierte Stichprobe
Testheft 1 (März 2008)
Gym RS HS GS SekS Gesamt
N 58 21 39 - - 118
Testheft 2 (April 2008)
Gym RS HS GS SekS Gesamt
N 109106 21 18 26 - 174
Testheft 3 (Mai 2008)
Gym RS HS GS SekS Gesamt
N 88 25 - 25 14 152
Testheft 4 (Juni 2008)
Gym RS HS GS SekS Gesamt
N 170107 24 21 27108 - 242
Männlich (%)109 48.2 50.0 57.1 26.9 - 47.3
Testheft 5 (Juli 2008)
Gym RS HS GS SekS Gesamt
N 145 40 27 29110 - 241
Männlich (%) 53.8 38.5 58.3 37.0 - 50.6
Testheft 6 (Sep/Okt 2008)
Gym RS HS GS SekS Gesamt
N 120 22 29 54111 - 225
Männlich (%) 53.3 25.0 59.3 41.5 - 50.2
Testheft 7 (Nov 2008)
Gym RS HS GS SekS Gesamt
N 207 27112 29 24 - 287
Männlich (%) 45.9 44.4 60.9 54.5 - 48.4
106 Unter den Gymnasialklassen ist eine fünfte (19 Schüler) und eine siebte Klasse (26 Schüler). 107 Unter den Gymnasialklassen ist eine fünfte Klasse (31 Schüler). 108 Siebte Klasse. 109 Die Variable ‚Geschlecht’ wurde in den Testheften 1-3 noch nicht erhoben. 110 Siebte Klasse. 111 Unter den Gesamtschulklassen ist eine fünfte Klasse (25 Schüler). 112 Es handelt sich um eine siebte Klasse.
90
Testheft 8 (Jan 2009)
Gym RS HS GS SekS Gesamt
N 143 47 27113 25 - 242
Männlich (%) 44.8 33.3 56.5 56.0 - 46.5
Testheft 9 (Feb 2009)
Gym RS HS GS SekS Gesamt
N 173 - 25 29 24 251
Männlich (%) 41.0 - 52.6 48.3 37.5 43.7
Gym = Gymnasium, RS = Realschule, HS = Hauptschule, GS = Gesamtschule, SekS = Sekundarschule114
5.3.2 Testdurchführung
Für die Testdurchführungen wurden die entwickelten Items jeweils im Anschluss
an die Entwicklungssitzungen in ein standardisiertes Testheft übertragen und zu-
sammen mit einer Audio-CD und Anweisungen (Testleiter-Manual) an die Ko-
operationslehrer zur Erprobung mit ihren Klassen bzw. mit Klassen von Kollegen
versandt. Die Testdurchführung erfolgte als Gruppentestung, wobei die Hörbei-
spiele über eine zentrale Klangquelle abgespielt wurden. Für die Bearbeitung der
Tests stand eine Stunde des Musikunterrichts (45 Min.) zur Verfügung.115 Zusätz-
lich zu den Testheften erhielt jeder Schüler und Lehrer einen Rückmeldebogen
(Anhang B und C), sodass Verständnisschwierigkeiten und sonstige Probleme bei
der Testdurchführung sofort festgehalten werden konnten. Die bearbeiteten Test-
113 Es handelt sich um eine siebte Klasse. 114 Die Sekundarschule ist eine Schulart des Landes Bremen. Sie wird von Schülern besucht, die früher in der Haupt- und Realschule unterrichtet wurden. Bis Jahrgangsstufe 8 werden alle Schüler gemeinsam unterrichtet (Ausnahme: Englisch, Mathematik und Deutsch). Am Ende der Jahr-gangsstufe 8 erfolgt aufgrund des Leistungsstandes eine Zuordnung zu dem Schwerpunkt zur Er-langung der Berufsbildungsreife oder dem Schwerpunkt zur Erlangung des Mittleren Schulab-schlusses (vgl. Senatorin für Bildung und Wissenschaft Bremen, 2009). 115 In der Literatur werden zeitlich begrenzte Tests auch als ‚Speedtests’ bezeichnet (vgl. z. B. Amelang & Schmidt-Atzert, 2006, S. 112). Grundsätzlich waren die Testhefte jedoch als ‚Niveau-tests’ konzipiert (ebd.): Alle Items sollten also von den Testpersonen innerhalb einer Schulstunde bearbeitet werden können. Vereinzelt kam es jedoch vor, dass Klassen den Test nicht innerhalb der 45 Minuten beenden konnten (z. B. aufgrund eines verzögerten Testbeginns). Die dadurch nicht bearbeiteten Items wurden von den Lehrern markiert und im Rahmen der Auswertung als ‚nicht bearbeitet’ (= fehlende Werte, die nicht als falsche Itembearbeitung gewertet werden) behandelt. Dies ist im Rahmen des Rasch-Modells und insbesondere unter Verwendung der Software Con-Quest unproblematisch, da trotz einer gewissen Anzahl an fehlenden Werten alle Item- und Perso-nenparameter geschätzt werden können.
91
materialien wurden spätestens eine Woche vor der nächsten Entwicklungssitzung
zur Auswertung an den Autor zurückgeschickt und bilden somit die Datengrund-
lage für die in den folgenden Kapiteln dargestellten Itemanalysen.
92
6 Itemanalysen und -selektion
Ein zentrales Ziel der vorliegenden Arbeit ist die Entwicklung eines Itempools,
der in psychometrischer Hinsicht soweit abgesichert ist, dass die Items für die Va-
lidierung des Kompetenzmodells im Rahmen der Pilotierungsstudie verwendet
werden können. Um dies zu gewährleisten, werden die in Kapitel 5 beschriebenen
methodischen Verfahren für die sogenannte ‚Itemselektion’ eingesetzt.
Des Weiteren ist die Itemselektion aber auch eine wichtige Voraussetzung für ein
weiteres Ziel der Arbeit, die Identifikation schwierigkeitsgenerierender Aufga-
benmerkmale (vgl. Kap. 7). Die in diesem Rahmen notwendigen vertiefenden und
vergleichenden Analysen können nur dann sinnvoll durchgeführt werden, wenn
die psychometrische Qualität der Items sichergestellt ist. Dies gilt insbesondere
für die empirischen Analysen zur Überprüfung der identifizierten Aufgaben-
merkmale (vgl. 7.6).
6.1 Statistische Überprüfung der Items und Tests
Die Itemselektion ist ein mehrschrittiges Verfahren, bestehend aus verschiedenen
Analysemethoden (vgl. 5.2). Angewandt wurde das Selektionsverfahren auf jedes
Testheft direkt im Anschluss an die Testdurchführungen. Im Rahmen der Selekti-
on wurden die Items eines Testhefts in drei Kategorien eingeteilt: (1) selektierte
Items, die in den Itempool übernommen werden können, (2) zu überarbeitende
und (3) zu eliminierende Items. Die für eine Überarbeitung vorgesehenen Items
konnten dann in modifizierter Fassung in eines der folgenden Testhefte aufge-
nommen und erneut empirisch überprüft werden. Dadurch ergab sich ein zirkulä-
rer Prozess der Überprüfung und Überarbeitung mit dem Ziel der Selektion von
möglichst hochwertigen Items für den Itempool.
Im folgenden Abschnitt (6.1.1) werden zunächst die Selektionskriterien darge-
stellt. Abschnitt 6.1.2 verdeutlicht den Selektionsprozess exemplarisch anhand ei-
nes Testhefts. Die Ergebnisse der Itemselektion sind abschließend in Abschnitt
6.1.3 (bzw. Anhang A) zusammengefasst.
93
6.1.1 Kriterien der Itemselektion
Im Zusammenhang mit der Darstellung der Analyseverfahren (5.2) wurden bereits
eine Reihe der verwendeten Selektionskriterien erwähnt. Diese werden an dieser
Stelle nochmals zusammengefasst und teilweise ergänzt. Es erfolgt hierfür eine
Unterteilung in ‚Beachtungs-’ und ‚Ausschlusskriterien’. Liegt für ein Item ein
Ausschlusskriterium vor, so kann es nicht direkt in den Itempool übernommen
werden, sondern muss entweder überarbeitet (und erneut erprobt) oder eliminiert
werden. Aufgrund von Beachtungskriterien wird ein Item als ‚auffällig’ eingestuft
und muss inhaltlich nochmals genauer analysiert werden. Die verschiedenen Kri-
terien werden im Folgenden genauer dargestellt.
Ausschlusskriterien
Klassische Itemschwierigkeit
Die Berechnung der klassischen Itemschwierigkeit erfolgt mittels der Schwierig-
keitsindizes Pi, PIK und PZK (vgl. 5.2.1). In der Regel werden für Testkonstruktio-
nen Itemschwierigkeiten in einem mittleren Bereich (P zwischen 20 und 80) an-
gestrebt (z. B. Bortz & Döring, 2006, S. 219). Im Rahmen des KoMus-Projekts
sollen jedoch ein Kompetenztest und -modell entwickelt werden, die eine Diffe-
renzierung möglichst über das gesamte Fähigkeitsspektrum gewährleisten.116
Wenn also auch in den Randbereichen einer Merkmalsverteilung differenziert
werden soll, schlagen Amelang & Schmidt-Atzert (2006, S. 120) die Verwendung
eines weiter ausgedehnten Bereichs vor (P zwischen 5 und 95). Entsprechend
werden in der vorliegenden Arbeit Items mit einem Schwierigkeitsindex
95 > P > 5 selektiert bzw. Items überarbeitet/eliminiert, die von weniger als 5 %
oder mehr als 95 % der Testpersonen gelöst werden.
Itemschwierigkeit (Rasch-Modell)
Die Schwierigkeit eines Items ist im Rasch-Modell durch den Itemparameter defi-
niert (vgl. 5.2.1). Die Itemparameter sind von großer Bedeutung für den Vergleich
116 Diese Anforderung liegt einerseits darin begründet, dass Test und Modell für alle Schularten einsetzbar sein sollen, weshalb eine große Leistungsheterogenität und -breite antizipiert wird. An-dererseits kann dadurch u. U. leichter eine Anschlussfähigkeit für spätere Weiterentwicklungen er-zielt werden, wenn z. B. der Test für Schüler einer höheren Jahrgangsstufe eingesetzt bzw. modifi-ziert werden soll.
94
von Itemschwierigkeiten (vgl. Kap. 7), sowie für den Abgleich von erwarteter (auf
Basis des theoretischen Modells) und empirisch gemessener Schwierigkeit. Items
werden selektiert, wenn die Itemparameter einen Wert aufweisen, der theoretisch
plausibel ist. Weicht ein Item jedoch extrem von der anvisierten Schwierigkeit ab,
so muss es überarbeitet oder ggf. eliminiert werden.117
Bei mehrkategoriellen Items ist im Rahmen der Itemselektion die ordinale Abfol-
ge der Thurstonian thresholds gemäß der Kategorienreihenfolge zu kontrollieren.
Items werden selektiert, wenn die als jeweils schwerer angenommenen Kategorien
auch eine höhere empirisch gemessene Schwierigkeit aufweisen.
Trennschärfe
Die Itemtrennschärfe wurde ausführlich in Abschnitt 5.2.2 behandelt. Das Selek-
tionskriterium für ein Item ist eine Trennschärfe von rit > .25 (OECD, 2005,
S. 123). Bei Items mit extremen Schwierigkeitsindizes wird außerdem der Selek-
tionskennwert (SK) angewendet (vgl. Bühner, 2006, S. 99), für den ebenfalls ein
Wert von SK > .25 als Selektionskriterium erforderlich ist.
Außerdem sollten falsche Antwortalternativen eine negative Trennschärfe aufwei-
sen. Im Anschluss an die PISA-Studien gilt auch für vorliegende Arbeit die
Trennschärfe einer falschen Antwortalternative bis zu einem Wert von .05 als to-
lerierbar, wenn mindestens 10 Testpersonen die entsprechende Kategorie ausge-
wählt haben (OECD, 2005, S. 127).118
Bei mehrkategoriellen Items ist darüber hinaus zu kontrollieren, dass die Trenn-
schärfen der Kategorien aufsteigend geordnet sind (OECD, 2005, S. 123).
Distraktoren
Ein weiteres Selektionskriterium für geschlossene Itemformate ist die Qualität der
Distraktoren (vgl. 5.2.3). Selektiert werden Items, deren Distraktoren einen unge-
117 So z. B. wenn ein Item explizit für die Erfassung von basalen Kompetenzen konstruiert ist, sich aber empirisch eine sehr hohe Itemschwierigkeit ergibt (z. B. �i = 3.5 logits); vgl. hierzu auch die Ausführungen in Abschnitt 6.2.3. 118 Falls eine Antwortalternative von weniger als 10 Personen gewählt wurde, wird die Trenn-schärfe nicht beachtet.
95
fähr gleichen Schwierigkeitsindex und gleichzeitig eine negative Trennschärfe
aufweisen.119
Itemfit (MNSQ)
Der Itemfit wird mit der Software ConQuest in Form des residuen-basierten
‚weighted mean square’ (MNSQ) berechnet.
Der in der Literatur häufig vorgeschlagene (z. B. Bond & Fox, 2007, S. 243) und
vor allem bei Schulleistungsstudien (z. B. Adams, 2002, S. 105) verwendete Be-
reich des MNSQ von 0.8 bis 1.2 wird auch für die vorliegende Arbeit als Selekti-
onskriterium festgelegt. Items innerhalb dieses Bereiches werden selektiert, wäh-
rend Items mit signifikanten Werten < 0.8 oder > 1.2 überarbeitet oder ggf. aus
dem Itempool eliminiert werden.
Globaler Modelltest
Der methodische Hintergrund globaler Modelltests ist in Abschnitt 5.2.5 be-
schrieben. Ein entsprechender Modelltest wird für die selektierten Items jedes
Testhefts durchgeführt. Zum Einsatz kommt hierbei das Statistikprogramm WIN-
MIRA (von Davier, 2001), das die Berechnung der �2- und Cressie-Read-
Prüfgröße mittels bootstrap-Verfahren ermöglicht. Die Modellgeltung wird im
Rasch-Modell als Nullhypothese spezifiziert, sodass ein signifikanter Modelltest
zur Ablehnung der Gültigkeit des Rasch-Modells führt (Bühner, 2006, S. 342).
Auf Basis eines Signifikanzniveaus von � = .05 bestätigen folglich Werte der
Prüfgrößen von p > .05 die Gültigkeit des Rasch-Modells für die verwendeten I-
tems.
Die globale Modelltestung wird jeweils als abschließender Schritt der Itemselek-
tion durchgeführt, d. h. die bis zu diesem Zeitpunkt selektierten Items weisen in
aller Regel bereits eine relativ hohe psychometrische Qualität auf. Dementspre-
chend führt die Modelltestung in den meisten Fällen zu einer Annahme des
Rasch-Modells. Führt ein Modelltest jedoch zur Ablehnung des Rasch-Modells,
so stellt WINMIRA ein weiteres Fit-Maß (vgl. 5.2.4) zur Verfügung, sogenannte
Q-Indizes (vgl. Bühner, 2006, S. 365 f.; Rost, 2004, S. 371 ff.). Der Q-Index ist
119 Es gilt auch in Bezug auf die Trennschärfe der Distraktoren die in vorangegangenem Abschnitt formulierte Toleranzgrenze.
96
konzeptuell dem MNSQ vergleichbar. Aus statistischer Sicht handelt es sich je-
doch nicht um ein residuen-basiertes, sondern um ein likelihood-basiertes Fit-
Maß. Ein Q-Index > .30 deutet auf ein problematisches Item hin, das für einen er-
neuten Modelltest eliminiert werden sollte. Dadurch kann es vorkommen, dass
vereinzelte Items auch noch im Rahmen der Überprüfung der Modellgültigkeit
aus einem Testheft entfernt werden müssen bzw. der Überarbeitung bedürfen.
Beachtungskriterien
Ergänzend zu den Ausschlusskriterien wurden auch Beachtungskriterien für die
Itemanalyse und -selektion verwendet. Wie bereits erwähnt führen diese nicht
zwangsläufig zu einer Überarbeitung bzw. Elimination der betreffenden Items.
Sofern für ein Item ein Beachtungskriterium vorliegt, muss jedoch eine genauere
inhaltliche Analyse vorgenommen werden, was in der Regel im gemeinsamen
Diskurs im Rahmen der Sitzungen des Entwicklungsteams erfolgte.
Differential Item Functioning (DIF)
Aufgrund der Stichprobengröße und -beschaffenheit kommen DIF-Analysen (vgl.
5.2.6) nur in sehr begrenztem Umfang zum Einsatz. Bei einer Unterteilung der
Stichprobe in verschiedene Subgruppen (z. B. Schüler mit/ohne Migrationshin-
tergrund, Schüler mit/ohne außerschulischem Musikunterricht) ergeben sich z. T.
so kleine Teilstichproben, dass DIF-Analysen in Bezug auf diese Subgruppen aus
statistischer Sicht nicht sinnvoll durchgeführt werden können.120
Aufgrund der Datenlage erfolgen DIF-Analysen lediglich für die Gender-Variable
(Jungen/Mädchen). Ein substantieller DIF wird dabei als Beachtungskriterium
eingestuft, sodass entsprechende Items zwar nicht direkt eliminiert werden, jedoch
speziell inspiziert und evtl. überarbeitet werden müssen. Ein besonderes Augen-
merk liegt dabei darauf, ob es sich bei den Items mit substantiellen DIF-Werten
um ‚biased’ Items handelt (vgl. Ayala, 2009, S. 324 ff.), d. h. in diesem Fall, dass
der DIF in irgendeiner Form inhaltlich mit dem Geschlecht der Testpersonen in
Verbindung gebracht werden kann.
120 Außerdem wurden die entsprechenden Hintergrundvariablen nicht über alle Testhefte hinweg erhoben, da das Instrumentarium erst im Laufe der Tests entwickelt und teilweise modifiziert wur-de.
97
Fehlende Werte
Ein weiteres Beachtungskriterium ist die Analyse fehlender Werte. Grundsätzlich
wurde in den Testinstruktionen darauf hingewiesen, dass jedes Item beantwortet
werden soll. Sofern eine Testperson unsicher bezüglich einer Antwort war, so
sollte sie diejenige wählen, die ihrer Meinung nach am besten passt. Trotzdem
zeigt sich bei der Testauswertung, dass für verschiedene Items eine relativ hohe
Anzahl an fehlenden Werten vorliegt. Dies betrifft in besonderem Maße offene I-
tems, da hier keine Antwortalternativen vorgegeben sind. Eine Häufung fehlender
Werte kann prinzipiell zweierlei bedeuten: (1) Ein entsprechendes Item ist sehr
schwer, sodass es vielen Testpersonen nicht möglich ist, eine adäquate Antwort zu
formulieren bzw. auszuwählen. In diesem Fall stellen fehlende Werte kein Prob-
lem dar, sie können einfach als falsche Itembearbeitungen gewertet werden. (2)
Fehlende Werte sind aufgrund von nicht adäquaten Aufgabenstellungen zustande
gekommen. Dies ist problematisch und kann z. B. der Fall sein, wenn die Aufga-
benstellung unklar formuliert ist, das Itemformat hinsichtlich seiner technischen
Bearbeitung zu komplex ist oder der Itemstamm eine große Textmenge enthält,
sodass leseschwache Schüler benachteiligt sind und evtl. die Aufgabe aufgrund
des hohen Leseaufwands nicht bearbeiten.121 In den genannten Fällen deuten feh-
lende Werte weniger auf eine mangelnde musikspezifische Kompetenz hin denn
vielmehr auf Probleme im Umgang mit der Aufgabenstellung oder Defizite in
nicht-musikspezifischen Kompetenzen (z. B. Lesekompetenz).
Als Beachtungskriterium werden 10 % fehlende Werte festgelegt. Ein Item ist
dementsprechend genauer zu analysieren, wenn mehr als 10 % der Testpersonen
auf ein entsprechendes Item nicht antworten.
Zusammenfassung
Tab. 7 fasst die in den vorangegangenen Abschnitten dargestellten Ausschluss-
und Beachtungskriterien noch einmal zusammen.
121 Der letztgenannte Fall ist vor allem deshalb problematisch, da mit den Items musikspezifische Kompetenzen erfasst werden sollen. Können nun aber Items aufgrund ihrer sprachlichen Anforde-rungen von einigen Schülern nicht korrekt bearbeitet werden, so wird durch die entsprechenden I-tems eben nicht die anvisierte Kompetenz erfasst. Es muss in solch einem Fall offen bleiben, ob die Schüler über die durch ein Item eigentlich geforderte musikspezifische Kompetenz verfügen und diese evtl. ‚zeigen’ könnten, falls das Item anders konstruiert wäre.
98
Tab. 7: Zusammenfassung der psychometrischen Kriterien der Itemselektion
Analyse Ausschlusskriterien
Klassische Itemschwierigkeit � Pi, PIK oder PZK liegen außerhalb des Intervalls [5, 95].
Itemschwierigkeit (Rasch-Modell)
� Starke Abweichung von theoretischer und empirischer Itemschwierigkeit.
� Thurstonian thresholds sind nicht gemäß der Kategorienrei-henfolge geordnet.
Trennschärfe � Itemtrennschärfe rit ist kleiner als 0.25 (bzw. SK kleiner als 0.25).
� Trennschärfe von falschen Antwortalternativen/-kategorien ist größer als 0.05.
� Bei mehrkategoriellen Items sind die Trennschärfen nicht gemäß der Kategorienreihenfolge geordnet.
Distraktoren � Schwierigkeitsindizes der Distraktoren weichen stark von-einander ab.
� Trennschärfe eines Distraktors ist größer als 0.05.
Itemfit � MNSQ liegt außerhalb des Intervalls [0.80, 1.20] und der da-zugehörige t-Wert außerhalb des Intervalls [-1.96, 1.96].
Globaler Modelltest � Signifikanter Modelltest (�2- und Cressie-Read-Prüfgröße: p � .05).
Analyse Beachtungskriterien
Differential Item Functioning � Ein signifikanter DIF ist größer als 0.50 logits.
Fehlende Werte � Bei einem Item liegen mehr als 10 % fehlende Werte vor.
Items wurden jedoch nicht nur hinsichtlich psychometrischer Kriterien analysiert
und selektiert. Überaus hilfreich für die Analyse und Optimierung der Items waren
auch die Rückmeldebögen von Schülern und Lehrern (Anhang B und C). Tauch-
ten hierbei mehrfach Verständnisschwierigkeiten oder anderweitige Probleme bei
der Bearbeitung bestimmter Items auf, so wurde ein Item zur Überarbeitung vor-
gesehen, auch wenn die psychometrischen Kriterien erfüllt waren. Darüber hinaus
wurden alle (psychometrisch) selektierten Items auch aus fachdidaktischer Per-
spektive nochmals hinsichtlich ihrer Eignung bewertet, was in der Regel im Rah-
men der Entwicklungssitzungen geschah. Somit erfolgte der Entwicklungs- und
Analyseprozess einerseits auf Basis psychometrischer Kriterien, konnte aber auch
durchgängig von einer fachdidaktischen und schulpraktischen Diskussion der I-
tems begleitet werden. Diese fachdidaktische und schulische Verankerung der
99
Aufgabenentwicklung führte immer wieder dazu, dass aus psychometrischer Sicht
bereits akzeptierte Items überarbeitet oder auch eliminiert werden mussten.122
6.1.2 Exemplarische Darstellung des Selektionsprozesses
Angesichts der großen Anzahl an Items und Testheften gestaltet sich der Selekti-
onsprozess relativ umfangreich. Eine detaillierte Darstellung der einzelnen Analy-
seschritte kann daher an dieser Stelle nicht für alle Items erfolgen. Exemplarisch
wird der Selektionsprozess im Folgenden zuerst anhand von Testheft Nr. 7 und
anschließend Testheft Nr. 4 verdeutlicht.
Die Itemselektion ist ein sequentielles Verfahren mit dem Ziel, innerhalb mehrerer
Analyseschritte die Items zu identifizieren, die den vorab festgelegten psychomet-
rischen Kriterien genügen. In der Regel sind hierfür mindestens zwei und maxi-
mal vier Analysedurchgänge notwendig, wobei innerhalb jedes Durchgangs eine
erneute Raschskalierung der zu diesem Zeitpunkt selektierten Items durchgeführt
wird. Tab. 8 - Tab. 11 zeigen die vier Analysedurchgänge für Testheft 7. Sofern für
ein Item ein Ausschlusskriterium vorliegt, ist das entsprechende Tabellenfeld o-
range hinterlegt; Beachtungskriterien sind gelb hinterlegt. Weitere auffällige Item-
kennwerte sind grün gekennzeichnet.
Selektionsprozess Testheft Nr. 7
Analyse 1 (Tab. 8)
Vor der eigentlichen Analyse bedarf es noch einer kurzen Vorbemerkung zu Rich-
tig-Falsch-Aufgaben bzw. -Items: Aufgrund der hohen Ratewahrscheinlichkeit
wurden Richtig-Falsch-Aufgaben prinzipiell als ein Block, bestehend aus mehre-
ren einzelnen Richtig-Falsch-Items, konstruiert (vgl. 4.3). Wenngleich Richtig-
Falsch-Aufgaben letztendlich immer ‚als Ganzes’ ausgewertet und analysiert wer-
den,123 so ist es für eine erste Analyse oft hilfreich, die Einzelitems separat zu be-
handeln. Für jedes dieser separaten Items kann somit bestimmt werden, ob es
sinnvollerweise in die gesamte Richtig-Falsch-Aufgabe zu integrieren ist oder ob
eine Überarbeitung/Eliminierung einzelner Items notwendig erscheint. In Test-
122 Ein Beispiel für ein entsprechendes Item ist in Abschnitt 6.2.3 dargestellt. 123 Beispiel: Eine Richtig-Falsch-Aufgabe, die aus sechs Einzelfragen besteht, könnte als richtig gewertet werden, wenn von einer Testperson mindestens fünf der sechs Fragen gelöst wurden.
100
heft 7 ist eine Richtig-Falsch-Aufgabe (D3-4a-I) – bestehend aus insgesamt neun
Items – enthalten, die im Folgenden noch näher betrachtet wird.
Im Rahmen des ersten Analysedurchgangs werden zunächst die Itemkennwerte
für alle Items eines Testhefts berechnet. Tab. 8 enthält die resultierenden Werte.
Die Item-ID gibt hierbei einerseits Aufschluss über die Zuordnung eines Items zu
den Dimensionen des theoretischen Modells (D1 = Dimension 1, D2 = Dimensi-
on 2 etc.) und andererseits hinsichtlich des Überarbeitungsstatus. Handelt es sich
um ein neu entwickeltes Item, so enthält die ID am Ende eine ‚I’. Wurde das Item
hingegen bereits einmal überarbeitet, so wird eine ‚II’ angehängt usw. Ein einge-
klammertes ‚f’ am Ende der ID steht für ‚final’ und markiert die Endfassung eines
Items. In dieser Fassung wird ein Item entweder eliminiert oder selektiert, es wer-
den jedoch keine weiteren Änderungen mehr vorgenommen.
Die Analyse der klassischen Schwierigkeitsindizes zeigt zunächst, dass sich fast
alle Items in dem geforderten Schwierigkeitsbereich (P zwischen 5 und 95) befin-
den. Bei Betrachtung des zufallskorrigierten Index (PZK) fallen jedoch einige I-
tems mit negativen Werten auf (D4-3b-1/5-I und die drei einzelnen Items D3-4a-
4-I, D3-4a-5-I, D3-4a-9-I des Richtig-Falsch-Items). Der Schwierigkeitsindex mit
Zufallskorrektur kann negative Werte annehmen, wenn sehr viele falsche Antwor-
ten und eine geringe Anzahl an Auswahlmöglichkeiten vorliegen. Dies ist proble-
matisch, da ein negativer Schwierigkeitsindex nicht definiert ist und daher nicht
interpretiert werden kann; „in einem solchen Fall wird die Ratewahrscheinlichkeit
schlicht überschätzt“ (Bühner, 2006, S. 85). Nichtsdestotrotz kann ein negativer
Schwierigkeitsindex auf potentiell problematische Items hindeuten, die daraufhin
genauer zu untersuchen sind (vgl. auch Lienert & Raatz, 1994). Die Items D4-3b-
1/5-I und D3-4a-9-I weisen außer dem negativen Schwierigkeitsindex keine wei-
teren psychometrischen Auffälligkeiten auf.124 Auch aus inhaltlicher Sicht er-
scheinen diese beiden Items unproblematisch und werden daher in die nachfol-
gende Analyse übernommen. Anders stellt sich die Situation in Bezug auf die I-
tems D3-4a-4-I und D3-4a-5-I dar: Beide Items weisen eine zu niedrige Trenn-
schärfe auf. Darüber hinaus sind aber auch beide Items häufig in den Rückmelde-
bögen vermerkt. Sowohl Lehrer als auch Schüler beanstanden Verständnisschwie-
rigkeiten in Bezug auf die Frageformulierung. Vor diesem Hintergrund werden
124 Die hohe Anzahl an fehlenden Werten bei D3-4a-9-I wird weiter unten behandelt.
101
beide Items in der zweiten Analyse nicht berücksichtigt: D3-4a-4-I wird aus dem
Itempool eliminiert, während D3-4a-5-I überarbeitet und erneut erprobt werden
muss.125
In Bezug auf die Itemschwierigkeit (Rasch-Modell) gilt es zunächst die theore-
tisch erwartete mit der empirisch gemessenen Schwierigkeit abzugleichen. Die I-
tems wurden in aller Regel für ein bestimmtes Schwierigkeitsniveau des theoreti-
schen Modells entwickelt (vgl. 2.2.3). Beim Abgleich der Schwierigkeiten ist
dementsprechend zu kontrollieren, ob die Items tatsächlich eine niedrige (ca. -3
bis -1 logits), mittlere (ca. -1 bis 1 logits) oder hohe Schwierigkeit (ca. 1 bis 3 lo-
gits) aufweisen, da das Modell drei Niveaus unterscheidet. Bei deutlichen Abwei-
chungen müssen Items überarbeitet oder eliminiert werden, was in Testheft 7 je-
doch nicht der Fall ist: Alle Itemschwierigkeiten befinden sich ungefähr in den
anvisierten Bereichen.
In Testheft 7 sind vier mehrkategorielle Items vorhanden: D3-9a-I, D3-9b-I, D3-
9c-I und D2-7c-I. Für diese Items ist zu überprüfen, ob die Thurstonian thresholds
der Kategorienreihenfolge entsprechen. Die Kennwerte in Tab. 8 bestätigen dies:
Eine als schwerer angenommene Kategorie weist auch jeweils eine höhere empiri-
sche Schwierigkeit auf (Beispiel D2-7c-I: Kategorie 1 = -0.90 logits, Kategorie
2 = -0.01 logits, Kategorie 3 = 1.81 logits).
Die Itemtrennschärfe wurde bereits kurz im Zusammenhang mit den beiden Items
D3-4a-4-I und D3-4a-5-I erwähnt. Betrachtet man auch alle übrigen Items hin-
sichtlich ihrer Trennschärfe, so fallen noch weitere Items mit einem Wert < .25
auf: D4-3a-1/3-I, D4-3a-3/3-I, D4-3b-3/5-I und D2-7b-I. Bei den beiden zuerst
genannten erbringt auch die Korrektur durch den Selektionskennwert (SK) keine
entscheidende Verbesserung, sodass beide Items überarbeitet werden müssen. I-
tem D2-7b-I weist hingegen einen extremen Schwierigkeitsindex auf (13.24), so-
dass sich ein Selektionskennwert von 0.32 ergibt und das Item in die folgende
Analyse übernommen werden kann. Item D4-3b-3/5-I verfehlt mit 0.24 den ak-
zeptablen Trennschärfebereich nur äußerst knapp. Innerhalb der ersten Analyse-
phase wurde in solch einem Fall zumeist so verfahren, dass ein entsprechendes I-
125 Im Rahmen der Itementwicklung standen aus zeitlichen Gründen nur neun Testungen zur Ver-fügung. Daher konnten nicht alle der zu überarbeitenden Items erneut vorerprobt werden. Entspre-chende Items (wie z. B. D3-4a-5-I) wurden innerhalb der ersten Stufe der Pilotierungsstudie er-probt (in den Tabellen sind die betreffenden Items mit Ü* gekennzeichnet).
102
tem unter Vorbehalt im Analyseprozess verblieb. Da die Trennschärfe eines Items
mit den Trennschärfen aller Items eines Tests zusammenhängt, ändert sich diese
in Abhängigkeit der selektierten und eliminierten Items. Da in der folgenden Ana-
lyse einige Items bereits eliminiert sind, ist es denkbar, dass sich die Trennschärfe
der verbliebenen Items erhöht. Tab. 9, Tab. 10 und Tab. 11 bestätigen dies, insbe-
sondere auch für Item D4-3b-3/5-I, das dort Trennschärfewerte zwischen 0.25 und
0.28 erhält.126
Das Testheft enthält eine Reihe von Multiple-Choice-Items: D4-3b-1/5-I, D4-3b-
2/5-I, D4-3b-3/5-I, D4-3b-4/5-I, D4-3b-5/5-I, D3-4b-I und D1-7-I. Die Distrakto-
renanalysen ergeben hierbei durchgängig zufriedenstellende Ergebnisse: Die Dis-
traktoren weisen jeweils einen ungefähr gleichen Schwierigkeitsindex und gleich-
zeitig eine negative Trennschärfe auf.127 Dies ist jedoch eher als Ausnahme zu be-
trachten. In der Regel waren in einem Testheft immer auch Items – insbesondere
bei der ersten Erprobung von neu entwickelten Items –, bei denen zumindest ein
Distraktor schlechte Werte aufwies (vgl. auch Analyse Testheft 4).
Die Betrachtung des Itemfit zeigt, dass keines der Items das Ausschlusskriterium
erreicht: der MNSQ liegt für alle Items innerhalb des geforderten Intervalls von
[0.80, 1.20]. Ein Großteil der Items weist sogar einen sehr guten Itemfit auf mit
MNSQ-Werten nahe 1.
In Bezug auf das Beachtungskriterium der fehlenden Werte ergeben sich für sechs
der neun Einzelitems des Richtig-Falsch-Items D3-4a-I kritische Werte. Für alle
anderen Items des Testhefts liegen die fehlenden Werte durchweg unter 10 %. Die
beiden Einzelitems D3-4a-4-I und D3-4a-5-I wurden bereits ausgeschlossen
(s. o.), sodass für die verbleibenden vier Items nach möglichen Gründen für die
fehlenden Werte zu fragen ist. Nach Rücksprache mit den Kooperationslehrern
scheint dies hauptsächlich in der Schwierigkeit der Aufgabe begründet zu liegen.
126 Die weiteren Ausschlusskriterien in Bezug auf die Trennschärfe (Trennschärfe > .05 von fal-schen Antwortalternativen/-kategorien, nicht geordnete Trennschärfe bei mehrkategoriellen Items; vgl. 6.1.1) konnten im Verlaufe des gesamten Selektionsprozesses nur höchst selten festgestellt werden (in Testheft 7 liegt z. B. für keines der Items ein betreffendes Ausschlusskriterium vor). Es wurde daher für diese Kriterien auf eine separate Spalte in der Tabellendarstellung verzichtet. In den erwähnten seltenen Fällen wurde das Vorliegen eines entsprechenden Ausschlusskriteriums in der letzten Spalte (Anmerkungen) vermerkt. 127 Aus Gründen der Übersichtlichkeit sind die einzelnen Werte hierbei nicht für jeden Distraktor in Tab. 8 angegeben. Im Falle eines schlechten Distraktors wären jedoch die Nummer des Distrak-tors und der Wert des Ausschlusskriteriums angegeben.
103
Es handelt sich hierbei um eine sehr komplexe Aufgabe, die hohe Anforderungen
an das musiktheoretische Wissen und die Notenlesefähigkeiten der Testpersonen
stellt. Gemäß der Lehrerrückmeldungen war diese Aufgabe für einen gewissen
Teil der Schüler schlicht zu schwer, sodass viele Schüler die Aufgabe im An-
schluss an den Itemstamm nicht mehr weiterbearbeiteten. Dies ist insofern un-
problematisch, da die betreffende Aufgabe explizit für sehr leistungsstarke Schü-
ler bzw. für die Erfassung des höchsten Kompetenzniveaus konstruiert ist. Es er-
scheint daher gerechtfertigt, die fehlenden Werte als falsche Aufgabenbearbeitun-
gen zu werten und die betreffenden Items in die folgende Analyse zu übernehmen.
Zusammenfassung: Der erste Analysedurchgang ergibt für den überwiegenden
Teil der Items akzeptable Werte. Lediglich die Items D4-3a-1/3-I und D4-3a-3/3-I
werden nicht in die nachfolgende Analyse übernommen. Darüber hinaus werden
D3-4a-4-I und D3-4a-5-I für die Auswertung des Richtig-Falsch-Items nicht be-
rücksichtigt.
104
Tab.
8:
Item
sele
ktio
n Te
sthe
ft 7
– A
naly
se 1
(alle
Item
s des
Tes
thef
ts)
Item
-ID
K
urzb
esch
reib
ung
P i /P
IK
P ZK
Item
schw
ieri
g-ke
it (R
asch
) M
NSQ
r it
SK
Fe
hlen
de
Wer
te (%
) D
istra
kt.
Anm
. S/
Ü/E
D1-
6-I
Mot
ivis
che
Ver
ände
rung
: fra
nz.
Hym
ne -
Tcha
ikov
sky
45.9
9 -
-0.0
3 0.
98
0.38
-
0.35
-
- -
D4-
3a-1
/3-I
K
ultu
relle
r Kon
text
: tür
kisc
he
Mus
ik
75.6
1 -
-1.4
1 1.
09
0.16
0.
19
- -
- Ü
*
D4-
3a-2
/3-I
K
ultu
relle
r Kon
text
: bay
eris
che
Bla
smus
ik
60.6
3 -
-0.6
7 1.
03
0.26
-
- -
- -
D4-
3a-3
/3-I
K
ultu
relle
r Kon
text
: grie
chis
che
Mus
ik
44.2
5 -
0.04
1.
08
0.13
0.
13
- -
- Ü
*
D4-
3b-1
/5-I
K
ultu
relle
r Kon
text
: Süd
amer
ika
11.1
5 -6
.62
1.98
0.
95
0.28
-
1.05
�
-
-
D4-
3b-2
/5-I
K
ultu
relle
r Kon
text
: Aus
tralie
n 39
.72
27.6
6 0.
24
0.99
0.
30
- 9.
06
�
- -
D4-
3b-3
/5-I
K
ultu
relle
r Kon
text
: Eur
opa
52.2
6 42
.71
-0.3
0 1.
01
0.24
-
3.14
�
-
-
D4-
3b-4
/5-I
K
ultu
relle
r Kon
text
: Asi
en
70.7
3 64
.88
-1.1
6 0.
98
0.34
-
1.39
�
-
-
D4-
3b-5
/5-I
K
ultu
relle
r Kon
text
: Afr
ika
72.1
3 66
.56
-1.2
2 1.
01
0.25
-
0.70
�
-
-
D3-
4a-1
-I
Cho
rpar
titur
lese
n 65
.16
30.3
2 -0
.87
0.98
0.
35
- 7.
67
- -
-
D3-
4a-2
-I
Cho
rpar
titur
lese
n 75
.26
50.5
2 -1
.39
0.95
0.
44
- 6.
62
- -
-
D3-
4a-3
-I
Cho
rpar
titur
lese
n 70
.73
41.4
6 -1
.15
0.98
0.
42
- 8.
71
- -
-
D3-
4a-4
-I (f
) C
horp
artit
ur le
sen
35.1
9 -2
9.62
0.
45
1.08
0.
09
- 12
.20
- -
E
D3-
4a-5
-I
Cho
rpar
titur
lese
n 38
.33
-23.
34
0.31
1.
03
0.21
-
15.3
3 -
- Ü
*
D3-
4a-6
-I
Cho
rpar
titur
lese
n 53
.31
6.62
-0
.35
1.01
0.
33
- 11
.50
- -
-
D3-
4a-7
-I
Cho
rpar
titur
lese
n 55
.4
10.8
-0
.44
1.02
0.
29
- 12
.89
- -
-
D3-
4a-8
-I
Cho
rpar
titur
lese
n 53
.31
6.62
-0
.35
1.02
0.
31
- 13
.24
- -
-
D3-
4a-9
-I
Cho
rpar
titur
lese
n 46
.69
-6.6
2 -0
.06
1.03
0.
27
- 13
.59
- -
-
105
Item
-ID
K
urzb
esch
reib
ung
P i /P
IK
P ZK
Item
schw
ierig
-ke
it (R
asch
) M
NSQ
r it
SK
Fe
hlen
de
Wer
te (%
) D
istra
kt.
Anm
. S/
Ü/E
D3-
4b-I
C
horp
artit
ur le
sen
(mit
HB
) 39
.02
18.6
9 0.
27
0.99
0.
33
- 9.
76
�
- -
D3-
9a-I
K
lavi
ersc
hüle
r Tip
ps g
eben
: for
-te
- pi
ano
11.5
4, 1
9.23
-
0.39
, 0.7
4 0.
98
0.50
-
0.35
-
- -
D3-
9b-I
K
lavi
ersc
hüle
r 2 T
ipps
geb
en:
stoc
kt, p
iano
34
.15,
4.8
8 -
0.24
, 2.1
8 0.
91
0.51
-
- -
- -
D3-
9c-I
K
lavi
ersc
hüle
r 3 T
ipps
geb
en:
Alle
gro,
acc
., cr
esc.
36
.59,
6.9
7 -
0.05
, 1.8
9 1.
03
0.32
-
- -
- -
D2-
7a-I
Fl
öte
+ K
lavi
er: T
ipps
geb
en
34.8
4 -
0.47
1.
00
0.32
-
0.35
-
- -
D2-
7b-I
2
Kla
vier
schü
ler:
Bee
thov
en
(Beg
ründ
ung
Urte
il)
13.2
4 -
1.78
0.
98
0.22
0.
32
- -
- -
D2-
7b-I
2
Kla
vier
schü
ler:
Bac
h (B
egrü
n-du
ng U
rteil)
30
.66
- 0.
67
0.95
0.
39
- -
- -
-
D2-
7c-I
Sc
hüle
rzei
tung
- B
andw
ettb
e-w
erb
28.9
2,
35.8
9, 7
.32
- -0
.90,
-0
.01,
1.8
1 1.
04
0.45
-
0.35
-
- -
D1-
7-I
Form
: Cho
pin,
A -
A -
B -
A
47.3
1 29
.75
-0.3
1 0.
96
0.40
-
5.77
�
-
-
P i ,
P IK
, PZK
= k
lass
isch
e Sc
hwie
rigke
itsin
dize
s; I
tem
schw
ierig
keit
(Ras
ch)
= Ite
mpa
ram
eter
� (
dich
otom
e Ite
ms)
, Thu
rsto
nian
thre
shol
ds (
meh
rkat
egor
ielle
Ite
ms)
; MN
SQ =
wei
ghte
d m
ean
squa
re (
Item
fit C
onQ
uest
); r it
= T
renn
schä
rfe;
SK
= S
elek
tions
kenn
wer
t (Tr
enns
chär
fe);
Dis
trakt
. = D
istra
ktor
enan
alys
e; A
nm. =
Anm
erku
ngen
; S/Ü
/E =
sel
ektie
rt, ü
bera
rbei
ten,
elim
inie
ren;
Ü
* =
über
arbe
itete
Fas
sung
des
Item
s kon
nte
erst
in d
er P
ilotie
rung
sstu
die
erpr
obt w
erde
n;
Gel
be M
arki
erun
g =
Bea
chtu
ngsk
riter
ium
O
rang
e M
arki
erun
g =
Aus
schl
ussk
riter
ium
G
rüne
Mar
kier
ung
= so
nstig
e au
ffälli
ge K
ennw
erte
106
Tab.
9:
Item
sele
ktio
n Te
sthe
ft 7
– A
naly
se 2
(Ana
lyse
ohn
e di
e au
sges
chlo
ssen
en It
ems a
us A
naly
se 1
und
mit
zusa
mm
enge
fass
tem
Ric
htig
-Fal
sch-
Item
; ers
ter M
odel
ltest
)
Item
-ID
K
urzb
esch
reib
ung
P i /P
IK
P ZK
Item
schw
ie-
rigk
eit (
Ras
ch)
MN
SQ
r it
SK
Anm
. S/
Ü/E
D1-
6-I
Mot
ivis
che
Ver
ände
rung
: fra
nz. H
ymne
– T
chai
-ko
vsky
45
.99
- -0
.52
0.99
0.
46
- -
-
D4-
3a-2
/3-I
K
ultu
relle
r Kon
text
: bay
eris
che
Bla
smus
ik
60.6
3 -
-1.1
7 1.
02
0.27
-
- -
D4-
3b-1
/5-I
K
ultu
relle
r Kon
text
: Süd
amer
ika
11.1
5 -6
.62
1.54
1.
01
0.29
-
- -
D4-
3b-2
/5-I
K
ultu
relle
r Kon
text
: Aus
tralie
n 39
.72
27.6
6 -0
.24
0.98
0.
35
- -
-
D4-
3b-3
/5-I
K
ultu
relle
r Kon
text
: Eur
opa
52.2
6 42
.71
-0.8
0 1.
04
0.25
-
- -
D4-
3b-4
/5-I
K
ultu
relle
r Kon
text
: Asi
en
70.7
3 64
.88
-1.6
6 0.
95
0.37
-
- -
D4-
3b-5
/5-I
K
ultu
relle
r Kon
text
: Afr
ika
72.1
3 66
.56
-1.7
4 1.
02
0.30
-
- -
D3-
4a-I
C
horp
artit
ur le
sen
5.23
-
2.39
1.
00
0.24
0.
54
- -
D3-
4b-I
C
horp
artit
ur le
sen
(mit
HB
) 39
.02
18.6
9 -0
.21
1.02
0.
37
- -
-
D3-
9a-I
K
lavi
ersc
hüle
r Tip
ps g
eben
: for
te –
pia
no
11.5
4, 1
9.23
-
-0.0
6, 0
.31
1.03
0.
53
- -
-
D3-
9b-I
K
lavi
ersc
hüle
r 2 T
ipps
geb
en: s
tock
t, pi
ano
34.1
5, 4
.88
- -0
.23,
1.7
8 0.
93
0.55
-
Q-I
ndex
Ü
*
D3-
9c-I
K
lavi
ersc
hüle
r 3 T
ipps
geb
en: A
llegr
o, a
cc.,
cres
c.
36.5
9, 6
.97
- -0
.42,
1.4
8 1.
08
0.36
-
- -
D2-
7a-I
Fl
öte
+ K
lavi
er: T
ipps
geb
en
34.8
4 -
-0.0
1 1.
03
0.36
-
- -
D2-
7b-I
2
Kla
vier
schü
ler:
Bee
thov
en (B
egrü
ndun
g U
rteil)
13
.24
- 1.
33
1.00
0.
27
- -
-
D2-
7b-I
2
Kla
vier
schü
ler:
Bac
h (B
egrü
ndun
g U
rteil)
30
.66
- 0.
20
0.93
0.
45
- -
-
D2-
7c-I
Sc
hüle
rzei
tung
– B
andw
ettb
ewer
b 28
.92,
35
.89,
7.3
2 -
-1.4
3,
-0.4
9, 1
.42
1.13
0.
52
- -
-
D1-
7-I
Form
: Cho
pin,
A –
A –
B –
A
47.3
1 29
.75
-0.3
8 0.
98
0.40
-
- -
Glo
bale
r Mod
ellte
st: C
ress
ie-R
ead:
p =
0.0
1, �
2 : p =
0.1
1
P i ,
P IK
, P Z
K =
kla
ssis
che
Schw
ierig
keits
indi
zes;
Ite
msc
hwie
rigke
it (R
asch
) =
Item
para
met
er �
(di
chot
ome
Item
s),
Thur
ston
ian
thre
shol
ds (
meh
rkat
egor
ielle
Ite
ms)
; M
NSQ
=
wei
ghte
d m
ean
squa
re (I
tem
fit C
onQ
uest)
; rit
= Tr
enns
chär
fe; S
K =
Sel
ektio
nske
nnw
ert (
Tren
nsch
ärfe
); S/
Ü/E
= s
elek
tiert,
übe
rarb
eite
n, e
limin
iere
n; A
nm. =
Anm
erku
ngen
; Ü*
= üb
erar
beite
te F
assu
ng d
es It
ems k
onnt
e er
st in
der
Pilo
tieru
ngss
tudi
e er
prob
t wer
den;
Q-I
ndex
= si
gnifi
kant
schl
echt
er Q
-Ind
ex (I
tem
fit W
INM
IRA)
107
Tab.
10:
Ite
mse
lekt
ion
Test
heft
7 –
Ana
lyse
3 (z
wei
ter M
odel
ltest
und
DIF
-Ana
lyse
)
Item
-ID
K
urzb
esch
reib
ung
P i /P
IK
P ZK
Item
schw
ieri
g-ke
it (R
asch
) M
NSQ
r it
SK
D
IF
Anm
. S/
Ü/E
D1-
6-I
Mot
ivis
che
Ver
ände
rung
: fra
nz. H
ymne
– T
chai
-ko
vsky
45
.99
- -0
.47
0.96
0.
47
- 0.
08
D4-
3a-2
/3-I
K
ultu
relle
r Kon
text
: bay
eris
che
Bla
smus
ik
60.6
3 -
-1.1
1 1.
00
0.28
-
0.24
D4-
3b-1
/5-I
K
ultu
relle
r Kon
text
: Süd
amer
ika
11.1
5 -6
.62
1.58
0.
99
0.30
-
0.07
D4-
3b-2
/5-I
K
ultu
relle
r Kon
text
: Aus
tralie
n 39
.72
27.6
6 -0
.19
0.98
0.
37
- 0.
44
D4-
3b-3
/5-I
K
ultu
relle
r Kon
text
: Eur
opa
52.2
6 42
.71
-0.7
4 1.
03
0.27
-
0.83
(M)
D4-
3b-4
/5-I
K
ultu
relle
r Kon
text
: Asi
en
70.7
3 64
.88
-1.6
0 0.
95
0.38
-
0.35
D4-
3b-5
/5-I
K
ultu
relle
r Kon
text
: Afr
ika
72.1
3 66
.56
-1.6
7 0.
97
0.32
-
0.39
D3-
4a-I
C
horp
artit
ur le
sen
5.23
-
2.42
0.
99
0.24
0.
54
0.04
D3-
4b-I
C
horp
artit
ur le
sen
(mit
HB
) 39
.02
18.6
9 -0
.16
1.02
0.
39
- 0.
03
D3-
9a-I
K
lavi
ersc
hüle
r Tip
ps g
eben
: for
te -
pian
o 11
.54,
19.
23
- -0
.02,
0.3
4 1.
03
0.51
-
0.17
D3-
9c-I
K
lavi
ersc
hüle
r 3 T
ipps
geb
en: A
llegr
o, a
cc.,
cres
c.
36.5
9, 6
.97
- -0
.38,
1.5
1 1.
08
0.36
-
0.43
D2-
7a-I
(f)
Flöt
e +
Kla
vier
: Tip
ps g
eben
34
.84
- 0.
04
1.01
0.
36
- 0.
80 (J
) bi
ased
E
D2-
7b-I
2
Kla
vier
schü
ler:
Bee
thov
en (B
egrü
ndun
g U
rteil)
13
.24
- 1.
37
1.00
0.
29
- 0.
27
D2-
7b-I
2
Kla
vier
schü
ler:
Bac
h (B
egrü
ndun
g U
rteil)
30
.66
- 0.
24
0.97
0.
45
- 0.
24
D2-
7c-I
Sc
hüle
rzei
tung
- B
andw
ettb
ewer
b 28
.92,
35.
89,
7.32
-
-1.3
6, -0
.44,
1.
44
1.08
0.
52
- 0.
36
D1-
7-I
Fo
rm: C
hopi
n, A
- A
- B
- A
47
.31
29.7
5 -0
.33
1.00
0.
39
- 0.
07
Glo
bale
r Mod
ellte
st: C
ress
ie-R
ead:
p =
0.1
1, �
2 : p =
0.3
0
P i ,
P IK
, PZK
= k
lass
isch
e Sc
hwie
rigke
itsin
dize
s; It
emsc
hwie
rigke
it (R
asch
) = It
empa
ram
eter
� (d
icho
tom
e Ite
ms)
, Thu
rsto
nian
thre
shol
ds (m
ehrk
ateg
orie
lle It
ems)
; MN
SQ =
wei
ghte
d m
ean
squa
re (I
-te
mfit
Con
Que
st);
r it =
Tre
nnsc
härf
e; S
K =
Sel
ektio
nske
nnw
ert (
Tren
nsch
ärfe
); D
IF =
Diff
eren
tial I
tem
Fun
ctio
ning
; (M
) = D
IF b
enac
htei
ligt M
ädch
en; (
J) =
DIF
ben
acht
eilig
t Jun
gen;
S/Ü
/E =
sel
ek-
tiert,
übe
rarb
eite
n, e
limin
iere
n; Ü
* =
über
arbe
itete
Fas
sung
des
Item
s kon
nte
erst
in d
er P
ilotie
rung
sstu
die
erpr
obt w
erde
n; A
nm. =
Anm
erku
ngen
108
Tab.
11:
Item
sele
ktio
n Te
sthe
ft 7
– A
naly
se 4
(abs
chlie
ßend
e M
odel
ltest
ung)
Item
-ID
K
urzb
esch
reib
ung
P i /P
IK
P ZK
Item
schw
ieri
g-ke
it (R
asch
) M
NSQ
r it
SK
S/
Ü/E
D1-
6-I (
f)
Mot
ivis
che
Ver
ände
rung
: fra
nz. H
ymne
– T
chai
-ko
vsky
45
.99
- -0
.47
0.96
0.
47
- S
D4-
3a-2
/3-I
(f)
Kul
ture
ller K
onte
xt: b
ayer
isch
e B
lasm
usik
60
.63
- -1
.11
1.00
0.
29
- S
D4-
3b-1
/5-I
K
ultu
relle
r Kon
text
: Süd
amer
ika
11.1
5 -6
.62
1.58
0.
99
0.30
-
S
D4-
3b-2
/5-I
(f)
Kul
ture
ller K
onte
xt: A
ustra
lien
39.7
2 27
.66
-0.1
9 0.
98
0.38
-
S
D4-
3b-3
/5-I
(f)
Kul
ture
ller K
onte
xt: E
urop
a 52
.26
42.7
1 -0
.74
1.03
0.
28
- S
D4-
3b-4
/5-I
(f)
Kul
ture
ller K
onte
xt: A
sien
70
.73
64.8
8 -1
.60
0.95
0.
42
- S
D4-
3b-5
/5-I
(f)
Kul
ture
ller K
onte
xt: A
frik
a 72
.13
66.5
6 -1
.67
0.97
0.
32
- S
D3-
4a-I
(f)
Cho
rpar
titur
lese
n 5.
23
- 2.
42
0.99
0.
23
0.52
S
D3-
4b-I
(f)
Cho
rpar
titur
lese
n (m
it H
B)
39.0
2 18
.69
-0.1
6 1.
02
0.40
-
S
D3-
9a-I
(f)
Kla
vier
schü
ler T
ipps
geb
en: f
orte
- pi
ano
11.5
4, 1
9.23
-
-0.0
2, 0
.34
1.03
0.
52
- S
D3-
9c-I
(f)
Kla
vier
schü
ler 3
Tip
ps g
eben
: Alle
gro,
acc
., cr
esc.
36
.59,
6.9
7 -
-0.3
7, 1
.51
1.08
0.
35
- S
D2-
7b-I
(f)
2 K
lavi
ersc
hüle
r: B
eeth
oven
(Beg
ründ
ung
Urte
il)
13.2
4 -
1.37
1.
00
0.29
-
S
D2-
7b-I
(f)
2 K
lavi
ersc
hüle
r: B
ach
(Beg
ründ
ung
Urte
il)
30.6
6 -
0.24
0.
97
0.45
-
S
D2-
7c-I
(f)
Schü
lerz
eitu
ng -
Ban
dwet
tbew
erb
28.9
2, 3
5.89
, 7.
32
- -1
.36,
-0.4
4,
1.44
1.
08
0.53
-
S
D1-
7-I (
f)
Form
: Cho
pin,
A -
A -
B -
A
47.3
1 29
.75
-0.3
3 1.
00
0.39
-
S
Glo
bale
r Mod
ellte
st: C
ress
ie-R
ead:
p =
0.0
6, �
2 : p =
0.1
8; T
estre
liabi
lität
: EAP
/PV
= 0
.57,
Cro
nbac
hs A
lpha
= 0
.56
P i ,
P IK
, PZK
= k
lass
isch
e Sc
hwie
rigke
itsin
dize
s; It
emsc
hwie
rigke
it (R
asch
) = It
empa
ram
eter
� (d
icho
tom
e Ite
ms)
, Thu
rsto
nian
thre
shol
ds (m
ehrk
ateg
orie
lle It
ems)
; MN
SQ =
wei
ghte
d m
ean
squa
re (I
tem
fit C
onQ
uest
); r it
= T
renn
schä
rfe;
SK
= S
elek
tions
kenn
wer
t (Tr
enns
chär
fe);
S/Ü
/E =
sele
ktie
rt, ü
bera
rbei
ten,
elim
inie
ren
109
Analyse 2 (Tab. 9)
Für die zweite Analyse wird das Richtig-Falsch-Item D3-4a-I zusammengefasst:
Nach dem Ausschluss von zwei Einzelitems (D3-4a-4-I und D3-4a-5-I; vgl. Ana-
lyse 1) besteht dieses noch aus insgesamt sieben Fragen. Das Gesamtitem wird di-
chotom ausgewertet, wobei für eine richtige Lösung des Items alle sieben Fragen
korrekt bearbeitet werden müssen; Testpersonen, die sechs oder weniger richtige
Antworten geben, haben das Item entsprechend nicht gelöst.128
Die Ergebnisse des zweiten Analysedurchgangs sind in Tab. 9 aufgeführt. Da sich
Itemschwierigkeit (Rasch-Modell), Itemfit und Trennschärfe in Abhängigkeit der
in eine Analyse einbezogenen Items ändern (auch wenn lediglich ein Item entfernt
worden ist), müssen die Kennwerte im Rahmen einer neuen Analyse jeweils neu
berechnet und überprüft werden. In Bezug auf die zweite Analyse kann hierbei
festgehalten werden, dass alle Items innerhalb der geforderten Wertebereiche lie-
gen, zunächst also kein weiteres Item ausgeschlossen werden muss.
In einem nächsten Schritt ist zu überprüfen, ob sich die angenommene Gültigkeit
des Rasch-Modells für die Daten auch empirisch belegen lässt. Hierfür werden al-
le Items der zweiten Analyse in einen globalen Modelltest einbezogen. Das Er-
gebnis des Modelltests ist in Tab. 9 in der untersten Zeile dargestellt. Wie ersicht-
lich, ist die Cressie-Read-Prüfgröße signifikant, sodass die Gültigkeit des Rasch-
Modells für den vorliegenden Itemsatz abgelehnt werden muss. Bei Durchsicht
der von WINMIRA bereitgestellten Itemfit-Maße zeigt sich, dass das Item D3-9b-I
einen signifikant schlechten Q-Index aufweist. Das betreffende Item wird darauf-
hin für eine Wiederholung des Modelltests ausgeschlossen.
128 Es wäre durchaus auch denkbar, das Item z. B. bereits mit 6 von 7 richtigen Antworten als rich-tig zu werten. Eine weitere Alternative bestünde darin, eine Partial-Credit-Auswertung vorzuneh-men. In solch einem Fall könnten beispielsweise 5-6 richtige Antworten als teilweise gelöst und 7 richtige Antworten als vollständig gelöst gewertet werden. Welche Variante zum Einsatz kommt, ist einerseits von inhaltlichen Überlegungen bestimmt (z. B. ab wie vielen richtigen Antworten es gerechtfertigt erscheint davon auszugehen, dass eine Testperson mit entsprechendem Lösungsver-halten über die geforderten Kompetenzen mit ausreichender Sicherheit verfügt). Andererseits spie-len aber auch hier psychometrische Kriterien eine Rolle (z. B. welche Auswertung eine höhere Trennschärfe oder einen besseren Itemfit ergibt). In diesem Zusammenhang ist es daher meist notwendig, zunächst verschiedene Alternativen in die Analysen einzubeziehen, um dann auf Basis der Kennwerte eine Entscheidung über die letztendliche Auswertung zu treffen. Nach der Überprü-fung verschiedener Alternativen ergab sich für das vorliegende Item D3-4a-I eine optimale Aus-wertung als dichotomes Item mit den geforderten sieben richtigen Antworten.
110
Analyse 3 (Tab. 10)
Bevor die Wiederholung des Modelltests erfolgen kann, müssen aufgrund des
Ausschlusses von Items D3-9b-I die Itemkennwerte neu berechnet werden. Tab.
10 enthält die resultierenden Werte, die wiederum alle innerhalb der geforderten
Grenzen liegen. Für die verbliebenen 16 Items wird anschließend erneut der glo-
bale Modelltest durchgeführt. Dieses Mal wird die Gültigkeit des Rasch-Modells
bestätigt: Beide Prüfgrößen sind nicht signifikant.
Im Anschluss an die inferenzstatistische Absicherung der Modellgültigkeit kann
nun auch die Untersuchung der Items hinsichtlich eines möglicherweise vorlie-
genden ‚Differential Item Functioning’ (DIF) erfolgen. Wie in Abschnitt 6.1.1 be-
schrieben, werden DIF-Analysen ausschließlich für die Variable ‚Gender’ durch-
geführt. Die Ergebnisse sind in Tab. 10 in der drittletzten Spalte aufgeführt. In Be-
zug auf das Geschlecht der Testpersonen weisen zwei Items substantiellen DIF
auf: D4-3b-3/5-I und D2-7a-I. Eine genauere inhaltliche Betrachtung der beiden
Items erfolgt in Abschnitt 6.2.2, im Folgenden werden die Ergebnisse lediglich
zusammengefasst: Das Item D4-3b-3/5-I ‚benachteiligt’ die Mädchen gegenüber
den Jungen um 0.83 logits. Die daraufhin durchgeführte inhaltliche Analyse er-
bringt jedoch keine plausible Erklärung in Bezug auf einen möglichen Bias zwi-
schen dem Geschlecht der Schüler und der Itembearbeitung. Das Item wird daher
trotz des substantiellen DIF selektiert. Bei Item D2-7a-I liegt der umgekehrte Fall
vor: Hier werden die Jungen um 0.80 logits ‚benachteiligt’. Eine inhaltliche Ana-
lyse des Items legt die Annahme eines Itembias nahe und führt zur Eliminierung
des Items.
Analyse 4 (Tab. 11)
Durch den Ausschluss des Items D2-7a-I werden eine erneute Berechnung der I-
temkennwerte und eine Überprüfung der Modellgültigkeit notwendig. Die in Tab.
11 dargestellten Werte zeigen, dass alle verbliebenen 15 Items den psychometri-
schen Kriterien entsprechen und daher endgültig selektiert werden können.
Selektionsprozess Testheft Nr. 4
Zur weiteren Verdeutlichung des Selektionsprozesses werden ergänzend im Fol-
genden die Analysen zu Testheft 4 dargestellt (Tab. 12-Tab. 14). Testheft 4 ent-
hält im Vergleich zu Testheft 7 weder mehrkategorielle Items noch Richtig-
111
Falsch-Items. Auch die psychometrischen Kriterien, die zum Ausschluss einzelner
Items führen, unterscheiden sich teilweise.
Analyse 1 (Tab. 12)
Bei einer ersten Durchsicht der Analyseergebnisse wird deutlich, dass der Groß-
teil der Items keine kritischen Kennwerte aufweist. Neun der insgesamt zweiund-
dreißig Items müssen jedoch genauer betrachtet werden, da hier ein oder mehrere
Ausschlusskriterien bzw. Beachtungskriterien vorliegen.
Item D1-15d-2-II ist mit einem Schwierigkeitsindex von PZK = 97.41 zu leicht
(annähernd alle Schüler lösen das Item) und wird entsprechend für die nachfol-
gende Analyse ausgeschlossen. Alle anderen Items des Testhefts liegen im gefor-
derten Bereich von 95 > P > 5.
Der Abgleich von theoretisch erwarteter und empirisch gemessener Itemschwie-
rigkeit (Rasch-Modell) führt in drei Fällen zu einem Ausschluss bzw. zu einer
Überarbeitung von Items: D3-10-1-I, D3-10-2-I und D1-15b-2-II. Die beiden I-
tems der Dimension 3 sollten sehr basale Kompetenzen in Bezug auf Rhythmus-
wahrnehmung und Notationskenntnisse erfassen. Wie die Itemparameter jedoch
deutlich zeigen, ist dies mit den vorliegenden Items nicht gelungen; sie sind ent-
gegen der theoretischen Annahmen sehr schwer.129 Ähnliches gilt auch für Item
D1-15b-2-II. Das Item war ebenfalls für die Erfassung des untersten (theoreti-
schen) Kompetenzniveaus gedacht, empirisch zeigt sich jedoch eine mittlere I-
temschwierigkeit.130
In Bezug auf die Itemtrennschärfe sind acht Items auffällig: D3-8a-3-I, D1-15b-1-
II, D1-15b-2-II, D1-15d-2-II, D4-5b-1-II, D4-5b-3-II, D1-18c-I und D1-18e-I.
129 Eine ausführlichere inhaltliche Betrachtung der beiden Items erfolgt in Abschnitt 6.2.3. 130 Die Diskrepanz zwischen theoretischer und empirischer Schwierigkeit wird auch beim Ver-gleich mit den Items D1-15c-1-II, D1-15c-2-II und D1-15d-1-II deutlich. Es handelt sich hierbei um sehr ähnliche Items, die sich auf die gleiche Kompetenz beziehen (Erfassung des emotionalen Ausdrucks von Musik), jedoch im Gegensatz zu Item D1-15b-2-II innerhalb des erwarteten Schwierigkeitsbereichs liegen. Grundsätzlich lässt sich eine Diskrepanz von theoretischer und em-pirischer Itemschwierigkeit mittels der statistischen Analyse leicht identifizieren. Viel schwieriger ist jedoch die Frage zu beantworten, wie solch eine Diskrepanz der Schwierigkeiten überhaupt zu-stande kommt. Es könnte sein, dass beispielsweise formale Aspekte eines Items eine Rolle spielen (Fragestellung unklar formuliert, Aufgabenformat komplex und nicht intuitiv bearbeitbar, schlech-te Distraktoren etc.). Genauso denkbar wäre aber auch, dass das ‚Problem’ nicht aufseiten der I-temkonstruktion liegt, sondern die theoretischen Annahmen überdacht werden müssen. Diese und weitere Aspekte der theoretischen und empirischen Itemschwierigkeit werden in Abschnitt 6.2.3 behandelt.
112
Vier der acht Items (D1-15d-2-II, D4-5b-1-II, D4-5b-3-II, D1-18e-I) werden je-
doch durch den Selektionskennwert (SK) so korrigiert, dass sich ein akzeptabler
Wert � .25 ergibt. Es verbleiben folglich die vier Items D3-8a-3-I, D1-15b-1-II,
D1-15b-2-II und D1-18c-I, die aufgrund einer zu niedrigen Trennschärfe elimi-
niert oder überarbeitet werden müssen.
Während in Testheft 7 alle Distraktorenanalysen zufriedenstellende Ergebnisse
erbrachten, ergeben sich für zwei Items des Testhefts 4 schlechte Werte: D1-15b-
1-II und D1-15b-2-II. Beide Items enthalten fünf Antwortalternativen (richtige
Antwort + vier Distraktoren). Bei dem ersten Item (D1-15b-1-II) werden drei der
vier Distraktoren überhaupt nicht bzw. von lediglich einer Testperson (entspricht
0.41 %) gewählt. Ähnlich problematisch sind die Distraktoren des zweiten Items
(D1-15b-2-II), bei dem Distraktor 1 von nur 0.41 % und Distraktor 2 von 5.37 %
der Testpersonen gewählt werden. Solch extrem niedrige Schwierigkeitsindizes
der Distraktoren deuten darauf hin, dass sie sich zu deutlich von der richtigen
Antwortalternative unterscheiden und es dadurch zu offensichtlich ist, dass die
entsprechenden Distraktoren nicht als richtige Antwort infrage kommen. Das Er-
gebnis der Distraktorenanalysen ‚ergänzt’ bei beiden Items die bereits vorliegen-
den schlechten Trennschärfen und Schwierigkeitswerte (vgl. Tab. 12) und unter-
streicht gleichzeitig die Notwendigkeit einer Überarbeitung der Items.131
Die Betrachtung des Itemfit zeigt, dass auch in Testheft 4 alle Items innerhalb des
geforderten Intervalls von [0.80, 1.20] liegen.
In Bezug auf das Vorliegen fehlender Werte sind drei Items auffällig: D1-18a-2-I,
D1-18a-3-I und D1-18c-I. Eine inhaltliche Analyse und ergänzende Diskussion
mit den Kooperationslehrern ergab für die beiden erstgenannten Items keinen Ü-
berarbeitungsbedarf. Die leicht erhöhte Anzahl fehlender Werte (10.33 % und
11.16 %) scheint hier primär durch die relativ hohen Anforderungen der Items zu
erklären. Ein deutlich extremerer Wert (35.95 %) liegt hingegen bei Item D1-18c-
I vor. Ein gewisser Anteil der fehlenden Werte kann auch hier auf die Aufgaben-
anforderungen zurückgeführt werden. Hinzu kommt das offene Format des Items,
was in der Regel allein aufgrund der aufwendigeren Bearbeitung zu einer erhöh-
131 Eine vertiefende inhaltliche Betrachtung von ‚guten’ und ‚schlechten’ Distraktoren sowie die Möglichkeiten und Auswirkungen einer Überarbeitung von Distraktoren sind in Abschnitt 6.2.1 dargestellt.
113
ten Anzahl fehlender Werte führt. Trotzdem deutet der extrem hohe Wert auf ein
problematisches Item hin, was durch die bereits analysierte niedrige Trennschärfe
des Items zusätzlich bestätigt wird (s. o.). Eine genauere inhaltliche Analyse er-
gibt mehrere Konstruktionsprobleme des Items, die sich vor allem auf das Hörbei-
spiel, aber auch auf das verlangte Vorwissen beziehen. Unter Berücksichtigung
der niedrigen Trennschärfe und der vielen fehlenden Werte ist eine Überarbeitung
des Items daher unbedingt notwendig.
Zusammenfassung: Sieben Items werden aufgrund von schlechten Kennwerten
ausgeschlossen, sodass sich eine Anzahl von 25 Items für den zweiten Analyse-
durchgang ergibt.
114
Tab.
12:
Item
sele
ktio
n Te
sthe
ft 4
– A
naly
se 1
(alle
Item
s des
Tes
thef
ts)
Item
-ID
K
urzb
esch
reib
ung
P i /P
IK
P ZK
Item
schw
ieri
g-ke
it (R
asch
) M
NSQ
r it
SK
Fe
hlen
de
Wer
te (%
) D
istra
kt.
S/Ü
/E
D3-
10-1
-I (f
) ge
spro
chen
en R
hyth
mus
not
iere
n 7.
44
- 3.
539
0.97
0.
27
2.
1
E
D3-
10-2
-I (f
) ge
spro
chen
en R
hyth
mus
not
iere
n 21
.9
- 2.
216
1.00
0.
36
1.
7
E
D3-
8a-1
-I
Mic
hael
row
- Ta
kt a
nkre
uzen
92
.56
- -1
.897
0.
97
0.33
-
D3-
8a-2
-I
Mic
hael
row
- Ta
kt a
nkre
uzen
44
.63
- 1.
058
1.02
0.
41
-
D3-
8a-3
-I (f
) M
icha
el ro
w -
Takt
ank
reuz
en
40.5
-
1.24
5 1.
09
0.17
0.
17
-
E
D3-
8a-4
-I
Mic
hael
row
- Ta
kt a
nkre
uzen
90
.5
- -1
.619
1.
00
0.35
-
D3-
8b-1
-I
Mic
hael
row
- Fe
hler
bes
chre
iben
78
.1
- -0
.577
0.
97
0.42
-
D3-
8b-2
-I
Mic
hael
row
- Fe
hler
bes
chre
iben
20
.66
- 2.
295
0.89
0.
51
-
D3-
8b-3
-I
Mic
hael
row
- Fe
hler
bes
chre
iben
15
.29
- 2.
687
0.97
0.
31
-
D3-
8b-4
-I
Mic
hael
row
- Fe
hler
bes
chre
iben
69
.83
- -0
.107
0.
99
0.45
-
D1-
15b-
1-II
W
irkun
g: h
ektis
ch (L
iget
i) 93
.8
92.2
5 -2
.104
1.
05
0.11
0.
21
2.89
1
(0.4
1)
3 (0
) 4
(0.4
1)
Ü*
D1-
15b-
2-II
W
irkun
g: ru
hig
(Cas
sidy
) 59
.5
49.3
8 0.
392
1.05
0.
22
0.22
3.
31
1 (0
.41)
2
(5.3
7)
Ü*
D1-
15c-
1-II
W
irkun
g: fe
stlic
h (l'
orfe
o)
83.0
6 78
.83
-0.9
2 1.
02
0.32
2.07
D1-
15c-
2-II
W
irkun
g: ru
hig
(Sat
ie)
95.4
5 94
.31
-2.4
44
0.98
0.
27
1.
65
D1-
15d-
1-II
W
irkun
g: fr
öhlic
h (S
aint
-Sae
ns)
87.1
9 83
.99
-1.2
70
0.97
0.
34
2.
07
D1-
15d-
2-II
W
irkun
g: a
ggre
ssiv
(cho
ps)
97.9
3 97
.41
-3.2
79
0.98
0.
23
0.72
0.
41
Ü
*
D1-
15e-
II
Wirk
ung-
Mitt
el-Z
uord
nung
42
.56
- 1.
150
1.06
0.
25
115
Item
-ID
K
urzb
esch
reib
ung
P i /P
IK
P ZK
Item
schw
ierig
-ke
it (R
asch
) M
NSQ
r it
SK
Fe
hlen
de
Wer
te (%
) D
istra
kt.
S/Ü
/E
D1-
15f-
I W
irkun
g-M
ittel
-Kom
posi
tion
71.4
9 -
-0.1
95
1.02
0.
31
3.
72
D4-
5b-1
-II
Stile
: Hip
Hop
90
.91
89.4
-1
.674
1.
04
0.16
0.
26
0.41
D4-
5b-2
-II
Stile
: Ope
r 93
.8
92.7
7 -2
.104
0.
99
0.28
1.24
D4-
5b-3
-II
Stile
: Roc
k 95
.45
94.6
9 -2
.440
1.
04
0.12
0.
27
0.83
D4-
5b-4
-II
Stile
: Kon
zerts
aal
87.1
9 85
.06
-1.2
68
0.96
0.
36
2.
48
D4-
5b-5
-II
Stile
: Kirc
he
94.2
1 93
.25
-2.1
77
0.99
0.
32
1.
24
D4-
5b-6
-II
Stile
: Tec
hno
82.6
4 79
.75
-0.8
87
1.05
0.
26
2.
07
D1-
18a-
1-I
Mot
ivis
che
Ver
ände
rung
: Bru
der J
akob
49
.59
24.3
9 0.
837
0.98
0.
37
7.
44
D1-
18a-
2-I
Mot
ivis
che
Ver
ände
rung
: O D
u lie
ber A
ugus
tin
46.2
8 19
.42
0.98
4 0.
95
0.39
10.3
3
D1-
18a-
3-I
Mot
ivis
che
Ver
ände
rung
: Men
dels
sohn
50
.83
20.8
7 0.
783
0.90
0.
43
11
.16
D1-
18b-
I M
otiv
isch
e V
erän
deru
ng: A
lle m
eine
Ent
chen
66
.94
41.5
3 0.
04
0.97
0.
39
7.
85
D1-
18c-
I M
otiv
isch
e V
erän
deru
ng: A
lle m
eine
Ent
chen
37
.6
- 1.
379
1.14
0.
10
0.10
35
.95
Ü
*
D1-
18d-
I M
elod
ie w
iede
rerk
enne
n (M
ozar
t-Men
uett)
25
.21
- 2.
016
0.99
0.
38
2.
48
D1-
18e-
I V
aria
tione
n: K
lavi
er (M
ozar
t) 14
.88
- 2.
722
1.06
0.
18
0.25
1.
65
D1-
18f-I
V
aria
tione
n: U
SA-H
ymne
(Hen
drix
) 32
.64
- 1.
619
1.03
0.
30
0.
83
P i ,
P IK
, PZK
= k
lass
isch
e Sc
hwie
rigke
itsin
dize
s; It
emsc
hwie
rigke
it (R
asch
) = It
empa
ram
eter
� (d
icho
tom
e Ite
ms)
, Thu
rsto
nian
thre
shol
ds (m
ehrk
ateg
orie
lle It
ems)
; MN
SQ =
wei
ghte
d m
ean
squa
re
(Ite
mfit
Con
Que
st); r
it = T
renn
schä
rfe;
SK
= S
elek
tions
kenn
wer
t (Tr
enns
chär
fe);
Dis
trakt
. = D
istra
ktor
enan
alys
e; A
nm. =
Anm
erku
ngen
; S/Ü
/E =
sel
ektie
rt, ü
bera
rbei
ten,
elim
inie
ren;
Ü*
= üb
erar
-be
itete
Fas
sung
des
Item
s kon
nte
erst
in d
er P
ilotie
rung
sstu
die
erpr
obt w
erde
n G
elbe
Mar
kier
ung
= B
each
tung
skrit
eriu
m
Ora
nge
Mar
kier
ung
= A
ussc
hlus
skrit
eriu
m
116
Tab.
13:
Item
sele
ktio
n Te
sthe
ft 4
– A
naly
se 2
(Ana
lyse
ohn
e di
e au
sges
chlo
ssen
en It
ems a
us A
naly
se 1
; ers
ter M
odel
ltest
)
Item
-ID
K
urzb
esch
reib
ung
P i /P
IK
P ZK
Item
schw
ie-
rigk
eit (
Ras
ch)
MN
SQ
r it
SK
Anm
. S/
Ü/E
D3-
8a-1
-I
Mic
hael
row
- Ta
kt a
nkre
uzen
92
.56
- -1
.846
0.
98
0.33
D3-
8a-2
-I
Mic
hael
row
- Ta
kt a
nkre
uzen
44
.63
- 1.
157
1.04
0.
40
D3-
8a-4
-I
Mic
hael
row
- Ta
kt a
nkre
uzen
90
.5
- -1
.563
0.
98
0.34
D3-
8b-1
-I
Mic
hael
row
- Fe
hler
bes
chre
iben
78
.1
- -0
.507
0.
98
0.43
D3-
8b-2
-I
Mic
hael
row
- Fe
hler
bes
chre
iben
20
.66
- 2.
417
0.89
0.
50
D3-
8b-3
-I
Mic
hael
row
- Fe
hler
bes
chre
iben
15
.29
- 2.
816
0.99
0.
31
Q
-Ind
ex
E
D3-
8b-4
-I
Mic
hael
row
- Fe
hler
bes
chre
iben
69
.83
- -0
.029
0.
96
0.47
D1-
15c-
1-II
W
irkun
g: fe
stlic
h (l'
orfe
o)
83.0
6 78
.83
-0.8
53
1.02
0.
33
D1-
15c-
2-II
W
irkun
g: ru
hig
(Sat
ie)
95.4
5 94
.31
-2.3
83
0.99
0.
28
D1-
15d-
1-II
W
irkun
g: fr
öhlic
h (S
aint
-Sae
ns)
87.1
9 83
.99
-1.2
05
1.00
0.
33
D1-
15e-
II
Wirk
ung-
Mitt
el-Z
uord
nung
42
.56
- 1.
253
1.07
0.
26
Q
-Ind
ex
Ü
D1-
15f-
I W
irkun
g-M
ittel
-Kom
posi
tion
71.4
9 -
-0.1
17
0.99
0.
35
D4-
5b-1
-II
Stile
: Hip
Hop
90
.91
89.4
-1
.613
1.
04
0.16
0.
26
D4-
5b-2
-II
Stile
: Ope
r 93
.8
92.7
7 -2
.046
0.
95
0.30
D4-
5b-3
-II
Stile
: Roc
k 95
.45
94.6
9 -2
.387
1.
05
0.13
0.
29
D4-
5b-4
-II
Stile
: Kon
zerts
aal
87.1
9 85
.06
-1.2
07
0.92
0.
38
D4-
5b-5
-II
Stile
: Kirc
he
94.2
1 93
.25
-2.1
27
0.96
0.
35
D4-
5b-6
-II
Stile
: Tec
hno
82.6
4 79
.75
-0.8
23
1.04
0.
28
D1-
18a-
1-I
Mot
ivis
che
Ver
ände
rung
: Bru
der J
akob
49
.59
24.3
9 0.
932
1.02
0.
36
D1-
18a-
2-I
Mot
ivis
che
Ver
ände
rung
: O D
u lie
ber A
ugus
tin
46.2
8 19
.42
1.08
1 0.
96
0.40
D1-
18a-
3-I
Mot
ivis
che
Ver
ände
rung
: Men
dels
sohn
50
.83
20.8
7 0.
875
0.94
0.
43
117
Item
-ID
K
urzb
esch
reib
ung
P i /P
IK
P ZK
Item
schw
ierig
-ke
it (R
asch
) M
NSQ
r it
SK
A
nm.
S/Ü
/E
D1-
18b-
I M
otiv
isch
e V
erän
deru
ng: A
lle m
eine
Ent
chen
66
.94
41.5
3 0.
119
1.02
0.
40
D1-
18d-
I M
elod
ie w
iede
rerk
enne
n (M
ozar
t-Men
uett)
25
.21
- 2.
132
0.98
0.
38
D1-
18e-
I V
aria
tione
n: K
lavi
er (M
ozar
t) 14
.88
- 2.
849
1.09
0.
20
0.28
D1-
18f-
I V
aria
tione
n: U
SA-H
ymne
(Hen
drix
) 32
.64
- 1.
728
1.07
0.
33
Glo
bale
r Mod
ellte
st: C
ress
ie-R
ead:
p =
0.0
4, �
2 : p =
0.0
4
P i ,
P IK
, PZK
= k
lass
isch
e Sc
hwie
rigke
itsin
dize
s; It
emsc
hwie
rigke
it (R
asch
) = It
empa
ram
eter
�; M
NSQ
= w
eigh
ted
mea
n sq
uare
(Ite
mfit
Con
Que
st);
r it =
Tre
nnsc
härf
e; S
K =
Sel
ek-
tions
kenn
wer
t (Tr
enns
chär
fe);
S/Ü
/E =
sele
ktie
rt, ü
bera
rbei
ten,
elim
inie
ren;
Anm
. = A
nmer
kung
en; Q
-Ind
ex =
sign
ifika
nt sc
hlec
hter
Q-I
ndex
(Ite
mfit
WIN
MIR
A)
Tab.
14:
Ite
mse
lekt
ion
Test
heft
4 –
Ana
lyse
3 (z
wei
ter M
odel
ltest
und
DIF
-Ana
lyse
)
Item
-ID
K
urzb
esch
reib
ung
P i /P
IK
P ZK
Item
schw
ieri
g-ke
it (R
asch
) M
NSQ
r it
SK
D
IF
S/Ü
/E
D3-
8a-1
-I
Mic
hael
row
- Ta
kt a
nkre
uzen
92
.56
- -1
.65
1.00
0.
33
�
S
D3-
8a-2
-I
Mic
hael
row
- Ta
kt a
nkre
uzen
44
.63
- 1.
43
0.98
0.
43
�
S
D3-
8a-4
-I
Mic
hael
row
- Ta
kt a
nkre
uzen
90
.5
- -1
.36
1.02
0.
36
�
S
D3-
8b-1
-I
Mic
hael
row
- Fe
hler
bes
chre
iben
78
.10
- -0
.29
0.99
0.
43
�
S
D3-
8b-2
-I
Mic
hael
row
- Fe
hler
bes
chre
iben
20
.66
- 2.
73
0.83
0.
52
�
S
D3-
8b-4
-I
Mic
hael
row
- Fe
hler
bes
chre
iben
69
.83
- 0.
20
1.01
0.
49
�
S
D1-
15c-
1-II
W
irkun
g: fe
stlic
h (l'
orfe
o)
83.0
6 78
.83
-0.6
4 1.
05
0.34
�
S
D1-
15c-
2-II
W
irkun
g: ru
hig
(Sat
ie)
95.4
5 94
.31
-2.2
0 1.
06
0.26
�
S
D1-
15d-
1-II
W
irkun
g: fr
öhlic
h (S
aint
-Sae
ns)
87.1
9 83
.99
-1.0
0 1.
01
0.34
�
S
D1-
15f-
I W
irkun
g-M
ittel
-Kom
posi
tion
71.4
9 -
0.11
1.
01
0.35
�
S
118
Item
-ID
K
urzb
esch
reib
ung
P i /P
IK
P ZK
Item
schw
ierig
-ke
it (R
asch
) M
NSQ
r it
SK
D
IF
S/Ü
/E
D4-
5b-1
-II
Stile
: Hip
Hop
90
.91
89.4
0 -1
.42
1.11
0.
19
0.31
�
S
D4-
5b-2
-II
Stile
: Ope
r 93
.80
92.7
7 -1
.86
1.05
0.
30
�
S
D4-
5b-3
-II
Stile
: Roc
k 95
.45
94.6
9 -2
.20
1.09
0.
14
0.31
�
S
D4-
5b-4
-II
Stile
: Kon
zerts
aal
87.1
9 85
.06
-1.0
0 1.
02
0.39
�
S
D4-
5b-5
-II
Stile
: Kirc
he
94.2
1 93
.25
-1.9
3 1.
05
0.34
�
S
D4-
5b-6
-II
Stile
: Tec
hno
82.6
4 79
.75
-0.6
1 1.
05
0.30
�
S
D1-
18a-
1-I
Mot
ivis
che
Ver
ände
rung
: Bru
der J
akob
49
.59
24.3
9 1.
19
1.01
0.
38
�
S
D1-
18a-
2-I
Mot
ivis
che
Ver
ände
rung
: O D
u lie
ber A
ugus
tin
46.2
8 19
.42
1.35
1.
03
0.44
�
S
D1-
18a-
3-I
Mot
ivis
che
Ver
ände
rung
: Men
dels
sohn
50
.83
20.8
7 1.
14
0.97
0.
45
�
S
D1-
18b-
I M
otiv
isch
e V
erän
deru
ng: A
lle m
eine
Ent
chen
66
.94
41.5
3 0.
36
1.02
0.
38
�
S
D1-
18d-
I M
elod
ie w
iede
rerk
enne
n (M
ozar
t-Men
uett)
25
.21
- 2.
44
0.99
0.
40
�
S
D1-
18e-
I V
aria
tione
n: K
lavi
er (M
ozar
t) 14
.88
- 3.
18
1.04
0.
23
0.32
�
S
D1-
18f-
I V
aria
tione
n: U
SA-H
ymne
(Hen
drix
) 32
.64
- 2.
02
1.05
0.
36
�
S
Glo
bale
r Mod
ellte
st: C
ress
ie-R
ead:
p =
0.0
8, �
2 : p =
0.1
0; T
estr
elia
bilit
ät: E
AP/P
V =
0.7
4, C
ronb
achs
Alp
ha =
0.6
9
P i ,
P IK
, PZK
= k
lass
isch
e Sc
hwie
rigke
itsin
dize
s; It
emsc
hwie
rigke
it (R
asch
) = It
empa
ram
eter
�; M
NSQ
= w
eigh
ted
mea
n sq
uare
(Ite
mfit
Con
Que
st); r
it = T
renn
schä
rfe;
SK
= S
elek
tions
kenn
wer
t (Tr
enn-
schä
rfe)
; DIF
= D
iffer
entia
l Ite
m F
unct
ioni
ng; S
/Ü/E
= se
lekt
iert,
übe
rarb
eite
n, e
limin
iere
n
119
Analyse 2 (Tab. 13)
Im Rahmen des zweiten Analysedurchgangs müssen zunächst die Itemkennwerte
erneut berechnet werden. Die Durchsicht der Ergebnisse zeigt, dass alle Items in-
nerhalb der geforderten Wertebereiche liegen.
Im nächsten Analyseschritt wird die Gültigkeit des Rasch-Modells überprüft. Der
globale Modelltest führt hierbei zu einer Ablehnung des Rasch-Modells, da beide
Prüfgrößen signifikant sind. Erneut dienen die von WINMIRA bereitgestellten I-
temfit-Maße zur Identifikation von möglicherweise problematischen Items. Signi-
fikant schlechte Q-Indizes weisen dabei die Items D3-8b-3-I und D1-15e-II auf,
die entsprechend für die folgende Analyse ausgeschlossen werden.
Analyse 3 (Tab. 14)
Auch die in den dritten Analysedurchgang einbezogenen 23 Items weisen durch-
weg zufriedenstellende Werte auf, sodass alle Items in die Wiederholung des Mo-
delltests einbezogen werden können.
Das Ergebnis des globalen Modelltests führt zu einer Annahme des Raschmodells,
da für beide Prüfgrößen p-Werte > .05 vorliegen.
In einem abschließenden Schritt erfolgt die Untersuchung der Items auf ‚Differen-
tial Item Functioning’. Für Testheft 4 liegt hierbei kein signifikanter DIF in Bezug
auf das Geschlecht der Testpersonen vor.
Somit ist die Überprüfung der psychometrischen Qualität der Items abgeschlossen
und die verbliebenen 23 Items können endgültig selektiert werden.
6.1.3 Itemselektion: Ergebnisse und Zusammenfassung
Der in Abschnitt 6.1.2 exemplarisch anhand von zwei Testheften dargestellte Se-
lektionsprozess wurde analog für alle neun Testhefte durchgeführt. In Bezug auf
die Analysedurchgänge können testheftübergreifend folgende Punkte zusammen-
gefasst werden:132
132 Bei einigen Items liegen mehrere Ausschluss-/Beachtungskriterien gleichzeitig vor. Die im Folgenden vorgenommene Zuordnung von Kriterien und Itemanzahl entspricht daher in der Sum-me nicht der insgesamt ausgeschlossenen Anzahl an Items.
120
� Vor allem drei Kriterien führten zu einer Eliminierung/Überarbeitung der I-
tems: Itemschwierigkeit (14 Items), Itemtrennschärfe (49 Items) und die Dis-
traktorenanalyse (20 Items).
� Das Ausschlusskriterium eines schlechten Itemfit spielte hingegen keine Rolle
im Rahmen der Itemselektion: Lediglich ein Item musste aufgrund eines signi-
fikant schlechten MNSQ-Wertes ausgeschlossen werden.
� Für die selektierten Items eines jeden Testhefts konnte die Gültigkeit des
Rasch-Modells inferenzstatistisch abgesichert werden. Im Rahmen der Mo-
delltestung mussten jedoch 8 Items aufgrund schlechter Q-Indizes aus den A-
nalysen entfernt werden.
� Für den weitaus größten Teil der Items war kein substantielles ‚Differential I-
tem Functioning’ in Bezug auf das Geschlecht der Testpersonen festzustellen.
Von den 11 Items mit substantiellem DIF wurden 6 als ‚biased’ Items einge-
stuft und entsprechend eliminiert/überarbeitet.
� Außerdem wurden aufgrund von Lehrer- und Schülerrückmeldungen weitere
18 Items eliminiert/überarbeitet.
Als Gesamtergebnis ist festzuhalten, dass von den insgesamt entwickelten 275 I-
tems 179 Items nach psychometrischen Kriterien selektiert werden konnten. Tab.
15 fasst die zentralen Kennwerte der selektierten Items auf Testheftebene zusam-
men:133
� Die Itemtrennschärfen liegen größtenteils in einem mittleren bis hohen Be-
reich, immer jedoch über 0.25.
� Die Items sind relativ gleichmäßig über das Fähigkeitskontinuum verteilt (I-
temschwierigkeiten zwischen -3.55 und 3.18 logits) und weisen gleichzeitig
eine sehr gute Passung zum Rasch-Modell auf (MNSQ-Werte zwischen 0.81
und 1.19).134 Abb. 19 veranschaulicht dies, indem für alle Items der Itemfit
und die Itemschwierigkeit abgetragen sind.
133 Auf Itemebene sind die Kennwerte für alle selektierten Items detailliert in Anhang B darge-stellt. 134 Der weitaus größte Teil der Items liegt dabei in einem sehr engen Bereich (zw. 0.90 und 1.10) um den Erwartungswert ‚1’ herum (vgl. auch Abb. 19).
121
� Die Reliabilitäten, die jeweils pro Testheft berechnet wurden, sind in den mei-
sten Fällen befriedigend bis gut und liegen zwischen 0.57 und 0.82.135 Ledig-
lich die Testhefte 1, 7 und 9 weisen mit Werten zwischen 0.57 und 0.69 eine
geringe Reliabilität auf.
-4.00
-3.00
-2.00
-1.00
0.00
1.00
2.00
3.00
4.00
0.70 0.90 1.10 1.30
Itemfit (MNSQ)
Item
schw
ierig
keit
(logi
ts)
Abb. 19: Grafische Darstellung von Itemfit und Item-
schwierigkeit für alle selektierten Items136
Ergänzend zu den psychometrischen Eigenschaften beschreibt Tab. 16 den Item-
pool in inhaltlicher Hinsicht:
Das Itemformat der selektierten Items ist zu ungefähr zwei Dritteln geschlossen;
das verbleibende Drittel verteilt sich zu annähernd gleichen Teilen auf halb-offene
und geschlossene Items.
Die verwendeten Hörbeispiele sollten einem möglichst breiten stilistischen Spekt-
rum entstammen, um einerseits die angestrebte curriculare Validität zu gewähr-
leisten, andererseits aber auch um möglichen Präferenz- oder Gewohnheitseffek-
135 Es handelt sich hierbei um das EAP/PV-Reliabilitätsmaß (EAP = expected a posteriori, PV = plausible values). Dieses Reliabilitästmaß ist dem häufig in der Klassischen Testtheorie verwende-ten Cronbachs � vergleichbar und führt meist auch zu sehr ähnlichen Resultaten (vgl. Rost, 2004, S. 382). 136 Die beiden blauen Linien markieren die Grenzen des für die Itemselektion verwendeten akzep-tablen Bereichs der MNSQ-Werte von 0.80 bis 1.20.
122
ten entgegenzuwirken (vgl. 4.3). In Tab. 16 sind die Hörbeispiele hierfür in relativ
grobe Kategorien eingeteilt. Trotzdem wird deutlich, dass die Items eine große
Bandbreite verschiedener musikalischer Genres abdecken: ‚Klassische’ Musikstü-
cke bilden hierbei mit 38 % den größten Anteil und umfassen sowohl Instrumen-
tal- als auch Vokalmusik vom Mittelalter bis hin zu zeitgenössischer Musik. Eben-
falls recht häufig wurde ‚Volksmusik’ verwendet (21 %). Es handelt sich hierbei
einerseits um traditionelle außereuropäische Musik, andererseits werden aber auch
deutsche Blasmusik oder Gospels/Spirituals in dieser Kategorie zusammengefasst.
25 Items (14 %) enthalten Hörbeispiele aus der Kategorie ‚Rock/Pop’. Auch diese
Kategorie ist relativ weit gefasst und umfasst u. a. Oldies (z. B. Beatles), Hard-
Rock (z. B. AC/DC), HipHop (z. B. Eminem) oder auch aktuelle Chart-Musik
(z. B. Amy Winehouse). Wenngleich seltener, so ist auch Jazzmusik bei 6 % der
Items als Hörbeispiel vertreten. Die letzte Kategorie ‚Eigenproduktionen’ (13 %)
umfasst speziell für die Itementwicklung produzierte Hörbeispiele, die sich kei-
nem Genre zuordnen lassen; dies sind z. B. Percussionspattern (Rhythmuswahr-
nehmung) oder Instrumentenklänge (Klangwahrnehmung). 7 % der Items sind
ohne ein Hörbeispiel konstruiert.
In der rechten Hälfte von Tab. 16 ist die Verteilung der selektierten Items auf die
Dimensionen und Niveaus des theoretischen Kompetenzmodells dargestellt. Es
zeigt sich hier, dass alle Dimensionen und Niveaus mit einer ausreichenden An-
zahl an Items operationalisiert werden konnten.
123
Tab.
15:
Zus
amm
enfa
ssun
g de
r wic
htig
sten
psy
chom
etris
chen
Ken
nwer
te d
er se
lekt
ierte
n Ite
ms
Tes
thef
t N
r.
Item
anza
hl
insg
./sel
ektie
rt
Schw
ieri
gkei
t (kl
assi
sch)
Sc
hwie
rigk
eit
(Ras
ch)
Item
fit
(MN
SQ)
Tre
nnsc
härf
e R
elia
bilit
ät
(EA
P/PV
)
Min
/Max
M
W (S
D)
Min
/Max
M
in/M
ax
MW
(SD
) M
in/M
ax
MW
(SD
)
1 20
/15
12.7
1/68
.36
39.5
8 (1
5.11
) -1
.48/
2.03
0.
88/1
.13
1.01
(0.0
7)
0.32
/0.5
7 0.
42 (0
.08)
0.
693
2 28
/15
5.98
/91.
45
56.3
5 (2
4.60
) -2
.43/
2.10
0.
81/1
.15
0.99
(0.1
1)
0.30
/0.6
5 0.
45 (0
.12)
0.
797
3 26
/15
23.6
8/94
.24
59.3
6 (2
5.61
) -2
.42/
2.25
0.
88/1
.10
1.00
(0.0
6)
0.28
/0.5
7 0.
41 (0
.10)
0.
720
4 32
/23
14.8
8/94
.69
62.5
5 (3
0.40
) -2
.20/
3.18
0.
83/1
.11
1.02
(0.0
5)
0.26
/0.5
2 0.
37 (0
.07)
0.
738
5 41
/29
15.7
7/90
.04
57.6
1 (2
2.23
) -2
.34/
2.57
0.
88/1
.15
1.00
(0.0
7)
0.25
/0.5
6 0.
39 (0
.09)
0.
822
6 31
/24
6.67
/87.
50
36.1
9 (2
4.26
) -2
.46/
2.54
0.
89/1
.08
1.00
(0.0
5)
0.19
/0.6
1137
0.36
(0.1
0)
0.71
9
7 27
/15
5.23
/66.
56
29.6
6 (1
9.54
) -1
.67/
2.42
0.
94/1
.11
1.01
(0.0
5)
0.28
/0.5
3 0.
39 (0
.09)
0.
574
8 34
/24
6.20
/90.
08
33.3
9 (2
2.71
) -3
.55/
2.49
0.
81/1
.19
1.00
(0.0
9)
0.26
/0.5
5 0.
42 (0
.08)
0.
823
9 35
/19
7.97
/88.
05
34.7
8 (2
3.00
) -2
.83/
1.48
0.
86/1
.07
1.00
(0.0
5)
0.27
/0.5
3 0.
37 (0
.09)
0.
632
Ges
amt
275/
179
Tab.
16:
Übe
rblic
k üb
er It
emfo
rmat
, Hör
beis
piel
-Gen
res u
nd V
erte
ilung
auf
die
theo
retis
chen
Kom
pete
nzdi
men
sion
en/-n
ivea
us d
er se
lekt
ierte
n Ite
ms
It
emfo
rmat
G
enre
s der
Hör
beisp
iele
M
odel
ldim
ensi
onen
/-niv
eaus
g
h o
E
J K
O
P
W
D1
D2
D3
D4
N1
N2
N3
N1
N2
N3
N1
N2
N3
N1
N2
N3
14
37
20
13
19
12
7 13
7
16
13
8 H
äufig
keit
124
30
25
24
11
68
13
25
38
71
44
27
37
Proz
ent
69
17
14
13
6 38
7
14
21
40
25
15
21
g =
gesc
hlos
sene
For
mat
e, h
= h
alb-
offe
nes
Form
at o
= o
ffene
s Fo
rmat
; E =
Eig
enpr
oduk
tione
n, J
= J
azz,
K =
‚Kla
ssis
che’
Mus
ik, O
= o
hne
Hör
beis
piel
, P
= Po
p/R
ock,
W =
Wel
tmus
ik/V
olks
mus
ik; D
= D
imen
sion
, N =
Niv
eau
13
7 In T
esth
eft 6
wur
de e
in It
em tr
otz
eine
r zu
nied
rigen
Tre
nnsc
härf
e (.1
9) s
elek
tiert.
Das
Item
wie
s in
Bez
ug a
uf a
lle w
eite
ren
psyc
hom
etris
chen
Krit
erie
n gu
te W
erte
auf
und
war
au
s inh
altli
cher
Sic
ht u
nver
zich
tbar
.
124
Der in diesem Abschnitt dargestellte Ergebnisüberblick verdeutlicht, dass es im
Rahmen der Itementwicklung und -selektion gelungen ist, einen psychometrisch
hochwertigen Itempool zu generieren, der sowohl eine Differenzierung über das
gesamte Fähigkeitsspektrum ermöglicht als auch den strengen Annahmen des
Rasch-Modells genügt und nicht zuletzt die Strukturen des theoretischen Kompe-
tenzmodells abbildet.
Dieser Itempool ist ein zentrales Ergebnis der vorliegenden Arbeit, gleichzeitig
aber auch die Grundlage für die Pilotierungsstudie im Rahmen des KoMus-
Projekts (vgl. Kap. 2.2.3 und 8.5). Darüber hinaus bilden die selektierten Items die
Datenbasis für die Identifikation schwierigkeitsgenerierender Aufgabenmerkmale
in Kap. 7.
6.2 Inhaltliche Itemanalysen aus fachwissenschaftlicher Perspektive
In den vorangegangenen Abschnitten standen die psychometrischen Kriterien im
Vordergrund, die bei der Itemselektion zur Anwendung kamen. Nur am Rande
wurden dabei inhaltliche Aspekte berücksichtigt. In den nun folgenden Ausfüh-
rungen spielen die psychometrischen Kriterien nach wie vor eine Rolle. Im Zent-
rum stehen nun aber konkrete Items, die durch gute oder schlechte Kennwerte ge-
kennzeichnet sind. Es liegt der Fokus dabei weniger auf den methodisch-
statistischen Aspekten der Itemanalyse, sondern auf den fachwissenschaftlichen
Dimensionen der Itementwicklung und -überarbeitung. Zu fragen ist beispielswei-
se, was es in inhaltlicher Hinsicht bedeutet, dass ein Distraktor (fast) nicht ge-
wählt wurde oder dass ein anderer Distraktor ‚attraktiver’ ist als die richtige Ant-
wortalternative. Wurde von den Testpersonen nur geraten oder lassen sich be-
stimmte Lösungsstrategien oder Denkfehler identifizieren, die zur Wahl einer
Antwortalternative führen? Ähnlich lassen sich auch Fragen beispielsweise in Be-
zug auf die Itemschwierigkeit oder das Vorliegen von ‚Differential Item Functio-
ning’ (DIF) formulieren: Wodurch kommen starke Abweichungen von theoretisch
angenommener und empirisch gemessener Itemschwierigkeit zustande? Müssen
die theoretischen Annahmen korrigiert werden oder können inhaltliche Itemanaly-
sen die Diskrepanz erklären? Kann ein vorliegender DIF bei einem Item durch die
125
Gruppenvariable erklärt werden (‚biased’ Item) oder muss nach alternativen Er-
klärungen gesucht werden?
Es geht in den folgenden Abschnitten also darum, wie sich psychometrisch gute
und schlechte Kennwerte auf der konkreten inhaltlichen Itemebene manifestieren
und inwieweit eine Erklärung und evtl. Verbesserung der Werte durch eine fach-
didaktisch reflektierte Itemanalyse und -überarbeitung erreicht werden kann.
6.2.1 Gute Multiple-Choice-Items: Eine Frage der Distraktoren
Die Qualität von Multiple-Choice-Items hängt zu einem wesentlichen Teil von
den Distraktoren ab. So kann der Schwierigkeits- und Komplexitätsgrad eines I-
tems entscheidend durch die Wahl der Distraktoren gesteuert werden. Unterschei-
den sich diese sehr deutlich von der richtigen Antwort, so wird das Item in der
Regel einfacher. Umgekehrt wird das Item schwerer, umso ‚ähnlicher’ die
Distraktoren der richtigen Antwortalternative sind (Rost, 2004, S. 62 f.). Damit
verbunden ist die Ratewahrscheinlichkeit bei geschlossenen Formaten. Durch die
Formulierung von möglichst plausiblen und der richtigen Antwort relativ ähnli-
chen Distraktoren kann die Wahrscheinlichkeit verringert werden, dass die richti-
ge Antwort im ‚Ausschlussverfahren’ erraten wird (Bortz & Döring, 2006,
S. 214).
Die Analyse der Distraktoren ist aber auch in inhaltlicher Hinsicht interessant.
Durch die Analyse der falschen Antworten können häufig Probleme in der Aufga-
benformulierung aufgedeckt werden, aber auch Rückschlüsse auf die Lösungsstra-
tegien der Schüler gezogen werden. Dies soll im Folgenden an einigen Beispielen
verdeutlicht werden.138
Analyse 1: Schwierigkeitsindizes
Im Rahmen der ersten Analyse werden exemplarisch drei Items dargestellt, die
sich hinsichtlich der Schwierigkeitsindizes ihrer Distraktoren unterscheiden.
Das erste Item (D3-6a) dient zur Erfassung von Notationskenntnissen (vgl. Abb.
20). Die Schüler sollen hierbei die ersten sechs Takte des Kinderliedes „Alle mei-
138 Die methodischen Grundlagen für die im Folgenden dargestellten Analysen sind in Abschnitt 5.2.3 beschrieben.
126
ne Entchen“ der richtigen Notation zuordnen; als richtige Lösung muss entspre-
chend Antwortalternative 3 gewählt werden.
Abb. 20: Item D3-6a (Testheft 8)
Die Distraktoren sind so konstruiert, dass Distraktor 1 keinerlei Tonhöhenverän-
derung aufweist, Distraktor 2 das Lied als Umkehrung enthält und Distraktor 3
(= Antwortalternative 4) größtenteils die gleiche Bewegungsrichtung wie das Ori-
ginal aufweist, jedoch mit zu großen Intervallen. Zu erwarten war, dass unter den
falschen Antworten vor allem Distraktor 3 gewählt würde, da dieser der richtigen
Antwort am ähnlichsten ist.139 Die Ergebnisse der Distraktorenanalyse stützen
diese Hypothese (vgl. Tab. 17).
Tab. 17: Distraktorenanalyse Item D3-6a (Testheft 8)
Häufigkeit Pi, Pd rit, rd
Antwortalternative 1 (Distraktor 1) 29 11.98 -0.22
Antwortalternative 2 (Distraktor 2) 26 10.74 -0.10
Antwortalternative 3 (richtige Antwort) 129 53.31 0.42
Antwortalternative 4 (Distraktor 3) 43 17.77 -0.10
139 Dieser Distraktor sollte insbesondere von Schülern gewählt werden, die zwar grundsätzlich das Konzept der Tonhöhenorganisation innerhalb der metrischen Notation kennen, aber nicht in der Lage sind Intervallstrukturen im Detail zu lesen bzw. diese mit ihrer Hörwahrnehmung abzuglei-chen.
127
Darüber hinaus wird deutlich, dass für die Distraktoren des Items D3-6a durchweg
akzeptable Werte vorliegen: Alle Distraktoren werden ungefähr gleich häufig ge-
wählt, wobei Distraktor 3 aus den genannten Gründen der attraktivste ist. Auch
die Forderung einer negativen Korrelation mit dem Gesamttestwert ist für alle
Distraktoren erfüllt. Auf Basis der Distraktorenanalyse ergibt sich folglich in Be-
zug auf das Item kein Überarbeitungsbedarf.
Anders stellt sich die Situation in Bezug auf das folgende Item dar. Zur Lösung
des Items D1-1a muss die Besetzung eines Musikstücks hörend erkannt und an-
schließend der richtigen Beschreibung zugeordnet werden (vgl. Abb. 21). Als
Hörbeispiel dient hierfür das A-Capella-Intro des Songs „fat bottomed girls“ der
Rockband „Queen“.
Abb. 21: Item D1-1a (Testheft 1)
128
Die in Tab. 18 dargestellte Distraktorenanalyse zeigt, dass vier der fünf Distrakto-
ren überhaupt nicht gewählt wurden und auch Distraktor 3 lediglich von drei Test-
personen.
Tab. 18: Distraktorenanalyse Item D1-1a (Testheft 1)
Häufigkeit Pi, Pd rit, rd
Antwortalternative 1 (Distraktor 1) 0 - -
Antwortalternative 2 (Distraktor 2) 0 - -
Antwortalternative 3 (Distraktor 3) 3 2.54 -0.26
Antwortalternative 4 (richtige Antwort ) 114 96.61 0.21
Antwortalternative 5 (Distraktor 4) 0 - -
Antwortalternative 6 (Distraktor 5) 0 - -
Bei genauerer Betrachtung der Distraktoren ist dieses Ergebnis wenig verwunder-
lich, denn die Distraktoren unterscheiden sich zu deutlich von der richtigen Ant-
wort. Es ist davon auszugehen (und durch die Analyseergebnisse bestätigt), dass
die Diskrimination von Bandinstrumenten und A-Capella-Gesang keine besonde-
ren Anforderungen an die Hörwahrnehmung der Schüler stellt. Es ist im Prinzip
allen Schülern möglich, den Songausschnitt als reinen Gesangsteil zu identifizie-
ren. Auf Basis dieser Wahrnehmungsleistung ist es denkbar einfach, die richtige
Antwortalternative auszuwählen, denn alle Distraktoren enthalten entweder aus-
schließlich Instrumentalbesetzungen oder aber Solo-/Ensemblegesang mit zusätz-
lichen Instrumenten.
Aus psychometrischer Sicht ist das Item in dieser Form nicht sinnvoll und müsste
überarbeitet werden. Mögliche neue und vermutlich ‚attraktivere’ Distraktoren
könnten die Besetzung innerhalb eines Gesangsensembles differenzieren, z. B.:
„Besetzung: männliche Singstimmen“, „Besetzung: weibliche Singstimmen“,
„Besetzung: gemischtes Gesangsensemble“ oder „Besetzung: Sologesang“. Es
wurde an dieser Stelle jedoch auf eine Überarbeitung verzichtet, da die gesamte
Aufgabe aus weiteren Items besteht, die alle den gleichen Song (bzw. die weiteren
Songteile) und die gleichen Distraktoren verwenden. Item D1-1a wurde aus die-
sem Grund aus den Testanalysen ausgeschlossen, für die praktische Testdurchfüh-
rung jedoch als ‚Motivationsitem’ weiterhin verwendet.
129
Abb. 22 enthält das letzte Item (D3-1e) innerhalb dieser Analyse. Inhaltlich geht
es hierbei um die Erfassung von Kenntnissen in Bezug auf grafische Notations-
formen. Die Testpersonen sollen unter den gegebenen Grafiken diejenige auswäh-
len, die das Musikstück (Anfang einer vierstimmigen Bachfuge) am besten illust-
riert. Das Hörbeispiel enthält die Themeneinsätze aller vier Stimmen, sodass Ant-
wortalternative 3 die richtige Lösung darstellt.
Abb. 22: Item D3-1e (Testheft 2)
Abb. 23: Item D3-1e (Testheft D3)140
Die Distraktorenanalyse (Tab. 19) ergibt einen problematischen Schwierigkeitsin-
dex für Distraktor 1 (Pd = 2.87). Es lässt sich nur vermuten, warum gerade dieser
140 In der Regel wurden überarbeitete Items innerhalb des Aufgabenentwicklungsprozesses erneut getestet (vgl. 4.3). In wenigen Ausnahmen war dies aufgrund der begrenzten Testzeit nicht mög-lich bzw. erfolgten abschließende Modifikationen an einzelnen Items erst im Anschluss an die Ent-wicklungsphase. Für diese Items liegen folglich keine Daten für die Endfassungen der Items vor. Um die Items trotzdem in die inhaltlichen Analysen der vorliegenden Arbeit einbeziehen zu kön-nen (6.2 und Kap. 7), werden hierfür die Daten aus der ersten Stufe der Pilotierungsstudie genutzt (es sei an dieser Stelle ausdrücklich Anne-Katrin Jordan für die Überlassung des Datenmaterials gedankt). Alle entwickelten Items wurden im Rahmen der Pilotierungsstudie in vier Testhefte zu-sammengefasst, sodass jeweils nur Items einer Dimension in einem Testheft enthalten waren (vgl. Jordan, Knigge & Lehmann-Wermser, 2010). Die entsprechenden Testhefte sind gekennzeichnet durch die Bezeichnungen ‚D1’, ‚D2’, ‚D3’ und ‚D4’. Wenn also im Rahmen der vorliegenden Ar-beit auf Daten der Pilotierungsstudie zurückgegriffen wird, so ist dies immer aufgrund der Be-zeichnung des entsprechenden Testhefts ersichtlich.
130
Distraktor besonders selten gewählt wurde. Es könnte daran liegen, dass die drei
jeweils übereinanderliegenden geschwungenen Linien eine gewisse Gleichzeitig-
keit der Musik suggerieren. Dies entspricht jedoch gerade nicht dem Charakteris-
tischen des Hörbeispiels, dass durch den sukzessiven Einsatz der verschiedenen
(Solo-)Stimmen gekennzeichnet ist. Eine weitere Interpretationsmöglichkeit wäre
es, in der Grafik eine Dreiteiligkeit in formeller Hinsicht zu sehen oder in Bezug
auf die Tonhöhenstruktur eines Stückes den Wechsel eines hohen, tiefen und wie-
der hohen Teils. Sicher ist hingegen, dass sich der Distraktor 1 zu deutlich von der
richtigen Antwort unterscheidet bzw. es zu offensichtlich für die Schüler ist, dass
die entsprechende Grafik nicht zu der Musik passen kann.
Tab. 19: Distraktorenanalyse Item D3-1e (Testheft 2)
Häufigkeit Pi, Pd rit, rd
Antwortalternative 1 (Distraktor 1) 5 2.87 -0.11
Antwortalternative 2 (Distraktor 2) 11 6.32 -0.08
Antwortalternative 3 (richtige Antwort) 126 72.41 0.26
Antwortalternative 4 (Distraktor 3) 9 5.17 -0.09
Aufgrund dieser Überlegungen wurde Distraktor 1 überarbeitet. Abb. 23 enthält
das entsprechend modifizierte Item. Durch die neue grafische Gestaltung soll ein
musikalischer Verlauf angedeutet werden, der sukzessive Stimmeinsätze enthält
und mit einer Solostimme beginnt. Die Grafik weist somit eine gewisse Nähe zur
richtigen Antwortalternative auf, ist gleichzeitig aber auch noch eindeutig genug
von dieser zu unterscheiden. Tab. 20 enthält die Distraktorenanalyse des modifi-
zierten Items. Es zeigt sich, dass der überarbeitete Distraktor nun deutlich attrak-
tiver für die Testpersonen ist (Pd = 16.54) und das Item in Bezug auf die Distrak-
toren keine problematischen Werte mehr aufweist.
Tab. 20: Distraktorenanalyse Item D3-1e (Testheft D3)
Häufigkeit Pi, Pd rit, rd
Antwortalternative 1 (Distraktor 1) 84 16.54 -0.17
Antwortalternative 2 (Distraktor 2) 46 9.06 0.05
Antwortalternative 3 (richtige Antwort) 283 55.71 0.21
Antwortalternative 4 (Distraktor 3) 94 18.50 -0.16
131
Analyse 2: Trennschärfe
Während in den vorangegangenen Analysen ausschließlich die Schwierigkeitsin-
dizes betrachtet wurden, steht die Trennschärfe der Distraktoren im Zentrum der
folgenden Ausführungen. Distraktoren sollten negativ mit dem Gesamttestwert
korreliert sein (vgl. 5.2.3). Liegt hingegen eine positive Trennschärfe vor, so deu-
tet dies häufig darauf hin, dass ein entsprechender Distraktor zu ‚attraktiv’ ist,
denn er verleitet auch eigentlich leistungsstarke Testpersonen zu einer falschen
Antwort.
Item D4-1e-1 dient zur Erfassung von musikhistorischen und -kulturellen Wis-
sensbeständen in Zusammenhang mit der Hörwahrnehmung (vgl. Abb. 24). Als
Hörbeispiel wurde hierfür ein ‚Negro Spiritual’ verwendet; die richtige Antwort
ist entsprechend Antwortalternative 3.
Abb. 24: Item D4-1e-1 (Testheft 5)
Die Distraktorenanalyse (Tab. 21) zeigt zunächst, dass Distraktor 1 und 4 fast
nicht gewählt werden. Für den vorliegenden Zusammenhang ist aber vor allem in-
teressant, dass Distraktor 3 überaus attraktiv ist (Pd = 32.37) und gleichzeitig eine
positive Trennschärfe aufweist. Mit einem Wert von rd = 0.01 liegt die Korrelati-
on zwar noch unter dem Ausschlusskriterium (vgl. 6.1.1), trotzdem erscheint eine
genauere inhaltliche Betrachtung angebracht.
Der Distraktor wurde ursprünglich als richtige Antwort für ein weiteres Item in-
nerhalb der gleichen Aufgabe konstruiert (Hörbeispiel war hierbei die Stumm-
filmmusik eines Charly Chaplin Films). Für das vorliegende Item scheint der Dis-
132
traktor jedoch nur bedingt geeignet. In Gesprächen mit den Kooperationslehrern
wurde deutlich, dass viele Schüler die historische Dimension der Aufgabe nicht
ganz verstanden hatten und das Hörbeispiel der dritten Antwortalternative zuord-
neten, da solch eine Musik in Kinofilmen Verwendung finden könnte; eine Ent-
scheidung, die durchaus plausibel erscheint. Vor diesem Hintergrund wurde be-
schlossen, den Distraktor zu entfernen (es bleiben immer noch drei Distraktoren
übrig), da dieser eher zur Verwirrung und zu einem schlechteren Verständnis der
Aufgabenstellung beiträgt.
Tab. 21: Distraktorenanalyse Item D4-1e-1 (Testheft 5)
Häufigkeit Pi, Pd rit, rd
Antwortalternative 1 (Distraktor 1) 4 1.66 -0.05
Antwortalternative 2 (Distraktor 2) 26 10.79 -0.03
Antwortalternative 3 (richtige Antwort) 111 46.06 0.16
Antwortalternative 4 (Distraktor 3) 78 32.37 0.01
Antwortalternative 5 (Distraktor 4) 6 2.49 -0.19
Auch Item D4-1f-3 erfasst musikhistorische Kenntnisse im Zusammenhang mit
Hörwahrnehmung (vgl. Abb. 25). Die Schüler sollen Musikstücke bestimmten
musikgeschichtlichen Epochen zuordnen. Das Item enthält hierfür einen Aus-
schnitt einer Komposition von Anton Webern (op. 19), das entsprechend der Epo-
che „Neue Musik“ (Antwortalternative 6) zuzuordnen ist.
Abb. 25: Item D4-1f-3 (Testheft 5)
133
Bei Betrachtung der Distraktorenanalyse (Tab. 22) fällt sofort auf, dass die Dis-
traktoren 2 und 3 sehr häufig gewählt wurden und darüber hinaus positive Trenn-
schärfen aufweisen.141
Tab. 22: Distraktorenanalyse Item D4-1f-3 (Testheft 5)
Häufigkeit Pi, Pd rit, rd
Antwortalternative 1 (Distraktor 1) 23 9.54 -0.12
Antwortalternative 2 (Distraktor 2) 76 31.54 0.02
Antwortalternative 3 (Distraktor 3) 96 39.83 0.14
Antwortalternative 4 (Distraktor 4) 25 10.37 -0.11
Antwortalternative 5 (Distraktor 5) 7 2.90 0.10
Antwortalternative 6 (richtige Antwort) 1 0.41 -0.01
Es wäre nun naheliegend, direkt auf einer inhaltlichen Ebene nach möglichen
Gründen für die Attraktivität der beiden Distraktoren zu suchen. Denkbar wäre
beispielsweise, dass das Hörbeispiel Anklänge an Alte Musik enthält (was in vor-
liegendem Hörbeispiel jedoch nicht der Fall ist) und daher viele Schüler zu einer
Wahl des zweiten und dritten Distraktors veranlasst. Erklärungsbedürftig erscheint
insbesondere die sehr hohe positive Trennschärfe von Distraktor 3: Warum ordnen
gerade die leistungsstärkeren Schüler das Musikstück der Epoche „Barock“ zu?
Bevor jedoch allzu viel Mühe auf die Klärung dieser Fragen verwendet wird, er-
scheint eine Betrachtung der richtigen Antwort (Antwortalternative 6) hilfreich.
Denn das Problem liegt offensichtlich weniger bei den Distraktoren denn vielmehr
bei der Formulierung der richtigen Antwortalternative: Diese wird lediglich von
einem Schüler gewählt und ist damit unter allen Antwortalternativen diejenige mit
dem niedrigsten Schwierigkeitsindex. Auch an dieser Stelle waren die Rückmel-
dungen der Lehrer überaus hilfreich. Laut ihren Angaben sind hierbei zwei Dinge
von Bedeutung: Einerseits spielt Neue Musik im Unterricht der Klassenstufe nur
eine sehr untergeordnete Rolle, d. h. von entsprechenden Hörerfahrungen ist nur
für einen relativ kleinen Teil der Schüler auszugehen. Andererseits – und das wur-
de als hauptsächliches Problem genannt – verbinden die Schüler mit dem Termi-
nus ‚Neue Musik’ viel eher aktuelle Musik wie z. B. Pop, Rock, HipHop etc.
141 Für Distraktor 5 liegt ebenfalls eine positive Trennschärfe vor. Der Distraktor wurde jedoch nur von sieben Testpersonen gewählt, sodass die Trennschärfe an dieser Stelle nicht beachtet wird.
134
Vor diesem Hintergrund und auch unter Berücksichtigung der sonstigen problema-
tischen Distraktorenwerte (vgl. Tab. 22) wurde das Item umfassend überarbeitet.
Das modifizierte Item enthält nur noch drei Antwortalternativen (Distraktor 1:
Mittelalter, Distraktor 2: Klassik, richtige Antwortalternative: moderne „klassi-
sche“ Musik). Die in Tab. 23 dargestellte Distraktorenanalyse des überarbeiteten
Items zeigt, dass durch die neue Formulierung der richtigen Antwortalternative
eine deutliche Verbesserung erzielt werden konnte.
Tab. 23: Distraktorenanalyse Item D4-1f-3 (Testheft D4)
Häufigkeit Pi, Pd rit, rd
Antwortalternative 1 (Distraktor 1) 14 9.86 -0.04
Antwortalternative 2 (Distraktor 2) 88 61.97 -0.14
Antwortalternative 3 (richtige Antwort) 40 28.17 0.18
Analyse 3: fehlerdiagnostische Distraktorenanalyse
In der abschließenden Analyse zum Thema ‚Distraktoren’ soll verdeutlicht wer-
den, dass Distraktorenanalysen auch in fehlerdiagnostischer Hinsicht interessant
sein können.
In Abb. 26 ist Item D3-7c dargestellt, das Rhythmuswahrnehmung in Verbindung
mit Notationskenntnissen erfasst. Als Hörbeispiel dient ein synkopierter Rhyth-
mus, der in notierter Form Antwortalternative 1 zu entnehmen ist.
Abb. 26: Item D3-7c (Testheft D3)
135
Bei Betrachtung der Distraktorenanalyse ist vor allem interessant, dass der zweite
Distraktor am häufigsten gewählt wurde (vgl. Tab. 23). Der Schwierigkeitsindex
des Distraktors (Pd = 45.48) liegt sogar noch über dem der richtigen Antwort.
Tab. 24: Distraktorenanalyse Item D3-7c (Testheft D3)
Häufigkeit Pi, Pd rit, rd
Antwortalternative 1 (richtige Antwort) 53 36.05 0.24
Antwortalternative 2 (Distraktor 1) 22 14.97 -0.11
Antwortalternative 3 (Distraktor 2) 67 45.58 -0.12
Antwortalternative 4 (Distraktor 3) 5 3.40 -0.08
Wie ist der hohe Schwierigkeitsindex des zweiten Distraktors zu erklären? Ver-
gleicht man alle Antwortalternativen, so fällt auf, dass Distraktor 2 der richtigen
Antwort am ähnlichsten ist, und zwar in zweierlei Hinsicht: Einerseits sind die er-
sten beiden Noten identisch (was jedoch auch auf Distraktor 1 zutrifft), anderer-
seits enthält der zweite Distraktor die gleiche Notenanzahl wie die richtige Ant-
wort. Die letztgenannte Analogie ist ein interessantes Detail in fehlerdiagnosti-
scher Hinsicht. Dass gerade der Distraktor mit der gleichen Anzahl an Noten am
häufigsten gewählt wird, deutet auf eine bestimmte Lösungsstrategie hin. Auf der
Wahrnehmungsebene scheint es den meisten Schülern möglich, den Synkopen-
rhythmus zu erfassen. Inwieweit hierbei tatsächlich die richtige rhythmische
Struktur erhalten bleibt, muss offen bleiben; relativ sicher ist hingegen, dass die
Anzahl der Töne korrekt wahrgenommen wird und diese auch als Lösungsstrate-
gie benutzt werden. Viele Schüler scheinen die Anzahl der Töne abzuzählen und
dann in den Antwortalternativen nach der Notation mit fünf Noten zu suchen. Da
hierfür zwei passende Möglichkeiten zur Auswahl stehen (die richtige Antwortal-
ternative und Distraktor 2), sind es vermutlich vor allem die Schüler ohne detail-
lierte Kenntnisse in Bezug auf metrische Notation, die sich fälschlicherweise für
Distraktor 3 entscheiden. Schüler, die hingegen den Unterschied von Achtel- und
Viertelnoten kennen, werden mit hoher Wahrscheinlichkeit die richtige Antwort
wählen.
Wofür können die Überlegungen solch einer fehlerdiagnostischen Analyse genutzt
werden? Für Rückmeldung und Förderung auf Individualebene erscheint eine
Anwendung nicht sinnvoll, denn es können letztlich nur Wahrscheinlichkeitsaus-
136
sagen gemacht werden; auf Individualebene sind andere und speziell für diesen
Zweck entwickelte Aufgabentypen vorzuziehen (vgl. hierzu auch Fußnote 173).
Die genauere Analyse von Fehlerstrukturen bei Testaufgaben ist aber vor allem
für die Aufgabenkonstruktion und -überarbeitung interessant. Wenn z. B., wie in
vorliegendem Fall, eine gewisse Lösungsstrategie identifiziert werden kann, so ist
es möglich, im Anschluss daran Distraktoren zu konstruieren, die eine Aufgaben-
lösung weiter erschweren für die Testpersonen, die nicht über alle geforderten Fä-
higkeiten verfügen. Denn dadurch dass in Item D3-7c nur ein Distraktor mit fünf
Noten existiert, wird eine gewisse Anzahl der Schüler, die zwar die richtige No-
tenanzahl wahrgenommen haben, jedoch nicht über die eigentlich notwendigen
Notationskenntnisse verfügen, die richtige Antwort aufgrund von Raten wählen.
Würden hingegen alle Distraktoren fünf Noten beinhalten, so wäre die Ratewahr-
scheinlichkeit deutlich geringer und das Item würde entsprechend trennschärfer
die anvisierte Kompetenz erfassen.
6.2.2 Differential Item Functioning: ‚unfaire’ Items
In Abschnitt 5.2.6 wurden die methodischen Grundlagen von DIF-Analysen be-
schrieben. An dieser Stelle erfolgt nun exemplarisch die Analyse von zwei Items,
die substanziellen DIF in Bezug auf das Geschlecht der Testpersonen aufweisen.
Die beiden betreffenden Items (D4-3b-3/5 und D2-7a) wurden bereits im Rahmen
der Darstellung des Selektionsprozesses von Testheft 7 erwähnt (vgl. 6.1.2), sollen
an dieser Stelle jedoch einer genaueren Betrachtung unterzogen werden.
Das in Abb. 27 dargestellte Item D4-3b-3/5 erfasst die Fähigkeit, Musik einem be-
stimmten kulturellen Kontext zuzuordnen. Als Hörbeispiel wurde hierbei die Auf-
nahme eines traditionellen und mit Dudelsack gespielten schottischen Musik-
stücks gewählt; die richtige Antwort ist entsprechend „Europa“.
137
Abb. 27: Item D4-3b-3/5 (Testheft 7)
Die DIF-Analyse zeigt, dass das Item die Mädchen gegenüber den Jungen um
0.83 logits ‚benachteiligt’ (vgl. Tab. 10 in Abschnitt 6.1.2); d. h., haben Jungen
und Mädchen die gleiche Fähigkeitsausprägung (�v), so liegt die Lösungswahr-
scheinlichkeit für die Mädchen um ca. 20 % unter der der Jungen.142 Grafisch dar-
gestellt ist dies in Abb. 28.
Abb. 28: IC-Funktionen des Items D4-3b-3/5 für Mädchen (blau) und Jungen (grün)
Bei Betrachtung der Iteminhalte drängt sich jedoch keine plausible Erklärung auf,
warum hier ein Bias zwischen dem Geschlecht der Schüler und der Itembearbei-
142 Vgl. hierzu die Ausführungen zum ‚Logit der Wahrscheinlichkeit’ in Abschnitt 5.1.2.
138
tung vorliegen sollte. Auch die Befragung der Kooperationslehrer und die Durch-
sicht der Rückmeldebögen gaben an dieser Stelle keinen Aufschluss.
In Ermangelung einer plausiblen Erklärung und unter Berücksichtigung der Stich-
probenbeschaffenheit (vgl. 5.3.1) wurde das Item trotz des substantiellen DIF se-
lektiert, erhielt jedoch eine Markierung für eine erneute Überprüfung im Rahmen
der Pilotierungsstudie.143
Abb. 29: Item D2-7a (Testheft 7)
Bei Item D2-7a liegt der umgekehrte Fall vor: Hier werden die Jungen um 0.80
logits ‚benachteiligt’ (vgl. Tab. 10 in Abschnitt 6.1.2). Betrachtet man die in Abb.
30 dargestellten IC-Funktionen, so wird außerdem deutlich, dass ein DIF nicht in
allen Fähigkeitsbereichen in gleichem Umfang vorliegt. Vor allem bei Schülern im
unteren und mittleren Bereich liegen die Werte sehr weit auseinander, während bei
Schülern mit einer hohen Fähigkeitsausprägung (� > 0.6) nur geringe Unterschie-
de zu beobachten sind.
143 Durch die größere Stichprobe und die Vielzahl der erhobenen Hintergrundvariablen können im Rahmen der Pilotierung umfangreichere DIF-Analysen durchgeführt werden. In diesem Zusam-menhang wird es dann auch möglich sein, Interaktionen zwischen den Variablen zu berücksichti-gen.
139
Abb. 30: IC-Funktionen des Items D2-7a für Mädchen (blau) und Jungen (grün)
Im Vergleich zu Item D4-3b-3/5 ergibt auch die inhaltliche Analyse ein anderes
Bild (vgl. Abb. 29): Das Hörbeispiel des Items wird von einer Flötenschülerin
(begleitet von einem Klavier) gespielt. Die Aufgabenstellung sieht vor, dass die
Testpersonen der Schülerin und ihrem Begleiter Verbesserungsvorschläge hin-
sichtlich ihres Spiels geben sollen.
Hier ist die Erklärung naheliegend, dass es sich tatsächlich um ein ‚biased’ Item
handelt, da die Flöte ein genderspezifisches Instrument darstellt, das von Mädchen
deutlich häufiger gespielt und präferiert wird als von Jungen (z. B. Oster, 2000;
Stolla & Gaul, 2008). Entsprechend könnten hier Instrumentenpräferenzen eine
Rolle spielen oder aber auch Hörgewohnheiten/-präferenzen, die dazu führen, dass
Mädchen bei der Itembearbeitung einen Vorteil gegenüber Jungen haben. Auf-
grund dieser Überlegungen wurde das Item eliminiert.144
Die an dieser Stelle nur exemplarisch dargestellte Analyse von Items in Bezug auf
‚Differential Item Functioning’ ist ein effektives Hilfsmittel, um Aufgabenstel-
lungen zu identifizieren, die eine bestimmte Subgruppe der Testpopulation
benachteiligen bzw. übervorteilen. Die im Rahmen der vorliegenden Arbeit
durchgeführten DIF-Analysen ergaben insgesamt nur relativ wenige Items mit
144 Eine Überarbeitung wäre grundsätzlich möglich (z. B. durch eine Einspielung des gleichen Hörbeispiels mit einem anderen Instrument), wurde aber aufgrund einer Reihe bereits entwickelter ähnlicher Items nicht in Betracht gezogen.
140
substantiellem DIF (vgl. 6.1.3). Außer dem hier dargestellten Item wurden fünf
weitere als ‚biased’ Items eingestuft und entsprechend überarbeitet oder elimi-
niert. Interessant war hierbei, dass die meisten dieser Items einen Bias vermutlich
aufgrund von genderspezifischen Musikpräferenzen aufwiesen.
6.2.3 Analyse und Interpretation von Itemschwierigkeiten
Im Kontext der Ausführungen zur Itemselektion wurde bereits auf die Relevanz
der Analyse der Itemschwierigkeit hingewiesen und in statistisch-methodischer
Hinsicht entsprechend dargestellt (vgl. 5.2.1 und 6.1). Im folgenden Abschnitt
werden exemplarisch mehrere Items analysiert, deren Interpretation der I-
temschwierigkeit in verschiedener Hinsicht problematisch ist. Die drei Analysen
beinhalten jeweils Items, deren empirisch gemessene Schwierigkeit deutlich von
der theoretisch angenommenen abweicht. Im Vordergrund steht hierbei die Frage,
wie diese Diskrepanz zu erklären ist und welche Schlussfolgerungen daraus zu
ziehen sind.
Analyse 1 – theoretische vs. empirische Itemschwierigkeit I
Im Rahmen der Aufgabenentwicklung wurden mehrere Items zur Erfassung der
Fähigkeiten im Umgang mit Notation konstruiert. Eine Reihe an Items beinhaltet
hierfür Hörbeispiele, die einer bestimmten Notation zugeordnet werden müssen.
Der kompetente Umgang mit Notation umfasst jedoch nicht nur das Lesen, son-
dern auch das Schreiben von Notation. Aus diesem Grund wurden verschiedene
Items entwickelt, die von den Testpersonen verlangen, klingende Musik schrift-
lich zu fixieren. Ziel war hierbei eine Variation der Itemschwierigkeiten in Ab-
hängigkeit vom Komplexitätsgrad der Notation und/oder des Hörbeispiels. Ohne
an dieser Stelle auf weitere Details eingehen zu können, war es naheliegend davon
auszugehen, dass sehr einfache und kurze musikalische Strukturen in Kombinati-
on mit einer wenig komplexen Notation (z. B. nur einstimmig, geringe Anzahl an
verschiedenen Symbolen/Notenwerten) zu einer niedrigen Itemschwierigkeit füh-
ren würden. Abb. 31 zeigt solch ein Item, bei dem die Testpersonen einen kurzen
Rhythmus (Instrument: Klavier, Tonhöhe: konstant) mithilfe einfacher grafischer
Symbole notieren sollen.
141
Abb. 31: Item D3-7d (Testheft 3)
Bei der Auswertung des Items ist es zunächst etwas überraschend, dass – trotz des
niedrigen Komplexitätsgrades von Hörbeispiel und Notation – nur 53.29 % der
Schüler das Item lösen; die Itemschwierigkeit liegt mit � = 0.76 im mittleren Be-
reich.145 Dies deutet daraufhin, dass die Fähigkeit, wahrgenommene Musik
schriftlich zu fixieren, auf einem eher mittleren bis hohen Schwierigkeitsniveau
anzusiedeln ist.146 Weitere Items bestätigen dies und zeigen auch den vermuteten
Anstieg der Itemschwierigkeit in Abhängigkeit des Komplexitätsgrads von Hör-
beispiel und Notation (z. B. D3-7e; vgl. Abb. 43).
Vor diesem Hintergrund stellt sich die Frage, ob die Fähigkeit des Schreibens von
Notationen bei leistungsschwächeren Schülern grundsätzlich nicht ausgeprägt ist
oder ob eine fehlerhafte Itembearbeitung vielleicht zu einem gewissen Teil auf die
Wahrnehmungsanforderungen zurückzuführen sein könnte. Wenngleich die An-
forderungen an die Wahrnehmung durch Item D3-7d bereits sehr gering sind, so
wird mit den Items D3-10-1 und -2 der Versuch unternommen, diese auf ein Mi-
nimum zu reduzieren. Die zugrundeliegende Idee ist hierbei, den Rhythmus zu
verbalisieren und ihn dadurch leichter memorierbar zu machen. Dies ist ein be-
kanntes didaktisches Hilfsmittel, das häufig in der Rhythmusschulung eingesetzt
wird.
145 Die weiteren Itemkennwerte sind Tab. 59 in Anhang A zu entnehmen. 146 Der Schwierigkeitsunterschied zwischen dem Lesen und Schreiben von Notationen im Zusam-menhang mit Rhythmuswahrnehmung wird ausführlich in Abschnitt 7.1 behandelt (v. a. Analyse B.4).
142
Abb. 32: Items D3-10-1 und D3-10-2 (Testheft 4)
Betrachtet man nun die Itemschwierigkeiten, so zeigt sich, dass beide Items ent-
gegen der Hypothese nicht leicht sind. Mit Itemschwierigkeiten von � = 3.54 (D3-
10-1, „Viele kleine Mäuse“) und 2.22 (D3-10-2, „Eichhörnchenkinder“) sind die
Items sogar sehr schwer und auch deutlich schwerer als Item D3-7d. Wie ist dies
zu erklären? Bei einer qualitativen Fehleranalyse fällt zunächst auf, dass einige
Schüler die kurzen Endsilben (…Mäu-se, …kin-der), die entsprechend mit einem
Punkt zu notieren waren, als lange Endsilbe notieren (vgl. Tab. 25). Es ist durch-
aus nachvollziehbar, dass die Unterscheidung der Endsilben den Schülern schwer-
fällt, denn bei einem inneren Wiederholen des Rhythmus, das für das Notieren
notwendig ist, wäre es ebenso natürlich, die Endsilben lang auszusprechen – in
Abhängigkeit des Sprechtempos evtl. sogar die besser passende Rhythmisierung.
Es wurde daher entschieden, die entsprechenden Lösungen mit jeweils zwei Stri-
chen am Ende einer Notation ebenfalls als richtig zu werten. Dies erhöht zwar den
Anteil der Schüler mit einer korrekten Itembearbeitung (von 4.94 auf 7.44 % bzw.
von 9.1 auf 21.9 %), insgesamt bleiben aber beide Items sehr schwer (die oben
angegebenen Itemschwierigkeiten basieren bereits auf dieser Auswertung). Dar-
über hinaus ist die Fehleranalyse jedoch wenig aufschlussreich. Es lassen sich
keine besonders auffälligen Antwortmuster identifizieren, die auf eine systema-
tisch falsche Itembearbeitung hindeuten würden. Auffällig ist hingegen, dass bei
242 Testpersonen 50 bzw. 53 verschiedene Antworten (Notationen) vorliegen. Für
Item D3-10-2 sind die Schülerantworten in Tab. 25 dargestellt.
143
Tab. 25: Schülerantworten Item D3-10-2 (Testheft 4)147
Antwort Häufigkeit %
--- 1 .4
---- 1 .4
---.---. 1 .4
--.- 1 .4
--.-- 1 .4
--.-. 4 1.7
--.. 7 2.9
--... 2 .8
-.- 19 7.9
-.-- 10 4.1
-.--. 1 .4
-.-. 13 5.4
-.-.. 1 .4
-.. 1 .4
-..- 18 7.4
-..-- 31 12.8
-..--. 1 .4
-..-. 22 9.1
-..-.. 1 .4
-... 5 2.1
-...- 1 .4
-...-- 2 .8
-...-. 1 .4
-.... 3 1.2
.-- 3 1.2
.--- 1 .4
.---. 2 .8
.---.-. 1 .4
.--. 2 .8
.--.- 1 .4
.--.. 2 .8
147 Richtig gewertete Antworten = grau hinterlegt.
.-. 1 .4
.-.- 2 .8
.-.. 7 2.9
..- 23 9.5
..-- 9 3.7
..-. 4 1.7
..-.. 1 .4
... 1 .4
...- 12 5.0
...-- 1 .4
...-. 6 2.5
...-.. 1 .4
.... 1 .4
....- 1 .4
....-- 1 .4
....-..-- 1 .4
.....- 1 .4
.....-- 1 .4
.....----- 1 .4
......-.. 1 .4
........ 1 .4
Missing 5 2.1
Gesamt 242 100.0
144
Es ist nun schwierig auf dieser Basis eine schlüssige Interpretation vorzunehmen.
Denkbar wäre, dass die Aufgabe grundsätzlich nicht verstanden wurde. Dagegen
sprechen allerdings die sehr geringe Anzahl an fehlenden Werten und eine nur
vereinzelte Erwähnung der Aufgabe in den Lehrer- und Schülerrückmeldebögen.
Eine andere Erklärung könnte sein, dass ein verbalisierter Rhythmus eben keine
vereinfachende Wirkung, sondern eher eine schwierigkeitsgenerierende hat. Auch
ließe sich vermuten, dass die Transformation von gesprochenen Wörtern/Silben in
einen notierten Rhythmus eher eine sprachliche denn eine musikalische Kompe-
tenz ist.
Vor diesem Hintergrund erscheint ein Ausschluss der Items sinnvoll, denn letzt-
lich ist es sehr fraglich, ob das anvisierte Konstrukt durch die Items adäquat ope-
rationalisiert wird. Die Validität der inhaltlichen Passung der Items ist also zu be-
zweifeln, was schon allein daran deutlich wird, dass die Items explizit für die Er-
fassung basaler Kompetenzen konstruiert waren, empirisch sich dies aber nicht
bestätigen lässt. Die beiden Items sind somit auch ein gutes Beispiel für die Rele-
vanz einer fachdidaktisch-inhaltlichen Itemanalyse, die sich psychometrischer
Methoden bedient, diese aber stets kritisch reflektiert; denn auf Basis der Selekti-
onskriterien hätten beide Items selektiert werden können, da z. T. sogar sehr gute
Itemkennwerte (MNSQ, Trennschärfe etc.) vorliegen (vgl. Tab. 12 in Abschnitt
6.1.2).
Zusammenfassend lässt sich festhalten, dass in vorliegendem Fall Items ausge-
schlossen wurden aufgrund einer großen Diskrepanz zwischen theoretisch ange-
nommener und empirischer Schwierigkeit. Diese Diskrepanz ließ sich dabei nicht
zufriedenstellend erklären. Es erschien daher auch nicht angebracht, das Kompe-
tenzkonstrukt auf Basis der Items zu modifizieren. Wenngleich es prinzipiell
denkbar wäre, die Fähigkeit, einen gesprochenen Rhythmus zu notieren, als eine
Facette in das Kompetenzmodell (auf einem hohen Kompetenzniveau) zu integ-
rieren, so wäre dies jedoch aus fachdidaktischer Sicht nicht sinnvoll; denn ein mu-
sikalisch kompetenter Schüler ist schließlich nicht dadurch gekennzeichnet, dass
er gesprochene Sätze als Rhythmen notieren kann. Diese Art der Aufgabenkon-
struktion war vielmehr als Hilfestellung für leistungsschwache Schüler konzipiert,
was aber offensichtlich in dieser Form nicht zum gewünschten Ergebnis geführt
hat.
145
Analyse 2 – theoretische vs. empirische Itemschwierigkeit II
Dem Entwurf der dritten Dimension des Kompetenzmodells („Umgang mit Nota-
tion“; vgl. 4.1) lag die Hypothese zugrunde, dass es einen Unterschied zwischen
dem Umgang mit grafischer Notation und (traditioneller) metrischer Notation in
einem schwierigkeitsrelevanten Sinne geben könnte. Wie es auch häufig in Schul-
büchern oder Curricula anzutreffen ist, so wurde der Umgang mit (intuitiver) gra-
fischer Notation als basales Niveau ausgewiesen, wohingegen metrische Notation
erst auf den folgenden Niveaus hinzutritt. Dies erscheint zunächst plausibel, denn
die in schulischen Zusammenhängen (6. Klasse) verwendete grafische Notation ist
in der Regel stark vereinfachend, sodass z. B. ein grobes Mitverfolgen von Melo-
dieverläufen oder Erkennen salienter Ereignisse genügt. Das hierbei geforderte
Wissen beschränkt sich somit meist darauf, dass ein zeitlicher musikalischer Ver-
lauf horizontal dargestellt werden kann, während die Tonhöhenorganisation (me-
lodischer Verlauf) vertikal erfolgt. Grundsätzlich ist dieses basale Wissen auch in
Bezug auf das Lesen von metrischer Notation notwendig. Zusätzlich wird hier a-
ber noch eine Reihe von weiteren Kenntnissen benötigt (z. B. Wissen in Bezug
auf rhythmische Notenwerte, Intervallstrukturen, Versetzungszeichen, Pausen-
symbole, Dynamikzeichen, Taktkennzeichnung etc.), aufgrund derer von einer er-
höhten Schwierigkeit auszugehen ist.148
Vor diesem Hintergrund wurden mehrere Items entwickelt, zu deren Lösung ent-
weder grafische oder metrische Notationen zu verschiedenen Musikstücken zuge-
ordnet werden müssen. Ein gewisser Teil der Itemanalysen stützt durchaus die
Hypothese, dass der Umgang mit grafischer Notation grundsätzlich relativ einfach
ist und vor allem einfacher als der Umgang mit metrischer Notation (vgl. hierzu
auch die Analysen in Abschnitt 7.1). Eine Reihe von Items wirft jedoch Fragen
auf, die im Folgenden diskutiert werden sollen.
Abb. 33 zeigt zunächst ein Item zur Erfassung des Umgangs mit grafischer Nota-
tion, das gemäß den Erwartungen eine relativ niedrige Itemschwierigkeit aufweist.
148 Interessant sind in diesem Zusammenhang auch musikpsychologische Forschungsergebnisse, die zeigen, dass die Fähigkeit des Notenlesens aufgrund der spezifischen Anforderungen nur über formelle Bildung erlangt werden kann (z. B. Upitis, 1987).
146
Abb. 33: Item D3-1b (Testheft D3)
Das dazugehörige Hörbeispiel wird von einer Klarinette gespielt und enthält einen
kurzen Ausschnitt aus einer C-Dur Tonleiter (erst fünf Achtel aufwärts und dann
zwei Achtel abwärts: c, d, e, f, g, f, e; die richtige Antwortalternative ist somit das
zweite Bild von oben). Die Auswertung zeigt, dass der Großteil der Schüler
(75 %) die Aufgabenstellung bewältigt und die Itemschwierigkeit entsprechend
niedrig ausfällt (� = -1.32).
In Abb. 34 ist Item D3-1c dargestellt. Die Aufgabenstellung besteht auch hier dar-
in, aus den vier Grafiken diejenige auszuwählen, die das Hörbeispiel am besten il-
lustriert. Als Hörbeispiel dient ein kurzes Intro eines Jazz-Klaviertrios (Klavier,
Kontrabass und Schlagzeug). Die richtige Antwortalternative (oberste Grafik)
wird von 55.78 % der Schüler gewählt; die Itemschwierigkeit liegt mit � = -0.44
im mittleren Bereich, also deutlich schwieriger als eigentlich angenommen. Wie
ist dies zu erklären?
Betrachtet man die Grafiken genauer, so zeigt sich zunächst, dass auch hier relativ
einfache und klar voneinander zu unterscheidende Symbole gewählt wurden
(Punkte, Striche und Linien). Durch die Kombination der Symbole und deren Va-
riation entsteht jedoch ein erhöhter Komplexitätsgrad. Auch der Vergleich der
Antwortalternativen deutet auf einen erhöhten Schwierigkeitsgrad hin, denn jedes
Symbol taucht (in ähnlicher Form) in mindestens zwei Grafiken auf; d. h. es ge-
nügt für die Aufgabenlösung nicht, wenn ein Element einer Grafik richtig zu dem
Hörbeispiel zugeordnet wird, es muss auch die Kombination der Elemente be-
147
stimmt werden. Es ist offensichtlich, dass – im Gegensatz zum ersten Item – hier
höhere Anforderungen an den Umgang mit grafischer Notation gestellt werden.
Abb. 34: Item D3-1c (Testheft D3)
Darüber hinaus sind es aber auch die Wahrnehmungsanforderungen, die vermut-
lich entscheidend für die erhöhte Itemschwierigkeit verantwortlich sind. Während
des kurzen Intros spielt das Klavier jeweils drei aufsteigende Akkorde (grafisch
dargestellt als Punkte), auf einem Ride-Becken wird ein Swing-Rhythmus gespielt
(unterbrochene Linie in der Mitte), ein Kontrabass spielt eine zirkulierende Be-
gleitfigur (gewellte Linie unten). Die Diskrimination der gleichzeitig spielenden
Instrumente, und dabei die Wahrnehmung der charakteristischen rhythmischen
und/oder melodischen Spielart der einzelnen Instrumente, stellt im Vergleich zu
Item D3-1b eine deutlich erhöhte Anforderung an die Wahrnehmung dar.
Welche Schlussfolgerungen sind aus diesen Überlegungen zu ziehen? (1) Es
scheint zu undifferenziert, hinsichtlich des Umgangs mit grafischer Notation ge-
nerell von basalen Anforderungen auszugehen. Die beiden Beispiele zeigen, dass
auch unter Verwendung nur weniger und einfacher grafischer Symbole ein erheb-
licher Unterschied hinsichtlich der grafischen Komplexität entstehen kann.
148
(2) Darüber hinaus sind die Anforderungen an die Hörwahrnehmung zu berück-
sichtigen, denn die Schwierigkeit eines Items ergibt sich aus einer Kombination
der verschiedenen durch die Aufgabenstellung geforderten Anforderungen. (3)
Vor diesem Hintergrund stellt sich die Frage, ob die im theoretischen Kompe-
tenzmodell formulierte Niveaustruktur der dritten Dimension einer Überarbeitung
bedarf.149 Denn die Abgrenzung der beiden unteren Niveaus aufgrund von grafi-
scher und traditioneller Notation erscheint in zweierlei Hinsicht nicht zwingend:
Wie gezeigt wurde, können einerseits Items zur Erfassung des Umgangs mit grafi-
scher Notation durchaus auch mittlere Schwierigkeiten aufweisen; andererseits
liegt eine Reihe von Items mit metrischer Notation vor, deren Itemschwierigkeit
sehr niedrig ist.150 Eine rein inhaltlich orientierte Formulierung der Niveaustruktur
scheint also keine adäquate Beschreibung der Kompetenzdimension zu sein. Die
hier dargestellten Analyseergebnisse wurden daher im Rahmen des KoMus-
Projekts zum Anlass genommen, die betreffende Dimension zu revidieren. Hier-
bei wurden sowohl die Anforderungen an die Hörwahrnehmung berücksichtigt als
auch der Komplexitätsgrad einer Notation, jedoch unabhängig von der Notations-
art (grafisch/metrisch).151
Analyse 3 – Interpretationsprobleme bei komplexen Aufgaben
Auch die folgende Analyse nimmt zunächst ihren Ausgangspunkt bei dem Ab-
gleich der theoretisch angenommenen mit der empirisch gemessenen Itemschwie-
rigkeit. Hintergrund der Überlegungen zu dem in Abb. 35 dargestellten Item war
es, basale Wahrnehmungsanforderungen (unterstes Niveau der ersten Modelldi-
mension; vgl. 4.1) innerhalb eines etwas komplexeren Kontexts zu erfassen. Im
Zentrum der Aufgabenstellung steht dabei die Diskrimination von verschiedenen
149 Alternativ könnten auch die Items, die gegen die im Modell formulierten Annahmen ‚versto-ßen’, eliminiert und lediglich diejenigen selektiert werden, die die vorhandene Niveaustruktur stützen. Dies erscheint jedoch nicht sinnvoll, da – wie gezeigt werden konnte – genauere inhaltli-che Analysen durchaus plausible Erklärungen der Diskrepanz von angenommenen und empiri-schen Itemschwierigkeiten ergeben. Vor diesem Hintergrund scheint es angezeigt, die Modellan-nahmen zu überprüfen. 150 Die höchste Itemschwierigkeit eines Items mit grafischer Notation liegt bei � = 0.13 (Item D3-3, Testheft 6; vgl. Anhang A, Tab. 61). Die niedrigste Itemschwierigkeit eines Items mit metri-scher Notation liegt bei � = -1.58 (Item D3-7g, Testheft 2; vgl. Anhang A, Tab. 57). Entsprechen-de Items sind auch in den Analysen in Abschnitt 7.1 dargestellt. 151 Genauere Angaben zu den Modellmodifikationen bzw. der letztendlichen Struktur der betref-fenden Dimension können an dieser Stelle aus publikationsrechtlichen Gründen nicht erfolgen; vgl. hierzu die in Kürze zur Veröffentlichung vorgesehenen Projektergebnisse (u. a. Jordan et al., i. Vorb.).
149
Dynamiken. Als Hörbeispiel dienen die ersten 16 Takte von Joseph Haydns „Sin-
fonie mit dem Paukenschlag“.
Abb. 35: Item D1-2a (Testheft D1)
Als vollständig richtige Lösung wird die im Original notierte Reihenfolge der Dy-
namiken gewertet (Takt 1: piano, Takt 9: pianissimo, Takt 16: fortissimo). Da es
jedoch primär um die Erfassung von relativen Dynamikunterschieden geht, wurde
im Zuge der Auswertung beschlossen, auch die Dynamikabfolge „mezzoforte, pi-
ano, fortissimo“ als richtige Lösung zu werten. Somit ergibt sich ein Anteil von
41.1 % der Schüler, die das Item lösen und eine Itemschwierigkeit von
� = -0.13. Die Itemschwierigkeit liegt folglich deutlich über der theoretisch ange-
nommenen.
Wenngleich im Rahmen der Aufgabenentwicklung unter den Beteiligten Einigkeit
herrschte, dass die durch die Aufgabe verlangte Wahrnehmungsleistung sehr basal
und einfach ist, so wäre es doch denkbar, dass dies eine nicht zutreffende Annah-
me ist. Die Gegenthese würde lauten, dass die Diskrimination von Dynamiken für
Schüler der sechsten Jahrgangsstufe sehr wohl eine anspruchsvolle Wahrneh-
mungsleistung darstellt. Um dies zu überprüfen, wurde die Aufgabe zusätzlich in
modifizierter Form gestellt. Abb. 36 zeigt das entsprechende Item, das das identi-
sche Hörbeispiel enthält, dieses Mal jedoch ausschließlich auf die Wahrneh-
150
mungsleistung fokussiert (richtige Antwort: „Die Musik fängt leise an, wird dann
in der Mitte noch etwas leiser und endet sehr laut.“).152
Abb. 36: Item D1-2b (Testheft D1)
In dieser abgeänderten Form wird die Aufgabenstellung von 77.16 % der Schüler
gelöst und es ergibt sich eine deutlich niedrigere Itemschwierigkeit von � = -1.28.
Daraus folgt für Item D1-2a der Schluss, dass die Wahrnehmungsanforderungen
tatsächlich eher auf einem basalen Niveau angesiedelt werden können und nicht
primär für die hohe Itemschwierigkeit verantwortlich sind.
Bei der Suche nach weiteren möglichen Ursachen für die unerwartet hohe
Schwierigkeit von Item D1-2a wird das hier zur Diskussion stehende Problem
deutlich: Je komplexer eine Aufgabenstellung konstruiert ist, desto schwieriger ist
es, die Komponenten oder Anforderungen einer Aufgabe zu identifizieren, die für
eine Lösung notwendig bzw. für eine fehlerhafte Bearbeitung verantwortlich sind.
Denkbar wäre z. B., dass sich einige Schüler nicht in der Partitur zurechtfinden.
Obwohl für die Aufgabenlösung die Partitur nicht im Detail mitgelesen werden
muss, so ist eine grobe Orientierung doch notwendig, um einen wahrgenommenen
Dynamikunterschied dem richtigen Kreis zuzuordnen. Eine weitere mögliche Ur-
sache könnte das verwendete Fachvokabular sein. Wenngleich die italienischen
Dynamik-Begriffe und deren Abkürzungen in einer kleinen Legende erklärt wer-
den, so dürften doch zumindest die Schüler im Vorteil sein, die den Umgang mit
den entsprechenden Termini gewöhnt sind. Nicht zuletzt der hohe Textanteil im
152 Die beiden Items D1-2a und 2b wurden im Rahmen eines sogenannten ‚Multi-Matrix-Designs’ auf unterschiedliche Testhefte verteilt, sodass die Schüler jeweils nur eine der beiden Aufgaben bearbeiten mussten (vgl. Jordan, Knigge & Lehmann-Wermser, 2010). Aufgrund der testtheoreti-schen Eigenschaften des Rasch-Modells ist eine gemeinsame Skalierung der Items trotzdem mög-lich (vgl. z. B. Baumert, Köller, Lehrke & Brockmann, 2000).
151
Itemstamm könnte ein Grund dafür sein, dass (vor allem leseschwächere) Schüler
die Aufgabe nicht korrekt bearbeiten. Vergleicht man die Aufgabe mit anderen
KoMus-Aufgaben, so wird darüber hinaus auch deutlich, dass das gesamte ‚De-
sign’ deutlich komplexer als das der meisten anderen Aufgaben ist: Die Aufgabe
besteht aus einem sehr langen Hörbeispiel (1:20 min mit Wiederholung), einem
längeren Einleitungs- und Erklärungstext, einer Legende, einer Partitur und einem
relativ ungewöhnlichen Antwortformat (Eintragung der Antwort in eine Partitur,
im Gegensatz zum meist notwendigen Ankreuzen einer Antwortalternative).
Es muss an dieser Stelle offen bleiben, welche Aufgabencharakteristika in wel-
chem Ausmaß tatsächlich für die empirisch gemessene Itemschwierigkeit verant-
wortlich sind. Eindeutig kann lediglich festgehalten werden, dass über die Wahr-
nehmungsanforderungen hinaus auch noch weitere Anforderungen von Relevanz
sind. Es stellt sich daher die Frage, wie mit solch komplexen Aufgaben umzuge-
hen ist:
(1) Aus fehlerdiagnostischer Sicht werden entsprechende Aufgabenstellungen –
zumindest beim Einsatz mit größeren Stichproben – immer unbefriedigend blei-
ben. Denn es lässt sich aus den resultierenden Daten nicht darauf schließen, wel-
che Kompetenzdefizite letztlich für eine fehlerhafte Aufgabenbearbeitung verant-
wortlich waren. Für fehlerdiagnostische Zwecke – insbesondere auf Individual-
ebene – sind komplexere Testaufgaben daher in der Regel ungeeignet (vgl. hierzu
auch Fußnote 173).
(2) Aber auch in Bezug auf die Testpersonen, die eine entsprechende Aufgabe lö-
sen, erscheint eine Verwendung problematisch. Der Anspruch eines kriteriumsori-
entierten Kompetenztests ist es, die Kompetenzen der Schüler möglichst genau zu
bestimmen auf Basis der Aufgaben, die diese bearbeitet haben. Wenn nun aber bei
einer Aufgabe unklar ist, welche Teilkompetenzen für ihre Bearbeitung notwendig
sind, so kann auch eine Beschreibung der Kompetenzen der Testpersonen nur un-
genau ausfallen.
(3) In Bezug auf die Verwendung der hier exemplarisch diskutierten Aufgabe im
Rahmen des KoMus-Projekts stellt sich ein weiteres Problem: Wo kann die Auf-
gabe im Kompetenzmodell verortet werden? Oder anders formuliert: Welche Fa-
cetten des Modells werden durch die Aufgabe operationalisiert? Auch hier fällt
152
eine Zuordnung (über die eindeutig notwendigen Wahrnehmungsleistungen hin-
aus) schwer.
Vor diesem Hintergrund ist es verständlich, dass viele (vor allem der älteren) Lei-
stungstests Items verwenden, die eine eindeutige Interpretation der Testergebnisse
zulassen, daher aber meist auch nur relativ eng umrissene Teilfähigkeiten erfassen
und keine komplexeren Zusammenhänge einbeziehen. Es ist aber gerade Kernbe-
standteil des Kompetenzkonzepts, dass Kompetenzen in möglichst kontextspezifi-
schen Anwendungssituationen erfasst werden sollen. In diesem Zusammenhang
sind folglich komplexere Aufgabenstellungen nicht nur nicht zu vermeiden, sie
sind geradezu notwendig und erwünscht.
Um diesem Problem zu begegnen, wurden in der Vergangenheit große Fortschrit-
te auf dem Gebiet der Testtheorie und Testmethodik erzielt. Zu nennen sind hier-
bei z. B. sogenannte ‚multidimensionale Testmodelle’ und insbesondere ‚Bet-
ween-Item-’ bzw. ‚Within-Item-Modelle’ (z. B. Hartig & Höhler, 2008; Wu et al.,
2007, S. 91 ff.). Stark vereinfacht ausgedrückt geht es dabei darum, die auf Auf-
gabenebene vorhandene (oder zumindest vermutete) Mehrdimensionalität im Rah-
men von Skalierungsverfahren zu berücksichtigen. So können z. B. die für die
Bearbeitung der Testaufgaben notwendigen Teilkompetenzen als separate latente
Dimensionen modelliert werden. Diese statistischen Verfahren sind jedoch nur
sinnvoll anwendbar, wenn ein möglichst genaues Verständnis der Aufgabencha-
rakteristika vorliegt, die in Bezug auf die entsprechenden Teilkompetenzen von
Relevanz sind. In diesem Zusammenhang ist die Identifikation von sogenannten
‚schwierigkeitsgenerierenden Aufgabenmerkmalen’ von zentraler Bedeutung.
Diese hier nur angedeutete Thematik steht im Zentrum des folgenden Kapitels,
innerhalb dem der Versuch unternommen wird, möglichst detailliert die schwie-
rigkeitsgenerierenden Aufgabenmerkmale der KoMus-Items zu beschreiben, diese
zu systematisieren und zu validieren.
153
7 Weiterführende Itemanalysen: Identifikation schwierigkeits-
generierender Aufgabenmerkmale
Im Erkenntnisinteresse vorliegender Arbeit steht neben der empirisch validen und
psychometrisch abgesicherten Entwicklung von Testaufgaben auch die genauere
Erforschung der Aufgabencharakteristika und des Kompetenzkonstrukts (‚Musik
wahrnehmen und kontextualisieren’). Hierfür können vor allem die Ergebnisse der
Schwierigkeitsanalysen (5.2.1 und 6.1) genutzt werden, was in den folgenden Ab-
schnitten exemplarisch an zwei Kompetenzfacetten verdeutlicht wird: Rhythmus-
und Formwahrnehmung (7.1-7.2). Ziel ist jeweils die Identifikation sogenannter
‚schwierigkeitsgenerierender Aufgabenmerkmale’ mittels vertiefender und ver-
gleichender Itemanalysen.
Als ‚schwierigkeitsgenerierende Aufgabenmerkmale’153 werden die Eigenschaften
einer Testaufgabe bezeichnet, „die mit höheren oder niedrigeren Anforderungen
an die getesteten Personen einhergehen und damit die Lösungswahrscheinlichkei-
ten der Aufgaben beeinflussen“ (Hartig & Jude, 2007, S. 31). Bei der Beschrei-
bung solcher Aufgabenmerkmale geht es folglich darum, die Charakteristika eines
Items zu identifizieren, die in Bezug auf die Itemschwierigkeit relevant sind.
Warum ist die Identifikation solcher Charakteristika von Interesse? In Abschnitt
2.1.2 wurde ausführlich auf den Kompetenzbegriff eingegangen. Wichtiger Be-
standteil des Kompetenzkonstrukts – vor allem in Abgrenzung zu anderen Leis-
tungskonstrukten der pädagogisch-psychologischen Diagnostik (z. B. Intelligenz)
– ist die Kontextspezifität (z. B. Hartig, 2008b; Hartig & Klieme, 2006). Aus die-
ser Spezifität lässt sich das grundlegende Erkenntnisinteresse an den Charakteris-
tika einer Situation respektive einer Testaufgabe, in der sich kompetentes Handeln
manifestiert, ableiten. Besonderes Augenmerk liegt dabei auf den Eigenschaften
einer Situation, die das kompetente Handeln erleichtern oder erschweren. Denn
erst das
„Wissen über situative Charakteristika, die erfolgreiches Handeln mitbestimmen, er-möglicht ein tieferes Verständnis der Prozesse, die dem erfolgreichen Handeln zugrunde liegen, und damit ein besseres Verständnis des interessierenden Kompetenz-konstrukts. Im Kontext der Testentwicklung ist die Beschreibung relevanter Situati-onsmerkmale in eine Beschreibung der zur Erfassung eines Kompetenzkonstrukts ein-
153 In der Literatur sind auch die Bezeichnungen ‚schwierigkeitsbestimmende’ oder ‚anforderungs-relevante’ Aufgabenmerkmale anzutreffen, die inhaltlich jedoch äquivalent verwendet werden.
154
gesetzten Aufgaben zu übertragen; die Aufgaben werden hinsichtlich schwierigkeits-bestimmender Merkmale beschrieben.“ (Hartig & Jude, 2007, S. 31)
Über die Möglichkeit hinaus, mittels schwierigkeitsgenerierender Aufgaben-
merkmale ein genaueres Verständnis des durch die Aufgaben erfassten Kompe-
tenzkonstrukts zu erlangen, gibt es noch weitere Gründe, die der Thematik im
Kontext der Testkonstruktion zunehmend Bedeutung zukommen lassen:
(1) Schwierigkeitsgenerierende Aufgabenmerkmale können für die Festlegung
von Kompetenzniveaus verwendet werden (z. B. Hartig, 2007). Lassen sich unter-
schiedliche Itemschwierigkeiten empirisch durch ein bestimmtes Set an Aufga-
benmerkmalen erklären, so können mittels der betreffenden Merkmale die ver-
schiedenen Niveaus eines Kompetenzkonstrukts beschrieben werden. Diese Ni-
veaudefinitionen sind dann empirisch fundiert und gleichzeitig über die konkret
eingesetzten Testaufgaben hinaus generalisierbar (Hartig & Jude, 2007).
(2) Aus testtheoretischer Sicht kann die Vorhersage von Aufgabenschwierigkeiten
durch Aufgabenmerkmale als eine Prüfung der Validität des Messinstrumentes be-
trachtet werden (Borsboom, Mellenbergh & van Heerden, 2004; Hartig, 2007;
Hartig & Jude, 2007).
(3) Sofern empirisch validierte Aufgabenmerkmale vorliegen, können diese für
die Konstruktion neuer Aufgaben verwendet werden (Nold & Rossa, 2007). Es ist
dann möglich, für die zu entwickelnden Aufgaben spezifische ‚Anforderungspro-
file’ zu erstellen, die aus verschiedenen Kombinationen und Ausprägungen der
Aufgabenmerkmale bestehen. Eine in diesem Sinne modellgeleitete Aufgaben-
konstruktion ermöglicht die A-priori-Bestimmung, welche Aufgaben leichter oder
schwerer sein sollten und worauf diese Unterschiede zurückzuführen sind. Aufga-
ben können dementsprechend explizit für ein bestimmtes Kompetenzprofil bzw.
Kompetenzniveau entwickelt werden.
Konkret können sich schwierigkeitsgenerierende Aufgabenmerkmale auf eher
technische Oberflächencharakteristika, auf Eigenschaften des Aufgabenmaterials,
vor allem aber auf die verschiedenen theoretisch angenommenen kognitiven Pro-
zesse beim Lösen der Aufgaben beziehen (Hartig & Klieme, 2006, S. 136). Ober-
flächencharakteristika und Eigenschaften des Aufgabenmaterials sind z. B. das I-
tem-Format (gebunden vs. frei), die Art des Aufgabenstamms (z. B. Bildstimulus
vs. Hörstimulus) oder die Beschaffenheit des Itemstamms (z. B. langer vs. kurzer
Fragesatz). Der Einfluss dieser Merkmalsbereiche konnte u. a. im Rahmen von
155
Studien zur Erhebung sprachlicher und mathematisch-naturwissenschaftlicher
Kompetenzen mehrfach nachgewiesen werden (z. B. Beck & Klieme, 2007; Co-
hors-Fresenborg, Sjuts & Sommer, 2004; Prenzel, Häußler, Rost & Senkbeil,
2002). Auch in Bezug auf musikalische Kompetenzen erscheint es naheliegend,
von einem Einfluss solch allgemeiner, nicht fachspezifischer Merkmale auszuge-
hen (vgl. 7.4), wenngleich hierzu bislang keine Studien vorliegen. Ebenfalls noch
keine musikspezifisch formulierten Aufgabenmerkmale gibt es in Bezug auf die
kognitiven Lösungsprozesse, die zur Bearbeitung einer Aufgabe nötig sind. Eine
Übertragung von Forschungsergebnissen anderer Fachdidaktiken erscheint dies-
bezüglich nur schwer möglich. Hartig & Klieme (2006) geben einige Beispiele für
schwierigkeitsgenerierende Merkmale auf dem Gebiet sprachlicher Kompetenz:
„Beispiele für mögliche Bereiche, in denen Merkmale kodiert werden können, sind zum Lösen der Aufgabe auszuführende kognitive Operationen (z. B. Bilden eines mentalen Modells beim Lesen), Schwierigkeit hinsichtlich spezifischer Kriterien (z. B. Wortschatz eines Lesetextes), spezifische Phänomene im jeweiligen Leistungsbereich (z. B. Bilden von Konjunktiv-Formen) […].“ (S. 136)
Sehr ausführlich werden Aufgabenmerkmale und deren empirische Validierung
von Nold & Rossa (2007) für den Bereich Hörverstehen im Fach Englisch be-
schrieben.154 Auch wenn die konkreten Merkmale nicht für die Hörwahrnehmung
im Fach Musik adaptiert werden können, so erscheint doch der grundsätzliche me-
thodologische Ansatz interessant, Determinanten der Schwierigkeit von Hörver-
stehensaufgaben „auf die Aufgabe, den Text und die Interaktion zwischen Aufga-
be und Text zu beziehen“ (Nold & Rossa, 2007, S. 184). Es werden hier also die
Merkmale systematisiert in Bezug auf die technischen Oberflächencharakteristika
einer Aufgabe, die Eigenschaften des zu verstehenden Textes und die kognitiven
Prozesse, die für die Aufgabenlösung notwendig sind. Prenzel et al. (2002) neh-
men eine ähnliche Systematisierung der Aufgabenmerkmale vor und unterschei-
den „formale Aufgabenmerkmale, kognitive Anforderungen beim Lösen der Auf-
gaben und Merkmale der für das Lösen der Aufgaben erforderlichen Wissensba-
sis“ (S. 125). Beide Ansätze können fruchtbar gemacht werden für vorliegende
Arbeit, da auch in Bezug auf die KoMus-Items von mehreren und teilweise ähnli-
chen Merkmalsebenen auszugehen ist (vgl. 7.5).
154 Für die Mathematikdidaktik vgl. z. B. Neubrand, Klieme, Lüdtke & Neubrand, 2002 und die entsprechenden Beiträge in Neubrand, 2004; für die Naturwissenschaften z. B. Prenzel, Häußler, Rost & Senkbeil, 2002. Für den Kompetenzbereich ‚Sprache und Sprachgebrauch’ im Fach Deutsch wurden Aufgabenmerkmale von Isaac, Eichler & Hosenfeld (2008) untersucht.
156
In den folgenden Abschnitten wird der Versuch unternommen, schwierigkeitsge-
nerierende Aufgabenmerkmale zu identifizieren, die sich auf die Aufgabe, das
Hörbeispiel, (sofern vorhanden) den Notentext, die Wahrnehmungsanforderungen
und die für die Aufgabenlösung notwendige Wissensbasis beziehen. Der Schwer-
punkt wird hierbei zunächst auf den letztgenannten Merkmalsebenen (‚Hörbei-
spiel/Notentext’, ‚Wahrnehmungsanforderungen’ und ‚Wissensbasis’) liegen, da
hier besonders von musikspezifischen und die Hörwahrnehmung betreffenden
Merkmalen auszugehen ist (Abschnitte 7.1-7.3). Die Merkmalsebene ‚Aufgabe’
(u. a. technische Oberflächencharakteristika, sprachliche Anforderungen), die un-
abhängig von einzelnen Kompetenzfacetten auf übergeordneter Ebene zu untersu-
chen ist, wird anschließend in Abschnitt 7.4 behandelt.
Wie können nun konkret schwierigkeitsgenerierende Merkmale von Testaufgaben
identifiziert und beschrieben werden? Notwendig ist dazu eine differenzierte Vor-
stellung der Prozesse, die beim Bearbeiten und Lösen der Aufgaben ablaufen
(Hartig & Klieme, 2006, S. 136). Im Idealfall liegen hierfür theoretische Annah-
men vor, die eine systematische Einschätzung der Aufgabenschwierigkeiten und
der dafür verantwortlichen Aufgabenmerkmale vor der Durchführung eines Tests
erlauben. Geleitet von den theoretischen Annahmen können verschiedene Merk-
male voneinander abgegrenzt und zu jedem Merkmal Deskriptoren der Ausprä-
gungsstufen formuliert werden (z. B. Nold & Rossa, 2007). Mittels dieser De-
skriptoren werden anschließend alle Aufgaben hinsichtlich ihrer Merkmale einge-
schätzt und kodiert. Auf Basis der Testdaten kann abschließend der postulierte
Einfluss der Aufgabenmerkmale auf die Aufgabenschwierigkeiten empirisch z. B.
mittels Regressionsanalysen überprüft werden (z. B. Hartig, 2004; Rauch & Har-
tig, 2007). Der große Vorteil dieses streng theoriegeleiteten Vorgehens ist die
Möglichkeit, die so empirisch validierten Aufgabenmerkmale über die konkreten
Aufgaben hinaus generalisieren zu können (Hartig & Jude, 2007).
Für das Fach Musik sind solch differenzierte theoretische Vorstellungen, die es er-
lauben würden Aufgabenmerkmale a priori – also vor Bearbeitung der Aufgaben
durch die Schüler – zu bestimmen, jedoch nur in sehr begrenztem Umfang vor-
handen (vgl. 4.2). Daher wurde für vorliegende Arbeit ein kombiniertes methodi-
sches Vorgehen gewählt:
(1) Aufgaben zur Operationalisierung von Facetten des Kompetenzmodells, zu
denen theoretische Annahmen auf Basis von Forschungsergebnissen vorliegen
157
(vgl. 4.2.2), wurden a priori hinsichtlich möglicher schwierigkeitsgenerierender
Merkmale eingeschätzt.
(2) Für alle weiteren Aufgaben wurde ebenfalls versucht, Merkmale schon wäh-
rend der Aufgabenentwicklung zu beschreiben. Hierzu wurde jeder Aufgabenent-
wurf mit einer Beschreibung der vermuteten Merkmale und einem antizipierten
Schwierigkeitsniveau versehen (vgl. 4.3). Diese Beschreibungen haben somit –
ebenso wie die theoriegeleiteten Merkmale (Punkt 1) – den Status von Hypothe-
sen, die im Rahmen der im Folgenden dargestellten Analysen zu überprüfen sind.
(3) Die A-priori-Beschreibung von hypothetischen Merkmalen gelang bei vielen
Aufgaben jedoch nur unzureichend. Im Rahmen der Sitzungen des Entwicklungs-
teams wurde immer wieder deutlich, wie wenig sowohl aufseiten der Schulprakti-
ker als auch der Fachdidaktiker darüber bekannt ist, welche Prozesse beim Bear-
beiten und Lösen von Aufgaben ablaufen. Diese Aufgaben, für die keine schwie-
rigkeitsgenerierenden Merkmale sinnvoll während der Aufgabenkonstruktion be-
schrieben werden konnten, werden trotzdem in die folgenden Analysen einbezo-
gen. Ziel ist hierbei die explorative Bestimmung von Merkmalen mittels Post-
Hoc-Analysen. Bei diesen Analysen werden die Aufgaben auf Basis der Testbear-
beitung durch die Schüler und die dadurch ermittelten empirischen Aufgaben-
schwierigkeiten betrachtet. Auf dieser Grundlage können Aufgaben mit verschie-
dener Schwierigkeit verglichen und hinsichtlich der sie unterscheidenden Merk-
male oder Merkmalsausprägungen analysiert werden.
Die im Folgenden dargestellten Analysen beziehen sich auf alle drei genannten
Punkte. Es werden also einerseits Hypothesen in Bezug auf schwierigkeitsgenerie-
rende Aufgabenmerkmale mit den empirischen Daten abgeglichen, andererseits
wird durch Post-Hoc-Analysen versucht, entsprechende Merkmale explorativ zu
identifizieren.
7.1 Vertiefende Analysen der Items zur Rhythmuswahrnehmung
In den meisten Curricula spielt die Rhythmuswahrnehmung eine wichtige Rolle.
Schüler sollen sich u. a. Rhythmen merken können, diese wiedererkennen, aus
motivischem Material Rhythmen extrahieren oder Rhythmen einem Notenbild zu-
ordnen. Im Testkonstrukt wurde dementsprechend die Rhythmuswahrnehmung als
158
eine Facette der Wahrnehmungskompetenz definiert und anschließend operationa-
lisiert (vgl. 4.2.1).
Auf den ersten Blick handelt es sich bei den folgenden Aufgaben um eher weniger
komplexe Items, die in ähnlicher Form auch in musikpsychologischen Testin-
strumenten zu finden sind. Die Items erfassen die rhythmische Wahrnehmung
teilweise recht isoliert und kontextfern. In diesem Sinne sind sie nicht repräsenta-
tiv für den gesamten Item-Pool. Trotzdem eignen sich gerade diese Items für die
folgenden Analysen, da sich hier besonders gut einzelne Merkmale identifizieren
lassen, die für die Schwierigkeit der Items verantwortlich sind.
Zur Operationalisierung der Modellfacette wurden über mehrere Pretests verteilt
17 Items entwickelt. Eine Auswahl der Items ist mit Schwierigkeitsindizes und I-
temparameter in Tab. 26 abgebildet. Die Tabelle zeigt, dass die Items recht
gleichmäßig über nahezu das ganze Schwierigkeitsspektrum verteilt sind.
Tab. 26: Auswahl der Items zur Rhythmuswahrnehmung
Item-ID TH NR (%) PZK �
D3-7e D3155 17.20 - 1.41
D1-14b 3 44.08 25.44 1.19
D1-14a-3 3 59.87 46.49 0.45
D3-7c D3 36.05 14.73 0.43
D3-7d D3 35.48 - 0.37
D3-7f 2 60.26 47.01 0.21
D1-14a-2 2 65.38 53.85 -0.17
D3-7a 2 79.49 72.65 -0.93
D3-7a D3 77.24 69.65 -1.45
D3-7g 2 87.18 82.91 -1.58
D3-7b D3 83.67 78.23 -1.93
D1-14a-1 2 93.59 91.45 -2.43
Es drängt sich die Frage auf, worin diese große Varianz der Itemschwierigkeiten
begründet ist; oder einfacher formuliert: Was unterscheidet die schwierigeren von
den leichteren Items? Zur Beantwortung dieser Frage werden die Items zunächst
in zwei Analysegruppen geteilt:
(A) Items, die das Memorieren (Stichwort: musikalisches Gedächtnis) und Wie-
dererkennen eines Rhythmus in verschiedenen Zusammenhängen erfassen;
155 Zur Verwendung von Daten aus der Pilotierungsstudie vgl. Fußnote 140.
159
(B) Items, die Rhythmuswahrnehmung in Zusammenhang mit Notationskennt-
nissen erfassen.
Gruppe A: Rhythmen memorieren und wiedererkennen
Die Items der ersten Gruppe sind alle nach demselben Prinzip konstruiert: Zuerst
wird ein eintaktiger Rhythmus vorgespielt (Aufgabenstamm), den sich die Schüler
merken müssen. Nach einer kurzen Pause erklingen vier weitere Rhythmen (Ant-
wortalternativen), wobei einer davon dem Rhythmus des Aufgabenstamms ent-
spricht. Es geht also darum, einen Rhythmus zu memorieren und später wiederzu-
erkennen.
Analyse A.1: Merkmal ‚musikalisches Gedächtnis’
Abb. 37: Items D1-14a-2 und D1-14a-1 (Testheft 2)
Abb. 37 zeigt die Items D1-14a-1 und D1-14a-2, die eine identische Aufgaben-
stellung und vor allem eine vergleichbare Komplexität des Rhythmus (vgl. Tab.
27) aufweisen. Die Items unterscheiden sich jedoch darin, dass bei Item 14a-1 der
wiederzuerkennende Rhythmus an Position Zwei, bei Item 14a-2 jedoch erst an
Position Drei erklingt.
Im Rahmen der Aufgabenentwicklung wurde die Hypothese aufgestellt, dass I-
tems umso schwerer zu lösen sind, je später der richtige Rhythmus erneut erklingt,
da dadurch erhöhte Anforderungen an das musikalische Gedächtnis gestellt wer-
den. Gemäß dieser Hypothese sollte Item 14a-2 schwieriger sein, denn hier ist der
richtige Rhythmus eine Position später platziert.
Die diesbezüglich vermuteten Aufgabenmerkmale können anhand der beiden I-
tems wie folgt beschrieben werden: Aufgrund der Veränderung der richtigen
Antwortalternative um eine Position nach hinten werden durch das Item 14a-2
160
zwei erhöhte Anforderungen an die kognitiven Prozesse der Aufgabenlösung ge-
stellt: 1. Der Rhythmus von Item 14a-2 muss länger im Gedächtnis behalten wer-
den; 2. Durch den zusätzlichen Distraktor (14a-2: Antwortalternative Zwei), der
zwischen dem ursprünglichen und dem wiederzuerkennenden Rhythmus liegt,
wird nicht nur die Zeitspanne länger, sondern auch die Informationsmenge, die
verarbeitet und abgeglichen werden muss, wird größer.
Tab. 27: Vergleich der Itemschwierigkeiten von Item D1-14a-1 und D1-14a-2 (Testheft 2)
TH 2 Kurzbeschreibung NR (%) PZK �
D1-14a-2 Rhythmus + 4 Rhythmen (Position 3: ) 65.38 53.9 -0.17
D1-14a-1 Rhythmus + 4 Rhythmen (Position 2: ) 93.59 91.45 -2.43
Tab. 27 zeigt die empirisch ermittelten Itemschwierigkeiten. Die Hypothese und
die darauf bezogenen Aufgabenmerkmale werden durch die Daten gestützt: 14a-2
ist deutlich schwerer als 14a-1.
An dieser Stelle wird auch deutlich, warum solch ‚de-kontextualisierte’ und rela-
tiv wenig komplexe Items gut für die Identifikation von schwierigkeitsgenerieren-
den Merkmalen geeignet sind: Alle Aufgabencharakteristika können konstant ge-
halten werden (MC-Format, Aufgabenformulierung, rhythmische Komplexität,
klangliche Komplexität), sodass es sehr plausibel erscheint, die Veränderung des
Schwierigkeitsgrades auf die variierten Charakteristika respektive die dadurch
veränderten Merkmalsanforderungen zurückzuführen.156 Trotzdem ist hiermit
selbstverständlich noch keinesfalls der statistische Nachweis erbracht, dass die
vermuteten Aufgabenmerkmale auch tatsächlich für den Schwierigkeitsunter-
schied verantwortlich sind. Ziel der Analysen ist es, die vermuteten Merkmale, die
keine direkte Theorieanbindung haben, einer ersten explorativen Konfrontation
mit den empirischen Daten zuzuführen. Sofern sie diesem Abgleich standhalten,
erscheint es sinnvoll, die Merkmale weiter auszudifferenzieren und auf andere I-
temanalysen zu übertragen. Sie behalten vorerst aber den Status von Hypothesen,
156 Gestützt werden die vermuteten Merkmale auch durch weitere Analysen, die hier jedoch aus Platzgründen nicht mehr im Detail dargestellt werden. Verwiesen sei auch auf die durchgeführten ‚cognitive labs’, in deren Rahmen das Item 14a-1 ebenfalls eingesetzt wurde. Die Interviewergeb-nisse bestätigen die vermuteten kognitiven Operationen und die hierfür relevante Positionierung des richtigen Rhythmus (vgl. zur ‚cognitive labs’-Methode den Ausblick in Kapitel 8; die Ergeb-nisse in Bezug auf Item 14a-1 sind ausführlich dargestellt bei Knigge, Niessen & Jordan, im Druck).
161
die erst in weiteren Analyseschritten statistisch verworfen oder akzeptiert werden
können (vgl. 7.5).
Analyse A.2: Merkmal ‚klangliche Komplexität’
Die folgenden Items sind grundsätzlich mit dem vorherigen Typus vergleichbar in
dem Sinne, dass wiederum ein zu memorierender Rhythmus später wiedererkannt
werden muss. Der Unterschied liegt jedoch im Grad der klanglichen Komplexität:
Während bei Item D1-14a-3 sowohl der Originalrhythmus als auch alle folgenden
Rhythmen mit dem gleichen Percussionsinstrument gespielt werden (identisch den
Items aus Analyse A.1), folgen bei D1-14b vier einstimmige Melodien157 auf den
Percussionsrhythmus.
Abb. 38: Items D1-14a-3 und D1-14b (Testheft 3)
Bezüglich der schwierigkeitsgenerierenden Merkmale wurde die Hypothese for-
muliert, dass mit steigendem Grad der klanglichen Komplexität, in der ein
Rhythmus identifiziert werden muss, auch die Itemschwierigkeit zunimmt.
Die dabei vermuteten zugrundeliegenden Anforderungscharakteristika können an-
hand der Items 14a-3 und 14b verdeutlicht werden. Zunächst handelt es sich bei
beiden Items um die gleichen Anforderungen: Ein Rhythmus muss memoriert und
abgeglichen werden. Zusätzlich muss bei Item 14b jedoch der zugrundeliegende,
in den Melodien gewissermaßen ‚versteckte’ Rhythmus extrahiert werden. Detail-
lierter betrachtet können in Bezug auf die Melodien bzw. den Rhythmus drei rele-
vante Parameter beschrieben werden: (1) Klangfarbe, (2) Tonhöhe und (3) rhyth-
mische Struktur. Während der dritte Parameter sowohl für den Ausgangsrhythmus
157 Es handelt sich hierbei jeweils um den ersten oder die ersten beiden Takte der folgenden Stü-cke: Thema aus der Symphonie mit dem Paukenschlag (Melodie 1), „Hänschen klein“ (Melo-die 2), „Alle meine Entchen“ (Melodie 3), „O du fröhliche“ (Melodie 4). Gespielt werden die Me-lodien jeweils von einer Klarinette (Synthesizer).
162
als auch die richtige Melodie (Antwortalternative 2) gleich ist, ist Parameter 1 va-
riiert (Percussionsinstrument vs. Klarinette) und Parameter 2 ausschließlich für
die Melodien relevant. Um die zum ursprünglichen Rhythmus passende Melodie
zu finden, muss der entscheidende, den Rhythmus und die Melodien verbindende
Parameter (3) isoliert werden.
Für die Lösung des Items bedarf es also mehrerer parallel ablaufender kognitiver
Prozesse: Memorieren des ursprünglichen Rhythmus, Isolierung des rhythmischen
Parameters der jeweiligen Melodie, Abgleich der rhythmischen Struktur der Me-
lodien mit dem Ausgangsrhythmus.
Tab. 28: Vergleich der Itemschwierigkeiten von Item D1-14a-3 und D1-14b (Testheft 3)
TH 3 Kurzbeschreibung NR (%) PZK �
D1-14b Rhythmus + 4 Melodien („Hänschen klein“, Pos. 2: ) 44.08 25.44 1.19
D1-14a-3 Rhythmus + 4 Rhythmen (Pos. 3: ) 59.87 46.49 0.45
Tab. 28 zeigt, dass der Schwierigkeitsgrad eines Items tatsächlich steigt, wenn ein
Rhythmus nicht in der gleichen Gestalt wiederkehrt, sondern klanglich verändert
(also: komplexer). Bei der Aufgabenentwicklung wurde ursprünglich davon aus-
gegangen, dass sich dieser Unterschied noch deutlicher auf die Itemschwierigkeit
auswirken würde. Dass dem nicht so ist, dürfte hauptsächlich darauf zurückzufüh-
ren sein, dass der richtige Rhythmus bei Item D1-14a-3 erst an Position Drei er-
klingt und nicht an Position Zwei wie bei D1-14b.158 Somit ist leider keine opti-
male Vergleichbarkeit gegeben. Die vorangegangene Analyse hat aber bereits den
großen Einfluss der Positionierung des richtigen Rhythmus gezeigt, sodass davon
ausgegangen werden kann, dass der Unterschied zwischen den Items noch deutli-
cher als bereits vorhanden ausgefallen wäre, sofern auch Item D1-14a-3 den rich-
tigen Rhythmus an Position Zwei gehabt hätte.
Analyse A.3: Merkmal ‚melodische Unterstützung’
Abb. 39 zeigt Item D1-14c, das eine Variation des aus der vorigen Analyse bereits
bekannten Items D1-14b darstellt (vgl. Abb. 38). Die Aufgabenstellung ist in
klanglicher Hinsicht quasi umgekehrt: Es erklingt dieses Mal zuerst eine Klarinet-
158 Man könnte auch sagen, dass die beiden Items eine unterschiedliche Ausprägung des Merkmals ‚musikalisches Gedächtnis’ haben (vgl. Analyse A.1).
163
ten-Melodie, deren Rhythmus dann mit den vier folgenden Percussionsrhythmen
abgeglichen werden muss.
Abb. 39: Item D1-14c (Testheft 3)
Zunächst wurde für Item 14c ebenfalls die Hypothese formuliert, dass die unter-
schiedliche Instrumentierung von Aufgabenstamm und Antwortalternativen zu ei-
ner erhöhten Itemschwierigkeit im Vergleich zu Items ohne das Merkmal ‚klang-
liche Komplexität’ führen würde.
Stellt man nun aber Item 14c ein Item ohne klangliche Komplexität gegenüber, so
kann diese Hypothese nicht aufrecht erhalten werden.
Tab. 29 zeigt, dass die Itemschwierigkeiten von 14c und 14a-3159 annähernd
gleich sind. Dieser Befund ist umso erstaunlicher, wenn man berücksichtigt, dass
der Rhythmus von 14c komplexer (Punktierung) und zweitaktig, also deutlich
länger ist. Es lassen sich somit mindestens drei Merkmale beschreiben, die für 14c
im Vergleich zu 14a-3 erhöhte Anforderungen aufweisen: (1) musikalisches Ge-
dächtnis (größere Informationsmenge durch längeren Rhythmus), (2) rhythmische
Komplexität und (3) klangliche Komplexität. Angesichts dieser unterschiedlichen
Merkmalsausprägungen wäre zu erwarten gewesen, dass Item 14c deutlich schwe-
rer ist.
159 Item 14a-3 ist in Abb. 38 der vorangegangenen Analyse dargestellt.
164
g f f e d g
Tab. 29: Vergleich der Itemschwierigkeiten von Item D1-14a, D1-14b und D1-14c (Testheft 3)
TH 3 Kurzbeschreibung NR (%) PZK �
D1-14b Rhythmus + 4 Melodien („Hänschen klein“, Pos. 2: ) 44.08 25.44 1.19
D1-14c Melodie + 4 Rhythmen (Pos. 3: ) 58.55 44.73 0.51
D1-14a-3 Rhythmus + 4 Rhythmen (Pos. 3: ) 59.87 46.49 0.45
Wie kann die nicht vorhandene Schwierigkeitsdifferenz an dieser Stelle erklärt
werden? Während bei der vorangegangenen Analyse (A.2) die klangliche Kom-
plexität offensichtlich einen Einfluss auf die Itemschwierigkeit hatte (vgl. Tab.
28), scheint sich die Umkehrung der Aufgabenstellung auch in veränderter Form
auf die Schwierigkeit auszuwirken. Eine mögliche Interpretation ist die, dass die
unterschiedliche klangliche Realisation von Aufgabenstamm und Antwortalterna-
tiven in vorliegendem Fall der Itemschwierigkeit entgegenwirkt. Der zu memorie-
rende Rhythmus wird in Form einer Melodie dargeboten, was als eine Art ‚Merk-
hilfe’ betrachtet werden kann. Dies entspricht auch dem in vielen didaktischen
Konzeptionen verwendeten Vorgehen, Rhythmen mittels kleiner Memorierhilfen
(Silbenkombinationen, Merksätze oder eben kleine Melodieausschnitte) einzu-
üben. Dahinter steht die Erfahrung, dass ein abstrakter Rhythmus besser in Erin-
nerung behalten werden kann, wenn er z. B. verbal oder melodisch in seiner
Struktur betont und dadurch unterstützt wird. Ein die Erinnerung unterstützender
Effekt ist besonders dann zu erwarten, wenn die Melodie einprägsam ist und
gleichzeitig mit der Gliederung des Rhythmus korrespondiert; beides ist für Item
14c gegeben (vgl. Tab. 29).
Dass sich die unterstützende Funktion von Melodien in der vorangegangenen
Analyse A.2 nicht zeigte, ist einfach zu erklären. Dort mussten die Melodien nicht
memoriert, sondern in sehr kurzer Zeit mit einem im Kurzzeitgedächtnis abge-
speicherten Rhythmus abgeglichen werden. Als Memorierhilfe kamen die Melo-
dien hier also gar nicht zum Tragen. Vermutlich trägt die Einprägsamkeit einer
Melodie stattdessen vielmehr noch zur Schwierigkeitssteigerung bei, da die Melo-
dien dadurch als noch stärkere Distraktoren fungieren im Vergleich zu Antwortal-
ternativen, die lediglich als ‚normaler’ Percussionsrhythmus erklingen. Der in
Tab. 29 abgebildete Vergleich von Item 14b und 14c bestätigt diese Überlegun-
165
gen. Dabei muss erneut darauf hingewiesen werden, dass 14c auch im Vergleich
zu 14b den komplexeren und längeren Rhythmus enthält. Darüber hinaus erklingt
der richtige Rhythmus bei Item 14c erst als Antwortalternative Drei. Es wäre also
auch hier von einer größeren Differenz auszugehen, sofern die entsprechenden
Merkmalsausprägungen bei beiden Items gleich wären. Dies könnte auch dahin-
gehend interpretiert werden, dass die melodische Unterstützung ein relativ starkes
Merkmal ist, denn es kompensiert die höheren Anforderungen durch den komple-
xeren, längeren und später positionierten Rhythmus nicht nur, sondern macht das
Item darüber hinaus um 0.68 logits leichter als Item 14b.
Auf Basis der erfolgten Ausführungen kann eine neue Hypothese formuliert wer-
den: Das Aufgabenmerkmal ‚melodische Unterstützung’ trägt zur Absenkung der
Itemschwierigkeit bei. In dem Maße wie die Memorierbarkeit eines Rhythmus
durch melodische Strukturen unterstützt wird, sinkt die Schwierigkeit eines Items.
Es handelt sich bei diesem Aufgabenmerkmal also um ein ‚schwierigkeitsmin-
derndes’ Merkmal. Solche Merkmale sind in gleichem Maße relevant für die Er-
klärung von Aufgabenschwierigkeiten und sollten ebenso in die empirische Vali-
dierung der Merkmale einbezogen werden (z. B. Prenzel et al., 2002).160 Die vo-
rangegangenen Überlegungen haben deutlich gemacht, dass eine Nichtberücksich-
tigung eines entsprechenden Merkmals zur Unterschätzung anderer ‚echter’
schwierigkeitsgenerierender Merkmale führen kann.
Gruppe B: Rhythmuswahrnehmung und Notationskenntnisse
Die Items der Gruppe B sind grundsätzlich so konstruiert, dass zu ihrer Lösung
neben der Fähigkeit, rhythmische Strukturen wahrzunehmen, auch Notenlese-
kenntnisse notwendig sind. In den meisten Fällen muss hierfür ein Hörbeispiel ei-
ner eintaktigen Rhythmusnotation zugeordnet werden. Verwendet werden größ-
tenteils Multiple-Choice-Formate, sodass die Schüler aus vier verschiedenen
Rhythmusnotationen die zum Hörbeispiel passende auswählen müssen. Die als
Antwortalternativen fungierenden Notationen bleiben in Länge und Komplexität
immer gleich, nur die Hörbeispiele variieren in Bezug auf verschiedene Parame-
ter.
160 Solch ein schwierigkeitsminderndes Merkmal müsste dann negativ mit den Itemschwierigkei-ten korreliert sein, eine Regressionsanalyse sollte entsprechend ein negatives Regressionsgewicht für das Merkmal ergeben (zum methodischen Vorgehen der empirischen Validierung vgl. 7.5).
166
Analyse B.1: Merkmal ‚rhythmische Komplexität’
Ein Aufgabenmerkmal, dessen Einfluss auf die Schwierigkeit eines Rhythmus-
Items sehr naheliegend erscheint, wurde bislang noch nicht thematisiert, nämlich
den Rhythmus selbst in seiner Komplexität zu verändern.161 Aufgrund fachdidak-
tischen Erfahrungswissens lässt sich hierfür leicht eine Hypothese formulieren:
Die Itemschwierigkeit sollte mit zunehmendem Komplexitätsgrad eines Rhyth-
mus ansteigen.
Genauer kann die Hypothese jedoch formuliert werden unter Berücksichtigung
musikpsychologischer Forschungsergebnisse zur Rhythmuswahrnehmung (z. B.
Auhagen, 2005). Die Komplexität eines Rhythmus wird dort einerseits in Abhän-
gigkeit von der Schwierigkeit beschrieben, die sich bei der Extraktion eines dem
Rhythmus zugrundeliegenden Pulses ergibt. Andererseits spielen Gestaltbildungs-
und Segmentationsprinzipien eine zentrale Rolle. Grundlegend ist hierbei die Be-
obachtung, dass in der menschlichen Wahrnehmung Tonfolgen tendenziell so un-
tergliedert werden, dass benachbarte Gruppen eine möglichst große Ähnlichkeit
aufweisen (Gestaltbildungsprinzip). Des Weiteren erfolgt eine hierarchische Ab-
stufung von größeren und kleineren Gruppen (Segmentationsprinzip), wobei in-
nerhalb der Gruppen jeweils möglichst viele gleiche Elemente enthalten sind. Ent-
scheidend für die Einschätzung der Komplexität eines Rhythmus ist nun der Be-
fund, dass „je geringer die Zahl unterschiedlich strukturierter Untergruppen ist,
desto besser solche Folgen im Gedächtnis behalten [werden]“ (Auhagen, 2005, S.
235).
Demzufolge sollte beispielsweise der Rhythmus deutlich
schwerer zu memorieren sein als der Rhythmus , der sehr einfach in
zwei gleich strukturierte Untergruppen segmentiert werden kann (vier Achtel +
zwei Viertel).
Kombiniert man nun die musikpsychologischen Befunde mit den Ergebnissen der
curricularen Analysen162 (vgl. 4.2.1), ergibt sich folgende genauer spezifizierte
161 Analyse A.3 enthält zwar einen komplexeren Rhythmus, aufgrund der vielen dort simultan vor-handenen Merkmale konnten aber keine genaueren Aussagen zum Effekt der rhythmischen Kom-plexität auf die Itemschwierigkeit gemacht werden. 162 In den meisten Curricula werden für Schüler der sechsten Klasse Rhythmen als einfach einge-stuft, wenn sie eine regelmäßige Abfolge von Achtel-, Viertel- und Halbenoten haben. Eine erhöh-te Schwierigkeit wird angenommen bei Synkopen, Punktierungen und Triolen.
33
167
Hypothese: Die Schwierigkeit eines Rhythmus-Items steigt mit zunehmender
Komplexität des wahrzunehmenden Rhythmus. Der Komplexitätsgrad ist dabei
abhängig von der Zahl der unterschiedlich strukturierten rhythmischen Unter-
gruppen und deren Verhältnis zum Grundpuls des Rhythmus. Insbesondere für
Rhythmen, die als Untergruppe eine für Schüler der sechsten Klasse anspruchs-
volle rhythmische Figur (z. B. Triole oder Synkope) enthalten, ist von einer er-
höhten Schwierigkeit auszugehen.
Abb. 40: Items D3-7b und D3-7c (Testheft D3)
In Abb. 40 sind die Items D3-7b und D3-7c dargestellt, deren Rhythmen jeweils
auf dem gleichen Percussionsinstrument gespielt werden. Ebenfalls vergleichbar
ist der Komplexitätsgrad der zur Auswahl stehenden Notationen. Der einzige for-
male Unterschied besteht darin, dass der Rhythmus von Item 7c eine Synkope be-
inhaltet. Während der Rhythmus von 7b sich so untergliedern lässt, dass benach-
barte Gruppen eine große Ähnlichkeit aufweisen und sich gleichzeitig maximal
zwei unterschiedlich strukturierte Untergruppen ergeben, die mit dem Grundpuls
des Rhythmus zusammenfallen, ist Item 7c ein Beispiel für einen Rhythmus, der
sich in gewisser Hinsicht dem Segmentationsprinzip geradezu entzieht. Durch die
für Synkopen typische Inkongruenz von rhythmischer und metrischer Struktur ist
zunächst die Extraktion des Grundpulses deutlich erschwert, gleichzeitig ist aber
auch eine sinnvolle Segmentierung nicht mehr möglich.
168
Tab. 30: Vergleich der Itemschwierigkeiten von Item D3-7b und D3-7c (Testheft D3)
TH D3 Kurzbeschreibung NR (%) PZK �
D3-7c Rhythmus zu Noten zuordnen (Synkope) 36.05 14.73 0.43
D3-7b Rhythmus zu Noten zuordnen 83.67 78.23 -1.93
Die Auswirkung auf die Itemschwierigkeit ist offensichtlich: Der komplexe Syn-
kopen-Rhythmus kann nur noch von weniger als der Hälfte der Schüler richtig
zugeordnet werden. Dieser extreme Unterschied drückt sich entsprechend in einer
Differenz der Itemschwierigkeit von 2.36 logits aus.
Analyse B.2: Merkmal ‚klangliche/musikalische Komplexität’
Auch bei den Items der Gruppe B wurde die klangliche Komplexität variiert.
Während innerhalb der Gruppe A hierzu einstimmige Melodien eingesetzt wurden
(vgl. Analyse A.2), zeigt Abb. 41 ein Item (D3-7f) der Gruppe B, bei dem die
klangliche Komplexität durch die Verwendung eines mehrstimmigen Orchester-
satzes erzielt wird. Als Hörbeispiel dient hier eine kurze homophone Phrase einer
Beethovensymphonie.163
Die Hypothese lautet auch hier: Wenn ein Rhythmus aus einem klanglich kom-
plexeren Zusammenhang erschlossen werden muss, so ist von einem Anstieg der
Itemschwierigkeit auszugehen.
Der zunächst naheliegende Vergleich mit Analyse A.2 ist nicht sinnvoll, denn die-
ses Mal ist die klangliche Variation nicht zwischen Aufgabenstamm und Antwort-
alternativen angesiedelt, sondern allein aufseiten des Aufgabenstamms. Daher
muss für die Untersuchung des angenommenen Aufgabenmerkmals ein Item zum
Vergleich herangezogen werden, bei dem der Aufgabenstamm aus einem klang-
lich möglichst wenig komplexen Rhythmus besteht. Verwendet wird hierfür das
Item D3-7a, dessen Hörbeispiel vom üblichen Percussionsinstrument gespielt
wird, gleichzeitig aber in Bezug auf die rhythmische Struktur mit D3-7f ver-
gleichbar ist.
163 Symphonie No.7 in A, op.92, 2. Satz, Allegretto. In den verwendeten Takten 3-10 wird der Rhythmus viermal absolut identisch wiederholt, was in der vorliegenden Notation im 4/4-Takt vier Takten entspricht (im Original ist der Rhythmus im 2/4-Takt notiert).
169
Abb. 41: Items D3-7a und D3-7f (Testheft 2)
Tab. 31 bestätigt den vermuteten Effekt des Aufgabenmerkmals: Item 7f ist deut-
lich schwerer als 7a.
Tab. 31: Vergleich der Itemschwierigkeiten von Item D3-7a und D3-7f (Testheft 2)
TH 2 Kurzbeschreibung NR (%) PZK �
D3-7f Musikstück + Noten (Beethoven) 60.26 47.01 0.21
D3-7a Percussion + Noten 79.49 72.65 -0.93
Bei genauer Analyse der Hörbeispiele wird jedoch deutlich, dass das schwierig-
keitsgenerierende Merkmal nicht allein durch den klanglichen Unterschied be-
schrieben werden kann (Percussionsrhythmus vs. Orchesterstreichersatz). Bei I-
tem 7a handelt es sich um einen von einem Sequenzer und Synthesizer realisierten
Rhythmus, der entsprechend bezüglich aller Parameter (Tempo, Dynamik, rhyth-
mische Genauigkeit) völlig akkurat und gleichmäßig ausgeführt ist. Beim Hören
des Percussionsrhythmus fällt daher auch sofort eine gewisse, der Computertech-
nik geschuldeten Künstlichkeit auf. So artifiziell das Hörbeispiel dadurch wird, so
dienlich ist dies zunächst der genauen Erfassung der anvisierten Wahrnehmungs-
leistung, denn durch die isolierte Darbietung eines Rhythmus lenkt auch kein an-
derer Parameter von der Rhythmuswahrnehmung ab. Gänzlich anders stellt sich
die Situation für Item 7f dar: Hier spielen ‚echte’ Musiker ‚echte’ Musik. Neben
der Leistung, den harmonisch und melodisch weitaus komplexeren Klang auf sei-
ne rhythmische Struktur zu reduzieren, kommen durch die Verwendung der Beet-
hoven-Aufnahme für die Testpersonen weitere Erschwerungen hinzu: Gemäß dem
musikalischen Verlauf betont und artikuliert das Orchester die Viertel- und Ach-
170
telnoten unterschiedlich, die Dynamik wird variiert, durch das Abphrasieren wird
der Rhythmus zum Ende hin etwas langsamer. Es ist also die gesamte Beschaf-
fenheit der Hörbeispiele, die in letztgenanntem Fall einerseits eine realere, kon-
textspezifischere Aufgabenstellung ermöglicht, andererseits dadurch komplexere
Anforderungen an die Wahrnehmung stellt. Demgemäß ist das Aufgabenmerkmal
nicht nur durch eine klangliche, sondern auch eine musikalische Komplexität spe-
zifiziert.
Analyse B.3: Merkmal ‚klangliche Unterstützung’
Diese Analyse schließt direkt an die vorherige an. Erneut werden im Folgenden
zwei Items verglichen, die sich in klanglicher Hinsicht unterscheiden (vgl. Abb.
42). Item D3-7g hat als Hörbeispiel das Intro des Songs „We will rock you“ der
Rockband „Queen“, das ausschließlich aus einer einfachen Bodypercussion-Figur
besteht. Der Rhythmus ist hierbei jeweils aufgeteilt in zwei Achtel Aufstampfen
mit den Füßen und ein Viertel Händeklatschen. Zum Vergleich dient nochmals
das bereits bekannte Item mit dem üblichen Percussionsrhythmus. Eine kleine Be-
sonderheit dieser beiden Items besteht darin, dass der Komplexitätsgrad von
Rhythmus und Notationen absolut identisch ist. Das unterscheidende Aufgaben-
merkmal ist also ausschließlich die unterschiedliche klangliche Realisation.
Abb. 42: Items D3-7a und D3-7g (Testheft 2)
Zur Spezifikation der Hypothese dienen wiederum musikpsychologische For-
schungsergebnisse zur Rhythmuswahrnehmung. Die bereits bekannten Prinzipien
171
der Gestaltbildung und Segmentierung können auf den Rhythmus unmittelbar an-
gewendet werden (vgl. Analyse A.3). Dementsprechend handelt es sich hier um
einen sehr einfachen Rhythmus. Zur Unterscheidung der beiden Items oder einer
Prognose in Bezug auf deren Schwierigkeit sind die genannten Wahrnehmungs-
prinzipien jedoch nicht hilfreich, da beide Items den gleichen Rhythmus verwen-
den. Entscheidend ist vielmehr der Befund, dass bei einer Variation von verschie-
denen Parametern (z. B. Tonhöhe, Harmonik oder Klang) Rhythmen umso besser
memoriert werden können, je mehr die Variation der einzelnen Parameter eine
einheitliche Gliederung begünstigt (Auhagen, 2005, S. 236).
Im Anschluss daran lautet die Hypothese, dass die Itemschwierigkeit sinkt, wenn
die rhythmische Gliederung durch einen anderen Parameter unterstützt wird. Es
handelt sich also erneut um ein schwierigkeitsminderndes Merkmal. Übertragen
auf die beiden Items ist somit anzunehmen, dass 7g leichter zu lösen ist, da der
Queen-Rhythmus mit seiner Aufteilung in Stampfen und Klatschen kongruent zur
Segmentierung die Untergliederung des Rhythmus unterstützt, was durch die in
Tab. 32 dargestellten Ergebnisse bestätigt wird.
Tab. 32: Vergleich der Itemschwierigkeiten von Item D3-7a und D3-7g (Testheft 2)
TH 2 Kurzbeschreibung NR (%) PZK �
D3-7a Percussion + Noten 79.49 72.65 -0.93
D3-7g Stampfen/Klatschen (Queen, „We will rock you“) + Noten 87.18 82.91 -1.58
Analyse B.4: Merkmal ‚Anwendung von Notationskenntnissen’
Wenngleich bislang nicht explizit thematisiert, so ist es doch offensichtlich, dass
für alle Items der Gruppe B neben den Anforderungen an die rhythmische Wahr-
nehmung auch Anforderungen an die Kenntnisse bezüglich traditioneller Notation
gestellt werden. Personen, die über keine grundlegenden Notenlesefähigkeiten
verfügen, werden daher in der Regel die entsprechenden Items nicht lösen.164 Aus
diesem Grund wird als weiteres schwierigkeitsgenerierendes Aufgabenmerkmal
das Merkmal ‚Notationskenntnisse’ eingeführt.
164 Und dies sogar unabhängig davon, wie ausgeprägt ihre Wahrnehmungsfähigkeit ist. Gleiches gilt selbstverständlich auch umgekehrt: Selbst der kompetenteste Notenleser wird ein Item nicht lösen können ohne die dazugehörige Wahrnehmungsfähigkeit.
172
Im Rahmen der Analysen der Rhythmus-Items kann jedoch nicht der grundlegen-
de Effekt dieses Merkmals in dem Sinn untersucht werden, dass ein Item ohne das
Merkmal einem Item mit Merkmalsausprägung gegenübergestellt würde. Dies
liegt schlicht daran, dass die Antwortalternativen in Form von Rhythmus-
Notationen konstituierend für diesen Aufgabentypus sind und ein vergleichbares
Item ohne Notation daher nicht existiert.165 Prinzipiell denkbar wäre eine Variati-
on des Aufgabenmerkmals in Bezug auf die Komplexität der Notation.166 Für die
Kompetenzfacette liegen jedoch keine Items vor, die unterschiedlich komplex no-
tierte Antwortalternativen aufweisen.167 Möglich ist aber eine Analyse in Bezug
auf verschiedene Anwendungsformen von Notationskenntnissen.
In der folgenden letzten Analyse werden drei Items gegenübergestellt, die die
Rhythmuswahrnehmung sowohl in Verbindung mit Notenlesen als auch mit No-
tenschreiben erfassen.
Abb. 43: Items D3-7a, D3-7d und D3-7e aus Testheft D3
Jedes Item repräsentiert dabei eine bestimmte Form des Umgangs mit Notations-
kenntnissen (vgl. Abb. 43): Item D3-7a erfasst Notenlesefähigkeiten mittels des
bereits aus den Analysen B.1-B.3 bekannten MC-Formats, bei dem aus vier ver-
165 Die Überprüfung, ob das Vorhandensein des Merkmals ‚Notationskenntnisse’ grundsätzlich ei-nen Einfluss auf die Itemschwierigkeit hat, kann in späteren Analysen untersucht werden, in denen die Merkmale auf eine größere Anzahl von Items angewendet werden (vgl. 7.5). 166 So ließen sich beispielsweise Items konstruieren, bei denen alle Distraktoren bis auf ein kleines Detail der richtigen Antwortalternative gleichen. Ebenso denkbar ist es, die Notationen länger und in sich komplexer zu gestalten (z. B. durch weitere Taktarten, Notenwerte, Pausen). Damit würde aber automatisch auch immer eine Steigerung der rhythmischen Komplexität des Hörbeispiels ein-hergehen. 167 Für die Modellierung unterschiedlich komplexer Merkmalsausprägungen in Bezug auf Notati-onskenntnisse wurde innerhalb der dritten Modelldimension speziell eine Reihe von Items entwi-ckelt.
173
schiedenen Rhythmusnotationen die zum Hörbeispiel passende ausgewählt wer-
den muss. Item D3-7e stellt die Anforderung, einen Rhythmus mit einfachen gra-
fischen Symbolen zu notieren, während bei Item D3-7f ein entsprechender
Rhythmus mithilfe traditioneller Notation aufgeschrieben werden soll. Die rhyth-
mische Komplexität der Hörbeispiele ist jeweils vergleichbar, bei 7a und 7d sogar
identisch.168
Es stellt sich nun die Frage, ob die unterschiedlichen Ausprägungen des Aufga-
benmerkmals auch mit unterschiedlichen Itemschwierigkeiten einhergehen; oder
anders formuliert: Kann die unterschiedliche Erfassung von Rhythmuswahrneh-
mung in Verbindung mit Notenlesen und Notenschreiben als schwierigkeitsgene-
rierendes Merkmal beschrieben werden?
Naheliegend ist zunächst die Hypothese, dass – bei vergleichbarer Wahrneh-
mungsanforderung – Notenlesen einfacher ist als Notenschreiben, da für beide
zwar gleichermaßen Notationskenntnisse benötigt werden, diese darüber hinaus
beim Notenschreiben aber produktiv angewendet werden müssen. Jeder (Gehör-
bildungs-)Lehrer würde wohl bestätigen, dass es seinen Schülern erheblich schwe-
rer fällt, ein Hördiktat aufzuschreiben, als die gleiche Musik unter einer Auswahl
verschiedener Notenbeispiele wiederzuerkennen. Bei näherer Betrachtung der drei
Items lassen sich jedoch auch Argumente für andere Hypothesen finden.
Man könnte z. B. vermuten, dass Item 7d – trotz der dort verlangten Schreibleis-
tung – im Vergleich zu 7a leichter zu bewältigen ist, da bei 7d eine vereinfachte
grafische Notationsart verwendet wird, die zudem im Itemstamm so beschrieben
ist, dass kein Vorwissen erforderlich ist. 7d sollte dadurch auch für Personen zu
lösen sein, die überhaupt keine Kenntnisse in Bezug auf traditionelle Notenschrift
haben und demzufolge Item 7a eigentlich nicht erfolgreich bearbeiten können.169
Dies würde einer Hypothese hinsichtlich eines schwierigkeitsmindernden Merk-
mals ‚grafische Notation’ entsprechen.
168 Auch die klangliche Komplexität ist prinzipiell vergleichbar. Für 7d und 7e wurde jedoch der Percussionsklang durch einen Klavierton ersetzt, um die Viertelnoten deutlicher von den Achtel-noten zu unterscheiden. Unter Verwendung des Percussionsklangs wären sonst auch notierte Lö-sungen möglich gewesen mit Pausen (bei 7e z. B. Achtel, Achtelpause, Achtel etc.). 169 Mögliche Strategien zur Aufgabenlösung, die evtl. auch ohne Notationskenntnisse angewandt werden können, werden weiter unten beschrieben.
174
Denkbar wäre aber auch, dass zwischen den verschiedenen Anwendungsarten von
Notationskenntnissen, wie sie durch die vorliegenden Items erfasst werden, kein
Unterschied feststellbar ist, da jeweils nur sehr basale Notationskenntnisse für die
Aufgabenlösung ausreichend sind.170 Demzufolge könnten für alle Items glei-
chermaßen niedrige Itemschwierigkeiten erwartet werden. Sollten die empirischen
Daten diese Vermutung bestätigen, dann wäre die Schlussfolgerung naheliegend,
dass in Bezug auf basale Notationskenntnisse und einfache Wahrnehmungsanfor-
derungen kein Unterschied zwischen Notenlesen und -schreiben besteht: Schüler,
die Ersteres beherrschen, können auch Letzteres (und vice versa). Die Hypothese
könnte hier zwar immer noch lauten, dass durch den rezeptiven und produktiven
Umgang mit Notation ein schwierigkeitsgenerierendes Merkmal vorliegt, dieses
aber zu schwach ausgeprägt ist, als dass es zu einer Varianz in den Itemschwie-
rigkeiten führen würde.
Es ließe sich sicherlich noch eine Reihe weiterer Hypothesen in Bezug auf die zu
erwartenden Itemschwierigkeiten und die darauf bezogenen Merkmale formulie-
ren. Aufgrund der konkurrierenden und teilweise widersprüchlichen Vermutungen
– und nicht zuletzt in Ermangelung empirischer Forschungsergebnisse (vgl. Leh-
mann, 2005; Sloboda, 2005, S. 3 ff.) – wurde im Rahmen der Aufgabenentwick-
lung zunächst keine explizite Hypothese formuliert. Es werden daher an dieser
Stelle zuerst die empirischen Daten inspiziert, um dann post hoc eine Hypothese
zu generieren.
Tab. 33: Vergleich der Itemschwierigkeiten der Items D3-7a, D3-7d und D3-7e (Testheft D3)
TH-D3 Kurzbeschreibung NR (%) PZK �
D3-7e Rhythmus mit Noten notieren 17.20 - 1.41
D3-7d Rhythmus grafisch notieren 35.48 - 0.37
D3-7a Rhythmus zu Noten zuordnen 77.24 69.65 -1.45
Obwohl die Items 7a und 7d den exakt gleichen Rhythmus haben, ist es nur noch
weniger als der Hälfte der Schüler möglich, den Rhythmus, den sie vorher noch
der richtigen Notenabbildung zugeordnet haben, nun eigenständig in Form einer
einfachen grafischen Notationsform aufzuschreiben. Von diesen 35.48 % der
170 Durch das Fehlen von Tonhöhen ist die Notation von vornherein auf die Fixierung lediglich der Notenlängen beschränkt, die wiederum auf Achtel- und Viertelnoten bzw. kurz und lang begrenzt ist. Der Komplexitätsgrad der Notationen kann demgemäß als sehr niedrig eingeschätzt werden.
175
Schüler schafft es dann erneut nur die Hälfte, einen vergleichbar komplexen
Rhythmus mit traditioneller Notenschrift zu notieren. Zwischen der reinen Zuord-
nung eines wahrgenommenen Rhythmus zu einer eintaktigen Notation und der ei-
genständigen Notation eines vergleichbaren Rhythmus mit traditioneller Noten-
schrift entsteht so eine sehr große Differenz der Itemschwierigkeiten von 2.86 lo-
gits.
Die in Tab. 33 dargestellten Ergebnisse legen somit die Annahme nahe, dass es
grundsätzlich einen schwierigkeitsgenerierenden Unterschied gibt zwischen den
Anforderungen, einen Rhythmus lesen oder ihn notieren zu müssen. Ein gewisser
Anteil der großen Differenz ist dabei dem Aufgabenformat geschuldet, denn im
Gegensatz zu Item 7a (MC-Format) kann bei 7e und 7d nicht geraten werden.
Doch selbst unter Berücksichtigung der Zufallskorrektur bleiben die deutlichen
Unterschiede bestehen. Es ist also genauer nach den für die Lösung der Items
notwendigen Prozessen zu fragen.
Entscheidend scheint hierbei vor allem die Interaktionsebene zwischen Aufgabe
und Notentext zu sein oder genauer: die Prozesse, die ausgehend von der Wahr-
nehmung des Rhythmus hin zur richtigen Identifikation eines Notentextes bzw.
der korrekten Notation eines Rhythmus führen.
In Bezug auf das MC-Item 7a ist grundlegend von mindestens vier verschiedenen
Lösungsstrategien auszugehen:
(1) Audiation/Analyse der Antwortalternativen: Die Schüler lesen sich im An-
schluss an die Aufgabenstellung die Antwortalternativen genau durch und entwi-
ckeln innerlich für jede Rhythmusnotation zumindest eine ungefähre Klangvor-
stellung. Wenn nun das Hörbeispiel abgespielt wird, kann der wahrgenommene
Rhythmus mit den bereits audiierten abgeglichen werden, was die Lösung erheb-
lich erleichtern dürfte. Diese Lösungsstrategie ist aber nur für sehr fortgeschritte-
ne Schüler zu erwarten. Doch selbst wenn von solch einer antizipierenden Audia-
tionsleistung nur für sehr wenige (oder evtl. gar keine) Testpersonen ausgegangen
werden kann – was eine sehr interessante Fragestellung für ein ‚cognitive lab’ wä-
re (vgl. 8.2) –, so bringt ein vorheriges genaues Lesen der Antwortalternativen
entscheidende Vorteile auch ohne Audiation. Wer mit analytischem Blick die
Rhythmusnotationen betrachtet, der weiß bereits vorab, dass das Hörbeispiel ent-
weder mit einer Viertelnote oder einer Achtelgruppe beginnen muss. Wenn dann
176
der Rhythmus erklingt, können bereits nach den ersten beiden Noten mindestens
zwei Antwortalternativen ausgeschlossen werden. Doch auch solch eine analyti-
sche Betrachtung vorab dürfte bei Schülern der sechsten Klasse nur in Ausnahme-
fällen anzutreffen sein – wenngleich hierzu keinerlei empirisch gesichertes Wis-
sen vorhanden ist.
(2) Paralleles Wahrnehmen und Lesen des Rhythmus: Wahrscheinlicher in Bezug
auf die Mehrheit der Testpersonen – und nicht zuletzt vor dem Hintergrund der
Erfahrungen bei der KoMus-Pilotierungsstudie (vgl. 2.2.3) – ist die Anwendung
anderer Strategien. Während der Tests war zu beobachten, dass die Schüler in der
Regel nach dem Durchlesen der Aufgabe sofort das Hörbeispiel abspielten. In die-
sem Fall läuft der Lösungsprozess vermutlich so ab, dass die Rhythmusnotationen
parallel zum Hörbeispiel mitverfolgt werden. Angesichts der Einfachheit von
Hörbeispiel und Notationen sowie dem wiederholten Abspielen des Rhythmus
sollte es Schülern mit Notationskenntnissen möglich sein, das Item mittels dieser
Strategie zu lösen – trotz des simultanen Prozesses von Hören und Lesen. Sofern
diese Strategie angewendet wird, ist es nicht unbedingt notwendig, den Rhythmus
zu memorieren, wenngleich dies hilfreich ist, um die gewählte Lösung im An-
schluss an das Hörbeispiel noch einmal zu überprüfen.
(3) Rhythmus memorieren, Abgleich mit Notation: Für Schüler mit weniger Übung
im Notenlesen ist es evtl. zu anspruchsvoll, parallel zum Hörbeispiel alle vier
Rhythmusnotationen mitzulesen. Da der Rhythmus aber äußerst einfach zu memo-
rieren ist, kann auch eine sukzessive Aufgabenbearbeitung erfolgen. In diesem
Fall würden die Schüler erst im Anschluss an das Hörbeispiel den memorierten
Rhythmus mit den Notationen abgleichen.
(4) Basale Notationskenntnisse (prä-figural/figural):171 Bei den bisherigen Strate-
gien wurde immer vorausgesetzt, dass die Testpersonen über metrische Notenlese-
und Wahrnehmungsfähigkeiten verfügen. Die folgenden Strategien verdeutlichen
jedoch, dass diese u. U. gar nicht zwingend erforderlich sind bzw. bereits sehr ba-
sale Fähigkeiten genügen. So gibt es sicherlich Schüler, die für eine konkrete Note
zwar nicht die richtige diatonisch-metrische Tonhöhe und -länge (z. B. Achtelnote
Fis) benennen können, trotzdem aber zumindest die Grundprinzipien traditioneller
171 Zu Repräsentation von Rhythmen und den Entwicklungsstufen der bildlicher Darstellung von Rhythmen (im Speziellen bei Kindern) vgl. Bruhn 1993a; 2000; Gembris 1998, S. 249 ff.
177
Notation kennen: Eine Note repräsentiert ein klangliches Ereignis, der zeitliche
Verlauf von Musik wird dabei horizontal von links nach rechts abgetragen, Ton-
höhen werden vertikal fixiert. Diese Kenntnisse genügen für eine figurale Darstel-
lung eines Rhythmus. Würde man einen entsprechenden Schüler den Rhythmus
von Item 7a notieren lassen, wäre mit einer der folgenden ähnlichen Notation zu
rechnen:
Abb. 44: Mögliche figurale Darstellung des Rhythmus von Item D3-7a (Testheft D3)
Auf einer figuralen Ebene ist zu erwarten, dass der Rhythmus nicht als kurz-kurz-
lang, kurz-kurz-lang repräsentiert wird, sondern eher als drei kurze Ereignisse, die
nach einer sogenannten ‚ghost gap’ (vgl. Bruhn, 2000, S. 237) wiederholt werden.
Es ergeben sich also zwei symmetrische Ereignisgruppen, was auch in Abb. 44
deutlich wird. Sofern solch eine figurale Repräsentation des wahrgenommenen
Rhythmus vorliegt, bedarf es zur Lösung der Aufgabe noch eines Abgleichs von
figuraler Repräsentation und den (metrisch) notierten Antwortalternativen. Für I-
tem 7a müsste nun also nach einer symmetrischen Konstellation von zwei Dreier-
gruppen gesucht werden. Auf einer noch basaleren Ebene ist eine Aufgabenlösung
sogar mit prä-figuraler Repräsentation möglich. Auf dieser Ebene wird ein
Rhythmus lediglich als Menge unorganisierter Ereignisse repräsentiert (Bruhn,
2000, S. 236). Testpersonen würden dementsprechend die Ereignisse abzählen
und müssten dann nach einer Antwortalternative mit sechs Notensymbolen su-
chen.172 Bei beiden Strategien werden die Noten lediglich als Symbole für Ereig-
nisse betrachtet, wobei es völlig irrelevant ist, dass es sich bei den Noten konkret
um Viertel- und Achtelnoten handelt oder die eine genau den halben Längenwert
der anderen Note repräsentiert. Testpersonen können das Item also auch lösen,
ohne über ein elaboriertes Wissen in Bezug auf metrische Notation zu verfügen.
Es ist davon auszugehen, dass auch bei dieser Strategie der Rhythmus memoriert
wird, um dann anschließend nach einer passenden Notation zu suchen, da die No-
tationen im eigentlichen Sinne ja nicht ‚gelesen’, sondern eher in Form von ‚grafi-
schen Entsprechungen’ verwendet werden.
172 Vor diesem Hintergrund wird deutlich, dass die Distraktoren des Items nicht optimal kon-struiert sind, denn es gibt keinen symmetrischen Distraktor und auch keinen mit sechs Noten (eine mögliche Lösung wäre z. B. ein Distraktor mit der rhythmischen Struktur: Achtel, Achtel, Halbe, Achtel, Achtel, Halbe).
178
Für Item 7a kann somit festgehalten werden, dass grundsätzlich verschiedene Lö-
sungsstrategien möglich sind. Wenngleich hierbei durchaus komplexe Prozesse
ablaufen können (Strategie 1), so sind diese doch nicht zwingend für eine erfolg-
reiche Lösung notwendig. Die Aufgabe kann vielmehr bereits mit sehr basalen
Wahrnehmungsfähigkeiten und Notationskenntnissen gelöst werden.173
Wie stellt sich die Situation für die beiden anderen Items dar? Betrachtet man zu-
nächst Item 7e, so wird deutlich, dass ein grundlegender Unterschied dadurch ge-
geben ist, dass für die Aufgabenlösung nun ‚echte’ Notationskenntnisse unabding-
bar sind. Die Aufgabenstellung setzt zwingend die Kenntnis von Viertel- und Ach-
telnoten voraus, sowohl in Bezug auf deren Schreibweise als auch auf einer in-
haltlichen Ebene, denn für eine erfolgreiche Lösung muss das Wissen bezüglich
der Notenwertrelation von Viertel- und Achtelnoten vorhanden sein (zwei Achtel-
noten entsprechen der Länge von einer Viertelnote).174 Darüber hinaus ist es bei
dem Item auch zwingend notwendig, den Rhythmus zu memorieren, da dieser
nicht während des Hörens simultan mitgeschrieben werden kann. So müssen die
Testpersonen während und nach dem Notenschreiben (vermutlich mehrfach) den
Rhythmus aus dem musikalischen Gedächtnis abrufen, um die Noten aufschreiben
zu können bzw. das Geschriebene zu kontrollieren. Letztgenanntes gilt gleicher-
maßen auch für Item 7d. Hier sind jedoch die genannten Notationskenntnisse in
viel geringerem Umfang vonnöten. Zum Einen handelt es sich um einfache grafi-
173 An diesen etwas umfangreicheren Betrachtungen zu Item 7a wird deutlich, dass für die Be-schreibung eines schwierigkeitsgenerierenden Aufgabenmerkmals nicht alle Prozesse gleicherma-ßen relevant sind. Entscheidend sind letztlich nur die Prozesse, die zwingend für die Aufgabenlö-sung benötigt werden, also in gewisser Hinsicht die ‚Mindestanforderungen’. Selbst wenn prinzi-piell auch komplexere Lösungsstrategien denkbar sind – und vermutlich auch angewendet werden –, so können diese nicht zur Erklärung der unterschiedlichen Itemschwierigkeiten herangezogen werden. Denn der Unterschied von einem leichten zu einem schweren Item ist ja gerade der, dass bei dem schwereren Item die zwingend notwendigen Prozesse des leichteren Items eben nicht mehr ausreichend sind für eine erfolgreiche Lösung. Daran anschließend ist auch sofort ersichtlich, warum Testaufgaben, die für ‚large-scale-assessments’ gedacht sind, meist nicht sinnvoll für Zwe-cke der Individualdiagnostik eingesetzt werden können. Bei so konstruierten Aufgaben lässt sich zwar leicht feststellen, ob eine Aufgabe gelöst wurde oder nicht. Aussagen über die dabei zugrun-deliegenden Lösungsstrategien auf Individualebene sind jedoch nicht oder in nur sehr begrenztem Umfang möglich. Dies wäre vor allem problematisch in Bezug auf Personen, die eine Aufgabe nicht lösen. Denn im Sinne einer Förderdiagnostik könnten keine optimalen Fördermaßnahmen eingeleitet werden, da aufgrund der Datenlage nicht ersichtlich ist, weshalb genau eine Aufgabe nicht gelöst wurde. Zum Zwecke der Individualdiagnostik sollten daher stets speziell konstruierte diagnostische Aufgaben eingesetzt werden, die den jeweils individuellen Denk- und Verstehens-prozess – oder einfacher: den Aufgabenbearbeitungsprozess – sichtbar machen (zu Konstruktion, Einsatzmöglichkeiten und Auswertung solcher Aufgaben vgl. z. B. Sjuts 2006). 174 Eine Antwort, die auf eine richtige Wahrnehmungsleistung sowie grundlegende Notations-kenntnisse hindeutet, gleichermaßen aber fehlendes Wissen in Bezug auf die Notenwertproportio-nen dokumentiert, wäre folgende: Achtel, Viertel, Viertel, Achtel, Achtel.
179
sche Symbole, zum Anderen werden die rhythmischen Längenrelationen der Sym-
bole im Itemstamm vorgegeben.
Wie bereits weiter oben formuliert, könnte man annehmen, dass 7d mittels des
gleich basalen Notationswissens wie Item 7a gelöst werden kann. Trotzdem ist 7d
aber empirisch deutlich schwerer. Dieser Sachverhalt lässt letztlich nur den
Schluss zu, dass die unterschiedliche Anwendung der Notationskenntnisse für die
Varianz der Itemschwierigkeit verantwortlich ist. Durch das offene Itemformat
und die dadurch notwendige aktive Produktionsleistung des Notenschreibens
scheint eine stärkere Prozeduralisierung des Notationswissens notwendig zu sein.
Abschließend erscheint somit die Hypothese plausibel, dass die verschiedenen
Anwendungsformen von Notationskenntnissen als schwierigkeitsgenerierendes
Merkmal wirken. Es wird angenommen, dass die Itemschwierigkeit in dem Maße
steigt, in dem Noten nicht nur gelesen, sondern auch geschrieben werden müssen
und gleichzeitig für die Aufgabenlösung über basale Notationskenntnisse hinaus-
gehendes Wissen notwendig ist. Zusammengefasst werden diese Überlegungen in
Tab. 34, die das Aufgabenmerkmal in einer Form darstellt, wie es auch für die
empirische Validierung der Merkmale eingesetzt werden kann (vgl. 7.5).
Tab. 34: Kodierung und Deskriptoren des Aufgabenmerkmals ‚Anwendung von Notationskenntnissen’
Code Deskriptoren Beispiel-Item
3 Für die Aufgabenlösung sind fundierte Kenntnisse in Bezug auf traditionelle Notation notwendig, die zum Notenschreiben eingesetzt werden. D3-7e
2 Für die Aufgabenlösung sind basale Notationskenntnisse ausreichend, die für das Schreiben einfacher grafischer Notationen verwendet werden. D3-7d
1 Für die Aufgabenlösung sind basale Notationskenntnisse ausreichend, deren Anwen-dung auf das Notenlesen beschränkt ist. D3-7a
0 Für die Aufgabenlösung sind keinerlei Notationskenntnisse erforderlich. -
Zusammenfassung
Die durchgeführten Analysen zeigen, dass eine vertiefende inhaltliche Betrach-
tung der Items und deren empirisch ermittelter Schwierigkeit sehr aufschlussreich
ist in Bezug auf die Aufgabencharakteristika und die darauf bezogenen Lösungs-
prozesse. Dadurch konnte eine Reihe von schwierigkeitsgenerierenden Aufga-
benmerkmalen identifiziert werden, für die plausible Hypothesen bezüglich des
Einflusses auf die Itemschwierigkeiten vorliegen. Auf Basis der vertiefenden Ana-
180
lysen können die vermuteten schwierigkeitsgenerierenden Merkmale zusammen-
fassend folgendermaßen beschrieben werden:
Die Schwierigkeit eines Rhythmus-Items ist abhängig von
1. der Komplexität der klanglichen Struktur, in der ein Rhythmus identifiziert
werden muss,
2. der Komplexität der rhythmischen Struktur,
3. dem notwendigen Wissen in Bezug auf Notation,
4. der Anwendungsform von Notationskenntnissen,
5. den Anforderungen an das musikalische Gedächtnis.
Zusätzlich gibt es jedoch auch Merkmale, die die Aufgabenlösung erleichtern:
Wenn die klangliche oder melodische Struktur die rhythmische Struktur unter-
stützt (Ebene ‚Hörbeispiel’) und somit einprägsamer und leichter memorierbar
macht, wirkt dies der Itemschwierigkeit entgegen.
Die genannten Aufgabenmerkmale wurden unter Zuhilfenahme einer relativ klei-
nen Itemteilmenge identifiziert. In einem nächsten Schritt muss überprüft werden,
ob die Merkmale auf eine größere Zahl der KoMus-Items anwendbar sind. Erst
wenn dies der Fall ist, können weitere statistische Analysen zur Validierung der
Aufgabenmerkmale durchgeführt werden. Beides ist in Abschnitt 7.5 beschrieben.
7.2 Vertiefende Analysen der Items zur Formwahrnehmung
Eine weitere Facette des Kompetenzmodells bezieht sich auf die Wahrnehmung
von musikalischen Formverläufen. Die Formwahrnehmung gehört, ebenso wie die
Rhythmuswahrnehmung, zu den zentralen Fähigkeiten, deren Aufbau auf curricu-
larer Ebene gefordert wird (vgl. 4.2.1). Dort lässt sich auch ein breiter Konsens in
Bezug auf die konkreten Inhalte ausmachen. Häufig wird dabei unterschieden
zwischen elementaren Form-/Gestaltungsprinzipien (z. B. Wiederholung, Variati-
on) und Formmodellen (z. B. Rondo). Während elementare Form- und Gestal-
tungsprinzipien in nahezu allen Curricula erwähnt werden, stellt sich die Situation
hinsichtlich der Formmodelle etwas differenzierter dar. Eine Reihe von Curricula
machen zu diesem Punkt nur allgemeine Ausführungen, z. B.: „einfache Formver-
läufe erkennen und beschreiben“ (Baden-Württemberg, Realschule). In der Regel
wird jedoch konkret eine Auswahl von Formen benannt, die Schüler der sechsten
181
Jahrgangsstufe kennen und auf dieser Wissensbasis hörend er-kennen sollen. Ein
breiter Konsens besteht dabei in Bezug auf ‚Rondo’, ‚Kanon’ und ‚Liedformen’.
Darüber hinaus beinhalten einzelne Curricula bereits für die sechste Klassenstufe
die Formen ‚Concerto’, ‚Sonatenform’ und ‚Bluesschema’.
Für die Aufgabenentwicklung wurden nur Formen verwendet, die durch einen
Großteil der Curricula abgedeckt sind. Um darüber hinaus die unterrichtliche Re-
levanz der gewählten Formen noch weiter abzusichern, konnten die Ergebnisse
der Schulbuchanalysen verwendet werden. Unter Berücksichtigung beider Quel-
len erfolgte die Auswahl von ‚Kanon’, ‚Rondo’ und ‚Liedformen’. Insgesamt
wurden 13 Items zur Formwahrnehmung entwickelt, die sich größtenteils explizit
auf ein bestimmtes Formmodell beziehen, teilweise aber auch die Wahrnehmung
einzelner Formprinzipien fokussieren.
Tab. 35 zeigt, dass auch für die Items zur Formwahrnehmung eine große Varianz
der Itemschwierigkeiten vorliegt, sodass sich erneut die Frage nach den schwie-
rigkeitsgenerierenden Aufgabenmerkmalen stellt.
Tab. 35: Items zur Formwahrnehmung
Item-ID TH NR (%) �
D1-5c 6 15.53 1.60
D1-17a 5 37.34 1.09
D1-3a-2/2 6 25.78 0.89
D2-4f 8 26.86 0.60
D1-12abc 1 34.75 0.58
D1-9 8 29.75 0.44
D2-4i 8 34.30 0.19
D1-3b 6 41.33 0.13
D1-7 7 47.31 -0.33
D1-3a 6 59.11 -0.65
D2-4e 8 59.09 -1.03
D2-2-1/2 6 78.65 -1.85
D1-8 8 88.84 -3.05
Die Forschungslage zur musikalischen Formwahrnehmung ist relativ überschau-
bar. La Motte-Haber (2005a, S. 263) spricht von einer ‚stiefmütterlichen Behand-
lung’ der Thematik durch die Musikpsychologie. Die wenigen vorhandenen Ar-
beiten befassen sich meist mit größeren Formen (z. B. Sonatenhauptsatz) und un-
tersuchen dabei in der Regel die Auswirkung der Umstellung einzelner Formtei-
182
le.175 Eine direkte Nutzung dieser Arbeiten für die Beschreibung schwierigkeits-
generierender Aufgabenmerkmale erscheint daher nicht möglich. Sofern Form-
prinzipien eng an melodische Strukturen gebunden sind (z. B. Liedformen), kön-
nen teilweise jedoch Forschungsergebnisse zur Melodiewahrnehmung berücksich-
tigt werden (z. B. Kreutz, 2005).
Analyse 1: Segmentierung und Vergleich von Formteilen
Zur Modellfacette der Formwahrnehmung konnten im Rahmen der Aufgabenent-
wicklung grundlegende Aufgabenmerkmale formuliert und bei der Itemkonstruk-
tion berücksichtigt werden. Die vermuteten Merkmale ließen sich hierfür teilweise
direkt aus dem theoretischen Kompetenzmodell (vgl. 4.1) ableiten. In diesem Mo-
dellentwurf, der als Ausgangspunkt für die empirischen Projektphasen diente (vgl.
2.2.3), taucht die Formwahrnehmung auf zwei verschiedenen Niveaus auf. Auf
dem untersten Niveau (I) ist von „Erkennen einfacher Formen (z. B. Bildung von
Formteilen durch Zäsuren)“ die Rede, während auf Niveau II das „Erkennen mu-
sikalischer Grundformen (z. B. Erkennen wiederkehrender Formteile: ABA-Form,
einfache Variation)“ verortet ist. Hinter diesen Niveauzuordnungen steht die
Vermutung, dass die Wahrnehmung von Formabläufen schwieriger wird, wenn
nicht nur der Beginn eines neuen Formteils identifiziert werden muss, sondern
darüber hinaus die Teile miteinander in Beziehung gesetzt werden müssen.
Dementsprechend wurden zwei Gruppen von Items entwickelt, die sich grundsätz-
lich dadurch unterscheiden, dass bei der ersten Gruppe lediglich die Anzahl der
Formteile bestimmt werden muss, während in der zweiten Gruppe die Identifika-
tion von gleichen bzw. unterschiedlichen Teilen gefordert ist. Abb. 45 verdeut-
licht dies an zwei Beispielitems.
175 Karno & Kone�ni (1992) verwenden z. B. einen Sonatenhauptsatz einer Mozartsymphonie mit veränderter Reihenfolge der Formteile: Durchführung, Reprise, Exposition und Wiederholung der Exposition. Erstaunlicherweise fällt weder Experten noch Laien die Veränderung auf. Einige ähn-lich gelagerte Untersuchungen bestätigen, dass selbst trainierte Musiker bei Vertauschungen von Satzteilen die Musik immer noch einer entsprechenden Formkategorie zuordnen (La Motte-Haber, 2005a). Ob größere Formen überhaupt rein hörend wahrgenommen werden können, wird daher in der Musikpsychologie bezweifelt (La Motte-Haber, 2004, S. 258).
183
Abb. 45: Items D1-3a und D1-3b (Testheft 6)
Item 3a hat als Hörbeispiel das französische Volkslied „Au claire de la lune“. Die-
ses besteht aus insgesamt 16 Takten, wobei immer vier Takte einen Abschnitt (ei-
ne Phrase) bilden. Gespielt wird das Lied von einem Saxophon, wobei der Saxo-
phonist jeweils vor einem neuen Abschnitt atmet. Die vier Abschnitte des Liedes
sind somit relativ deutlich durch kurze Atemzäsuren voneinander abgesetzt. Dem-
gegenüber dient das Volkslied „Im Märzen der Bauer“ als Hörbeispiel für Item
3b. Das sechzehntaktige Lied ist ebenfalls in vier Abschnitte á vier Takte unter-
gliedert, wird dieses Mal jedoch von einer Klarinette gespielt.
Wie weiter oben bereits beschrieben, lautet die Hypothese, dass Item 3b schwieri-
ger zu lösen sein sollte, da hier nicht nur die Abschnitte identifiziert werden müs-
sen, sondern zusätzlich erkannt werden muss, dass der dritte Abschnitt sich von
den anderen Abschnitten unterscheidet. Die in Tab. 36 dargestellten Itemschwie-
rigkeiten stützen diese Hypothese.
Tab. 36: Vergleich der Itemschwierigkeiten der Items D1-3a und D1-3b (Testheft 6)
TH-6 Kurzbeschreibung NR (%) PZK �
D1-3b Liedform (A-A-B-A): Im Märzen der Bauer 41.33 21.77 0.89
D1-3a Anzahl Formabschnitte (4 : A-A-B-A): Au claire de la lune 59.11 45.48 -0.65
Zur Formulierung der Aufgabenmerkmale ist jedoch noch eine genauere Betrach-
tung der für die Aufgabenlösung relevanten Prozesse notwendig. Erneut scheint
hierbei das musikalische Gedächtnis eine entscheidende Rolle zu spielen. Denn
um Item 3b lösen zu können, müssen die ersten vier Takte der Melodie (A-Teil)
memoriert werden. Im Anschluss daran können die folgenden Abschnitte jeweils
mit dem memorierten ersten Abschnitt abgeglichen werden. Im Unterschied dazu
werden durch Item 3a keine besonderen Anforderungen an das musikalische Ge-
184
dächtnis gestellt. Es genügt hierbei die Segmentierung der Melodie in ihre Phra-
senabschnitte.176 Wenngleich die Segmentierung einer Melodie durchaus hoch-
komplexe Anforderungen beinhalten kann (Kreutz, 2005), so ist durch vorliegen-
de Melodie ein denkbar einfacher Fall gegeben. Da die Formabschnitte mit den
Melodiephrasen zusammenfallen, und diese wiederum durch die Atemzäsuren
deutlich segmentiert sind, genügt es, die Formteile anhand der Zäsuren ‚abzuzäh-
len’.177
Es können somit zwei grundlegende Prozesse beschrieben werden, die für die Lö-
sung eines Items zur Erfassung von Formwahrnehmung relevant sind: (1) Seg-
mentierung von Formteilen; die Hypothese lautet hierbei, dass ein Item umso
schwerer wird, je schwerer die Segmentgrenzen (= Ende/Anfang eines Formteils)
zu identifizieren sind. (2) Vergleich von Formteilen; vermutet wird, dass die Lö-
sung eines Items in dem Maße erschwert wird, indem erhöhte Anforderungen an
das musikalische Gedächtnis gegeben sind. Demgemäß ist zu erwarten, dass die
Schwierigkeit eines Items steigt, umso länger und informationsreicher die zu me-
morierenden Formteile sind. Gleichermaßen auszugehen ist von einer Relevanz
der Zeitspanne, über die hinweg ein Formteil im Gedächtnis behalten werden
muss. Beide Prozesse bzw. die dabei vermuteten Aufgabenmerkmale werden in
den folgenden Analysen noch genauer betrachtet und spezifiziert.
Vorab zeigt Tab. 37 eine Auswahl von Items, die entweder nur die Segmentierung
oder darüber hinaus auch den Vergleich von Formteilen zum Inhalt haben. Einer-
seits bestätigt sich auch hier, dass der Vergleich von Formteilen grundsätzlich hö-
here Anforderungen stellt. Andererseits wird aber auch deutlich, dass die katego-
riale Einteilung der beiden Itemgruppen in Items mit und ohne notwendigen Ver-
gleich von Formteilen nicht ausreicht für die Erklärung der unterschiedlichen I-
temschwierigkeiten; denn eine entsprechende Varianz liegt nicht nur zwischen
sondern auch innerhalb der Items einer Gruppe vor. Dies deutet daraufhin, dass
entweder unterschiedliche Ausprägungen der bereits skizzierten Merkmale vorlie-
176 Grundsätzlich möglich ist auch eine Segmentierung des Liedes in größere (2 x 8 Takte) oder kleinere (8 x 2 Takte) Abschnitte. Entsprechende Distraktoren wurden vermieden, um eine eindeu-tige Auswertung zu gewährleisten. 177 Stoffer (2005, S. 608) spricht in diesem Zusammenhang davon, dass bei in der Hierarchie rela-tiv hoch angesiedelten Segmentgrenzen mehrere physische Markierungen zusammenfallen.
185
gen, oder aber noch weitere Merkmale berücksichtigt werden müssen. Beiden
Vermutungen wird in den folgenden Analysen nachgegangen.
Tab. 37: Auswahl der Items zur Formwahrnehmung
Item-ID TH Kurzbeschreibung NR (%) �
D1-17a D1 Rondo (A-B-A-C-A) 5.75 2.43
D1-7 D1 Liedform (A-A-B-A) 29.78 0.43
D1-3b D1 Liedform (A-A-B-A) 50.80 -0.58
D1-3a D1 Anzahl Formabschnitte (4) 52.94 -0.67
D1-8 D1 Anzahl Formabschnitte (3) 70.22 -1.44
Analyse 2: Segmentierung von Abschnitten – Merkmal ‚Markierung von Segment-
grenzen’
Das in Abb. 46 dargestellte Item D1-3a („Au claire de la lune“) ist bereits aus A-
nalyse 1 bekannt.178 Zum Vergleich dient nun Item D1-8, bei dem ebenfalls die
Anzahl der Abschnitte erkannt werden muss. Das Hörbeispiel von Item 8 ist ein
kurzes Musikstück mit drei Abschnitten (Ausschnitt aus „El balado“ der Band „17
Hippies“). Die Segmentierung der Abschnitte wird auch hier jeweils relativ deut-
lich durch Atemzäsuren angezeigt.
Abb. 46: Items D1-3a und D1-8 (Testheft D1)
Im Rahmen der Aufgabenentwicklung war für beide Items ein vergleichbares
Schwierigkeitsniveau angenommen worden, denn die geforderten Wahrneh-
mungsfähigkeiten beschränken sich jeweils auf die Identifikation der Atemzäsu-
ren zur Segmentierung der Abschnitte. Aus Tab. 38 geht nun aber hervor, dass
durchaus ein gewisser Schwierigkeitsunterschied der Items vorliegt.
178 Das Item hat hier lediglich eine andere ID, da der Analyse ein anderes Testheft zugrunde liegt.
186
Tab. 38: Vergleich der Itemschwierigkeiten der Items D1-3a und D1-8 (Testheft D1)
TH-D1 Kurzbeschreibung NR (%) PZK �
D1-3a Anzahl Formabschnitte (4: A-A-B-A): Au claire de la lune 52.94 37.25 -0.67
D1-8 Anzahl Formabschnitte (3: A-B-A’): El balado 70.22 60.29 -1.44
Naheliegend wäre zunächst die Vermutung, dass die Schwierigkeitsdifferenz dar-
auf zurückgeführt werden kann, dass bei Item 8 ein Abschnitt weniger erkannt
werden muss. Diese Argumentation kann aber letztlich nicht überzeugen, da mit
einer erhöhten Anzahl an Abschnitten – sofern alle gleichermaßen eindeutig seg-
mentiert sind – keine erhöhten Anforderungen an die Wahrnehmung oder das mu-
sikalische Gedächtnis gestellt werden. Es liegt diesbezüglich zwischen den beiden
Items also kein qualitativer Unterschied in der Wahrnehmung vor, sondern ledig-
lich ein quantitatives ‚Mehr’ wahrzunehmender Ereignisse gleicher Qualität. So-
fern eine Testperson in der Lage ist, die Abgrenzung zweier Abschnitte anhand
einer Zäsur zu erkennen, so ist kein signifikanter Unterschied zu erwarten in Ab-
hängigkeit davon, ob diese Fähigkeit zweimal oder dreimal eingesetzt werden
muss.179
Zielführender ist ein genauer Vergleich der beiden Hörbeispiele hinsichtlich ihrer
klanglichen Struktur. Dabei fällt auf, dass die Segmentierung bei Item 8 außer
durch die Atemzäsuren auch noch durch die Instrumentierung unterstützt wird.
Der kurze Ausschnitt des Stücks „El balado“ umfasst insgesamt 24 Takte (ganz-
taktig gespieltes 3/8-Metrum), wobei jeweils 8 Takte einen Abschnitt bilden. Je-
der dieser Abschnitte ist unterschiedlich instrumentiert: Violine und gezupftes
Banjo (Abschnitt 1); Violine, Bratsche und gezupftes Banjo (Abschnitt 2); Trom-
pete und geschlagenes Banjo (Abschnitt 3).
Gemäß Stoffer (vgl. Fußnote 177) fallen bei Item 8 also mehr physische Markie-
rungen bei den Segmentgrenzen zusammen. Daran anschließend kann das schwie-
rigkeitsgenerierende Merkmal folgendermaßen beschrieben werden: Die I-
179 Direkt plausibel wird dies, wenn man sich z. B. vorstellt, dass Item 3a noch um eine zweite Strophe verlängert würde. Es ist nicht ersichtlich, warum Schüler, die in der ersten Strophe die Abschnitte richtig identifiziert haben, dies nicht auch in der zweiten Strophe ebenso korrekt tun sollten. Erst wenn ein Hörbeispiel (und entsprechend die Anzahl der Abschnitte) extrem viel län-ger ausfällt, sodass Konzentrationsschwächen und motivationale Einbußen zu erwarten sind, könn-te von einem Einfluss auf die Itemschwierigkeit ausgegangen werden. Dies ist aber sicherlich für vorliegenden Fall, bei dem ein Unterschied von lediglich einem zusätzlichen Abschnitt vorliegt, nicht gegeben.
187
temschwierigkeit ist abhängig von der Beschaffenheit der Segmentgrenzen
(Abschnittsende/-anfang). Je weniger physische Markierungen die Segmentgrenze
zwischen zwei Abschnitten kennzeichnen, desto schwieriger wird ein Item, da da-
durch die Wahrnehmung der Formabschnitte erschwert wird.
Analyse 3: Vergleich von Abschnitten – Merkmale ‚Komplexität/Länge eines
Formteils’ und ‚musikalisches Gedächtnis’
Die folgende Analyse greift die weiter oben formulierte Hypothese auf, dass die
Itemschwierigkeit ansteigt in Abhängigkeit von Komplexität und Umfang der zu
memorierenden Formteile.
In Abb. 47 sind zwei Items dargestellt, zu deren Lösung jeweils zunächst Ab-
schnitte segmentiert werden müssen, um dann die identifizierten Abschnitte mit-
einander vergleichen zu können. Es handelt sich beides Mal um eine A-A-B-A-
Form. Item D1-3b enthält als Hörbeispiel das bereits aus Analyse 1 bekannte
Volkslied „Im Märzen der Bauer“. Als Hörbeispiel für Item D1-2a dient der erste
Teil einer Mazurka von Chopin (op. 68, Nr. 3, T. 1-32).
Abb. 47: Items D1-2a und D1-3b (Testheft D1)
Beim Vergleich der beiden Hörbeispiele werden mehrere Unterschiede deutlich:
Während der Klarinettist (3b) die Formabschnitte mit deutlichen Atemzäsuren
markiert, setzt der Pianist (2a) die Abschnitte durch wechselnde Dynamik vonein-
ander ab.
Das Chopin-Hörbeispiel ist insgesamt länger (2a: 42sec., 3b: 26sec.), insbesonde-
re der zu memorierende A-Teil ist länger (2a: 10sec., 3b: 6sec.).
188
Außerdem ist die Informationsmenge und Komplexität des A-Teils deutlich höher,
was aus Abb. 48 ersichtlich ist.
Abb. 48: Vergleich der A-Teile von Item D1-2a (oben) und D1-3b (unten)
Gemäß der oben formulierten Hypothese sollte 2a eine höhere Itemschwierigkeit
aufweisen, da hier einerseits die Segmentgrenzen schwerer zu identifizieren sind,
andererseits aber vor allem höhere Anforderungen an das musikalische Gedächt-
nis gestellt werden. Die in Tab. 39 dargestellten Werte bestätigen diese Annahme.
Bei der Itemkonstruktion wurde eine relativ hohe Itemschwierigkeit für Item 2a
antizipiert. Um die Wahrnehmungsanforderungen nicht zu hoch zu setzen, wurde
daher das Hörbeispiel mit einer Wiederholung versehen. Dies dürfte entscheidend
dazu beitragen, dass der Schwierigkeitsunterschied von 2a und 3b nicht noch
deutlicher ausfällt, da das Hörbeispiel von Item 3b lediglich einmal gespielt wird.
Tab. 39: Vergleich der Itemschwierigkeiten der Items D1-2a und D1-3b (Testheft D1)
TH-D1 Kurzbeschreibung NR (%) PZK �
D1-2a Liedform (A-A-B-A): Chopin Mazurka 29.78 6.37 0.43
D1-3b Liedform (A-A-B-A): Im Märzen der Bauer 50.80 34.40 -0.58
Analyse 4: Merkmal ‚Einsatz von Fachwissen’
Für die Lösung der bislang betrachteten Items waren ausschließlich Wahrneh-
mungsfähigkeiten notwendig.180 Die Testpersonen mussten erkennen, wo ein Ab-
schnitt endet bzw. beginnt, und ob ein neuer Abschnitt dem vorausgegangenen
gleicht oder nicht. Es war dabei nicht relevant, ob ein wahrgenommener Formver-
lauf mit einem konkreten Formmodell (z. B. Rondo) in Verbindung gebracht wer- 180 Als Teil dieser Wahrnehmungsprozesse ist auch implizites (musikalisch-syntaktisches) Wissen anzusehen (Stoffer, 2005, S. 626 ff.; vgl. auch 4.2.2).
189
den kann. Explizite (deklarative) Wissensbestände waren also für die Aufgaben-
bearbeitung nicht erforderlich.181
Die Annahme erscheint plausibel, dass Items, die zur Bearbeitung zusätzliches
Fachwissen benötigen, grundsätzlich schwieriger zu lösen sein sollten als ver-
gleichbare Items ohne einen entsprechend notwendigen Einsatz von Wissen. Es
verwundert daher auch nicht, dass Studien zur Kompetenzerfassung in anderen
Schulfächern meist wissensbasierte schwierigkeitsgenerierende Merkmale formu-
lieren (z. B. ‚Einsatz von terminologischem Wissen’ o. ä.) und deren Einfluss
auch empirisch validieren können (z. B. Prenzel et al., 2002).
Auch für die KoMus-Items ist es naheliegend, von einem grundsätzlichen Einfluss
eines wissensbasierten Merkmals auszugehen. Sehr anschaulich wird dies bei dem
Vergleich zweier Items zur Erfassung der Formwahrnehmung (Abb. 49 und Abb.
50).
Abb. 49: Item D2-4e (Testheft 8)
Abb. 50: Item D2-4f (Testheft 8)
Beide Items haben als Hörbeispiel das gleiche Rondo (Mozart, KV 15gg). Für die
Lösung von Item 4e muss erkannt werden, dass das Stück aus mehreren Formtei-
len besteht, der A-Teil (das Ritornell) mehrfach wiederholt wird und zwischen
den Wiederholungen des A-Teils jeweils neue Teile (die Couplets) eingefügt sind.
Zur korrekten Bearbeitung von Item 4f ist grundsätzlich die gleiche Wahrneh-
mungsleistung erforderlich. Darüber hinaus muss eine Testperson nun aber auch
noch über das explizite Wissen verfügen, dass die wahrgenommene Abfolge von
181 Zu den verschiedenen Wissens- und Gedächtnisformen und deren Relevanz für den Umgang mit Musik siehe z. B. Bruhn, 2005.
190
Formteilen (A-B-A-C-A) dem Formmodell eines Rondos entspricht. Tab. 40 ver-
deutlicht den dadurch entstehenden Schwierigkeitsunterschied.
Tab. 40: Vergleich der Itemschwierigkeiten der Items D2-4e und D2-4f (Testheft 8)
TH-8 Kurzbeschreibung NR (%) PZK �
D2-4f Rondo (A-B-A-C-A): nur Fachterminologie 26.86 9.83 0.60
D2-4e Rondo (A-B-A-C-A): Umschreibung ohne Fachterminologie 59.09 45.45 -1.03
Die Analyse zeigt, dass der notwendige Einsatz expliziter Wissensbestände ver-
mutlich auch in Bezug auf musikspezifische Aufgaben ein schwierigkeitsgenerie-
rendes Merkmal darstellt. Wenngleich dieses Merkmal hier im Zusammenhang
mit der Formwahrnehmung beschrieben wurde, so ist es doch naheliegend, einen
Einfluss gleichermaßen auch für den gesamten Itempool anzunehmen (vgl. 7.3).182
Zusammenfassung
Auch in Bezug auf die Items zur Formwahrnehmung können verschiedene
schwierigkeitsgenerierende Aufgabenmerkmale identifiziert werden. Basierend
auf den vergleichenden Analysen und inhaltlichen Betrachtungen der einzelnen
Items lassen sich vier Merkmale formulieren, für die ein Einfluss auf die I-
temschwierigkeit vermutet wird. Demgemäß ist die Schwierigkeit der Items zur
Erfassung von Formwahrnehmung abhängig von
1. der physischen Markierung von Abschnitten. Es wird angenommen, dass die
Itemschwierigkeit steigt, umso weniger deutlich physische Markierungen die
Segmentgrenzen zwischen zwei Abschnitten kennzeichnen;
2. der notwendigen Nutzung des musikalischen Gedächtnisses. Sofern ein Form-
abschnitt (oder Teile davon) memoriert werden müssen, ist von einer erhöhten
Itemschwierigkeit auszugehen;183
182 Diese Annahme verweist auf eine wichtige Eigenschaft von Aufgabenmerkmalen: Sie müssen in gewissem Umfang über eine konkrete Aufgabe hinaus verallgemeinert werden können. Denn nur dann können mittels der Aufgabenmerkmale die Itemschwierigkeiten eines ganzen Tests vor-hergesagt werden. Mit dieser Thematik werden sich die folgenden Abschnitte und insbesondere Abschnitt 7.5 befassen. 183 In Bezug auf den KoMus-Itempool kennzeichnet dieses Merkmal den Unterschied zwischen der Erkennung von Abschnitten und dem Vergleich von Abschnitten. Dies gilt selbstverständlich nur für die vorgestellten Items und die Art, wie dort Formwahrnehmung erfasst wird. Da bei den KoMus-Items zur Abschnitterkennung die Segmentgrenzen immer durch relativ deutliche physi-sche Markierungen gekennzeichnet sind, spielt hierbei das musikalische Gedächtnis keine oder nur eine untergeordnete Rolle. Bei komplexeren Formen (z. B. Fuge, Variation) ist es hingegen häufig
191
3. der Länge und Komplexität der Formteile;184
4. dem für die Aufgabenlösung notwendigen expliziten Wissen.
In diesem und dem vorangegangenen Abschnitt (7.1) konnten einerseits verschie-
dene Merkmale beschrieben werden, die in genuinem Zusammenhang mit der
Wahrnehmung von Rhythmus und Form stehen. Andererseits erbrachten die Ana-
lysen aber auch Merkmale, die sich auf grundlegende Wahrnehmungsvorgänge,
Eigenschaften eines Hörbeispiels oder die Art einer Aufgabenstellung beziehen,
also vermutlich nicht ausschließlich auf die Rhythmus- und Formwahrnehmung
beschränkt sind, sondern auf übergeordneter Ebene anzusiedeln sind. Auf diese
Gruppe von schwierigkeitsgenerierenden Merkmalen soll in den folgenden beiden
Abschnitten näher eingegangen werden.
7.3 Wissensbasierte Aufgabenmerkmale
Zunächst mag es etwas verwundern, dass explizites Fachwissen185 im Rahmen ei-
nes Kompetenzmodells bzw. darauf bezogener Testaufgaben eine größere Rolle
spielt. Wird doch in der Diskussion um Input- und Outputsteuerung immer wieder
betont, dass mit dem Kompetenzbegriff eine Bewegung weg von der Vermittlung
einzelner Inhalte, von der Fokussierung auf Faktenwissen, hin zu einem an Fähig-
keiten und Fertigkeiten orientieren Lehr-/Lernkonzept verbunden ist. Betrachtet
man jedoch den Kompetenzbegriff genauer (vgl. 2.1.2), so wird deutlich, dass die-
ser keineswegs den Stellenwert von Wissen grundsätzlich infrage stellt. Vielmehr
geht es im Rahmen des Kompetenzkonzepts darum, den Erwerb von Wissen in
einen größeren und vor allem anwendungsbezogenen Zusammenhang zu stellen:
„Kompetenz stellt die Verbindung zwischen Wissen und Können […] her und ist
nicht möglich die Segmentgrenzen zu bestimmen, ohne z. B. ein Thema, Motiv o. ä. zu memorie-ren. 184 Ein Einfluss dieses Merkmals wird nur für Aufgaben vermutet, die einen Vergleich von Form-teilen verlangen. Sofern dieser nicht notwendig ist und auch zur Bestimmung der Segmentgrenzen kein musikalisches Gedächtnis erforderlich ist, sollte das Merkmal nicht schwierigkeitsrelevant sein. 185 Gemeint ist hier und im Folgenden immer Wissen, das sich speziell auf das Fach Musik be-zieht. In der Psychologie werden hierfür auch die Begriffe ‚bereichsspezifisches’ und ‚domänen-spezifisches’ Wissen verwendet. Abzugrenzen davon ist allgemeines Wissen, das sich auf viele verschiedene Domänen anwenden lässt (z. B. Wissen in Bezug auf den Umgang mit Computer und Internet).
192
als Befähigung zur Bewältigung von Situationen bzw. von Aufgaben zu sehen“
(Klieme et al., 2003, S. 73). Wissen ist also eine zentrale Facette von Kompetenz,
die jedoch keinen Wert an sich hat, sondern eher im Sinne einer Ressource ver-
standen wird, die Schüler in die Lage versetzt, mit den an sie gestellten Hand-
lungsanforderungen sinnvoll umgehen zu können (Criblez et al., 2009, S. 36).
Wenngleich die Verwendung des Kompetenzbegriffs in den aktuellen Musikcurri-
cula häufig relativ verkürzt erfolgt (vgl. 2.2.1; Knigge & Lehmann-Wermser,
2008), so ist es im Anschluss an den zuvor genannten Punkt doch absolut folge-
richtig, dass trotz einer stärkeren Fokussierung auf Fähigkeiten und Fertigkeiten
die dafür notwendige Wissensbasis nicht aus dem Blick gerät. Auf curricularer
Ebene werden daher musikbezogene Kompetenzen typischerweise beschrieben
mit Formulierungen wie „Schülerinnen und Schüler können XY“ und „Schülerin-
nen und Schüler verfügen über das Wissen XY“. Wichtig ist nun, dass diese bei-
den Kompetenzfacetten nicht isoliert voneinander betrachtet werden – was jedoch
für einige Curricula durchaus in mehr oder weniger starker Ausprägung zutrifft –
sondern miteinander in Verbindung gebracht werden. Entsprechende Formulie-
rungen lauten dann „Schülerinnen und Schüler wenden ihr erworbenes Wissen in
der Anforderungssituation XY (z. B. Improvisieren) an“. Ein konkretes Beispiel
ist bereits in den Itemanalysen zur Formwahrnehmung angeklungen (7.2, Analy-
se 4): Dort sollte die Fähigkeit, einen Formverlauf wahrzunehmen, in Verbindung
gebracht werden mit dem Fachwissen, dass bestimmte Konstellationen von Form-
teilen gewissen Formmodellen entsprechen, die wiederum terminologisch eindeu-
tig definiert sind (z. B. Rondo). Grundsätzlich zeigen sich die Curricula an diesem
Punkt sehr anschlussfähig in Bezug auf das Kompetenzkonzept, denn im Speziel-
len für die Kompetenz des hörenden Wahrnehmens wird in der Regel immer der
Bezug zu domänenspezifischen Wissensdimensionen hergestellt (z. B. musikhis-
torisches oder -theoretisches Wissen; vgl. auch 4.2.1).
Sofern ein Kompetenzmodell und ein darauf bezogenes Testverfahren beanspru-
chen, auf der theoretischen Basis des Kompetenzbegriffs konstruiert und curricu-
lar valide zu sein, so ist es sinnvoll und notwendig auch explizites Fachwissen bei
der Konstruktion von Testaufgaben mit einzubeziehen. Im Anschluss an die vori-
gen Ausführungen ist hierfür entscheidend, dass es sich dabei nicht um die isolier-
te Abfrage einzelner Inhalte handelt (z. B. „Wann wurde Mozart geboren?“), son-
dern das Wissen in konkreten Anforderungssituationen angewandt werden muss.
193
Dieser Grundsatz wurde für alle KoMus-Items eingehalten, sodass der Einsatz
von Wissen bei einem Item immer nur ein Aufgabenmerkmal unter anderen ist.
Die folgenden Ausführungen werden dies verdeutlichen.
In den Analysen zur Rhythmus- und Formwahrnehmung (7.1 und 7.2) konnten
meist mehrere Items miteinander verglichen werden, die in Bezug auf einen Groß-
teil der Aufgabencharakteristika identisch oder zumindest gut zu vergleichen wa-
ren. Ein vorliegender Unterschied der Itemschwierigkeiten konnte dadurch auf
wenige, meist ein einzelnes Aufgabenmerkmal zurückgeführt werden. Die so
formulierten hypothetischen Merkmale sind zwar noch nicht empirisch validiert,
durch eine erste Konfrontation mit empirischen Daten konnten aber deren grund-
sätzliche Plausibilität überprüft und die Hypothesen weiter ausdifferenziert wer-
den. Ein ähnliches Vorgehen ist für die im Folgenden diskutierten Merkmale nur
in begrenztem Umfang möglich. Dies liegt daran, dass in Bezug auf wissensba-
sierte Merkmale im KoMus-Itempool nur wenige Items vorliegen, die die Aufga-
bencharakteristika ähnlich systematisch variieren, wie dies für die Rhythmus- und
Formwahrnehmung gegeben ist. Dementsprechend müssen einige der folgenden
Hypothesen zunächst ohne einen Abgleich mit empirischem Datenmaterial formu-
liert werden. Eine statistische Analyse dieser Merkmale kann dann erst auf Test-
ebene erfolgen (vgl. 7.5)
Analyse 1: Wahrnehmung mit und ohne explizites Fachwissen
Diese erste Analyse greift noch einmal das bereits im Rahmen der Formwahr-
nehmung diskutierte Merkmal ‚Einsatz von Fachwissen’ in grundlegender Hin-
sicht auf (vgl. 7.2, Analyse 4).
Abb. 51: Items D2-1c-1 und D2-1c-2 (Testheft 6)
194
Abb. 51 zeigt zwei Items, die in Bezug auf die Wahrnehmung identische Anforde-
rungen stellen. Während bei Item 1c-1 jedoch kein Fachwissen für die Lösung des
Items notwendig ist, erfordert Item 1c-2 eine genaue Kenntnis des Begriffs ‚Tril-
ler’.
Gemäß der bereits formulierten Hypothese sollte ein Item, das die gleiche Wahr-
nehmungsleistung erfordert, darüber hinaus aber auch den Einsatz von Fachwis-
sen, deutlich schwerer sein. Die in Tab. 41 aufgeführten statistischen Werte bestä-
tigen erneut den Einfluss des relevanten Wissenseinsatzes auf die Itemschwierig-
keit.186
Tab. 41: Vergleich der Itemschwierigkeiten der Items D2-1c-1 und D2-1c-2 (Testheft 6)
TH-6 Kurzbeschreibung NR (%) PZK �
D2-1c-2 Triller-Hörbeispiel mit Fachterminologie 47.11 36.53 -0.12
D2-1c-1 Triller-Hörbeispiel ohne Fachterminologie 83.11 77.48 -1.95
Analyse 2: Qualität des Wissens
In der vorigen Analyse wurde deutlich, dass der notwendige Einsatz von Fachwis-
sen grundsätzlich relevant für die Itemschwierigkeit ist. Es ist naheliegend, hierbei
nicht nur von einer dichotomen Ausprägung des Merkmals auszugehen, sondern
das Merkmal noch weiter auszudifferenzieren in Bezug auf die Qualität des Wis-
sens. Gemeint ist hiermit, dass es vermutlich nicht nur einen Unterschied macht,
ob Wissen für die Aufgabenlösung notwendig ist oder nicht, sondern auch, in
welch elaborierter und abstrakter Form dieses Wissen vorliegen muss. Mindestens
zwei Abstufungen des Aufgabenmerkmals können so beschrieben werden: 1. Für
186 Die angestellten Überlegungen weisen über die Bedeutung des Fachwissens hinaus auch auf ei-ne grundsätzliche Problematik bei der Interpretation von Aufgabenlösungen hin. Während für den Teil der Schüler, die das Item 1b-2 korrekt lösen, festgehalten werden kann, dass sie sowohl zwei schnell abwechselnde Töne wahrgenommen haben als auch diese Wahrnehmung mit ihrem termi-nologischen Wissen in Verbindung bringen können, ist die Interpretation einer falschen Itembear-beitung viel schwieriger. Hierbei könnte man aufgrund der relativ niedrigen Wahrnehmungsanfor-derung zunächst vermuten, dass für die Aufgabenbearbeitung hauptsächlich das wissensbasierte Merkmal und kein wahrnehmungsbasiertes relevant ist und somit also ein fehlendes Fachwissen für die falsche Antwort verantwortlich sein sollte. Trotzdem wäre grundsätzlich auch der umge-kehrte Fall denkbar: Ein Schüler verfügt zwar über ein elaboriertes Wissen in Bezug auf Verzie-rungen, ist aber nicht in der Lage, in dem Hörbeispiel den für eine Trillerfigur charakteristischen schnellen Wechsel von Haupt- und Nebennote zu identifizieren. Dass es Schüler gibt, die über die entsprechende Wahrnehmungsfähigkeit nicht verfügen, zeigen die 16.89 % falschen Antworten bei Item 1b-1. Ob für eine fehlerhafte Bearbeitung des Items 1b-2 letztlich ein mangelndes Fachwis-sen oder eine fehlende Wahrnehmungsfähigkeit verantwortlich ist, kann somit also nicht aus den Daten erschlossen werden. An diesem Beispiel wird erneut deutlich, dass Testaufgaben in der Re-gel eben nur bedingt für fehler- und individualdiagnostische Zwecke einsetzbar sind.
195
die Lösung eines Items ist ein grobes, eher vages Begriffsverständnis notwendig
(z. B. wissen, dass Rondo ein Formmodell ist); 2. Für die Aufgabenbearbeitung
bedarf es eines sehr detaillierten, elaborierten Wissens (z. B. wissen, dass Rondos
häufig in der Wiener Klassik anzutreffen sind und u. a. die Abfolge A-B-A-C-A
von Refrain und Couplets aufweisen können). Bei Durchsicht der KoMus-Items
zeigt sich, dass solch eine zweistufige Kodierung des Aufgabenmerkmals prinzi-
piell gut anwendbar ist. Die folgenden beiden Items verdeutlichen dies exempla-
risch.
Abb. 52 zeigt eine modifizierte Fassung eines Items (D3-4a), bei dem nur noch
die für diese Analyse relevante Antwortalternative vorhanden ist (im Original hat
das Item acht Antwortalternativen und einen längeren Partiturausschnitt). Die
Schüler müssen bei jeder Antwortalternative entscheiden, ob die dort formulierte
Aussage zutrifft oder nicht. Um das Item lösen zu können, bedarf es des Wissens,
dass ein Bassschlüssel ein Notationssymbol ist und wie dieses grafisch dargestellt
wird. Weiteres Wissen in Bezug auf Notenschlüssel ist an dieser Stelle nicht not-
wendig.
Abb. 52 Item D3-4a (Testheft 7)
Abb. 53: Item D3-5 (Testheft 8)
196
Anders stellt sich die Situation für Item D3-5 dar. Hier genügt es nun nicht mehr,
lediglich die grafische Repräsentation eines Bassschlüssels zu kennen, vielmehr
muss eine Testperson den Unterschied zwischen Violin- und Bassschlüssel be-
nennen können. Erst wenn ein genaues Wissen darüber vorhanden ist, in welchem
Verhältnis notierte und klingende Musik bei dem jeweiligen Schlüssel stehen,
kann die Aufgabe gelöst werden.187
Analyse 3: Wechselwirkung von Wahrnehmung und Wissen
Die vorangegangenen Analysen haben den Einfluss von wissensbasierten Aufga-
benmerkmalen auf die Itemschwierigkeit verdeutlicht. Dabei war es jeweils so,
dass der Einsatz des Fachwissens eher additiv zu einer notwendigen Wahrneh-
mungsleistung hinzutrat. Die Wahrnehmung als solche wurde aber durch das rele-
vante Wissen nicht beeinflusst. Die folgende Analyse zeigt, dass durch einen ge-
forderten Wissenseinsatz auch veränderte Anforderungen an die Wahrnehmungs-
fähigkeiten entstehen können.
Abb. 54: Item D1-15c-1 (Testheft 3)
Abb. 55: Item D1-15g (Testheft 3)
187 Ein Vergleich der Itemschwierigkeiten ist an dieser Stelle nicht sinnvoll, da beide Items ein un-terschiedliches Format, aber auch eine Reihe von unterschiedlichen Aufgabenmerkmalen aufwei-sen.
197
In Abb. 54 und Abb. 55 sind zwei Items zu sehen, die beide die Wahrnehmung
des musikalischen bzw. emotionalen Ausdrucks von Musikstücken zum Inhalt ha-
ben.188 Bei Item D1-15c-1 muss der wahrgenommene Ausdruck einer kurzen Be-
schreibung zugeordnet werden. Die Aufgabenstellung von Item D1-15-g verlangt
außer einer vergleichbaren Wahrnehmungsleistung auch den Einsatz von Fach-
wissen: Es soll nun nicht nur ein passendes Adjektiv gefunden werden, darüber
hinaus müssen die Eigenschaften („musikalische Mittel“)189 der Musik beschrie-
ben werden, die zu dem Ausdrucksgehalt der Musik beitragen.
Als Hörbeispiel für Item 15g dient ein Ausschnitt aus Bizets Ouvertüre zu Car-
men. Eine als vollständig korrekt gewertete Antwort eines Schülers lautet z. B.
folgendermaßen: „Die Musik wirkt... fröhlich und festlich, denn… die Pauken und
Trompeten spielen laut und festlich. Das Trillern der Instrumente macht das Stück
fröhlich. Das Tempo ist außerdem recht schnell“. An dieser exemplarischen Schü-
lerantwort wird deutlich, dass Fachwissen in Bezug auf grundlegende musikali-
sche Parameter (Tempo, Dynamik, Instrumentation, Spielweise) notwendig ist.
Auch für dieses Item ist daher von einem Einfluss des Merkmals ‚Einsatz von
Fachwissen’ auszugehen, was durch Tab. 42 bestätigt wird. Die sehr große Diffe-
renz der Itemparameter von 2.96 logits dürfte jedoch nicht allein auf das notwen-
dige Wissen zurückzuführen sein.
188 Für die Aufgabenentwicklung zu dieser Modellfacette wurden musikpsychologische For-schungsarbeiten genutzt, die untersuchen, inwieweit die emotionale Ausdrucksqualität von Musik durch Rezipienten dekodiert werden kann (z. B. Kreutz, Ott & Vaitl, 2006; Sloboda & Juslin, 2005). Vor allem die dort vorgenommene Unterscheidung zwischen „Emotionsperzeption (Wahr-nehmung des emotionalen Ausdruckes in Musik ohne notwendigerweise selbst betroffen zu sein) und Emotionsinduktion (die emotionelle Reaktion des Musikhörers)“ (Gabrielsson, 2001/2002, S. 123) war für die Itemkonstruktion von entscheidender Bedeutung. Denn Inhalt eines Kompe-tenztests kann nicht die emotionale Reaktion eines Schülers sein, wohl aber dessen Wahrnehmung des in einem Musikstück intendierten Ausdrucks. Denn diese Wahrnehmungsfähigkeit ist an ob-jektive Strukturmerkmale musikalischer Kompositionen gebunden (Kreutz, Ott &Vaitl, 2006) und dadurch auch in gewissem Umfang durch den Musikunterricht beeinflussbar (Gembris, 2006, S. 135). In methodischer Hinsicht hat es sich hierbei als hilfreich erwiesen, ausschließlich Musik zu verwenden mit kategorial unterschiedlichem und sehr eindeutig zuzuordnendem Ausdruck. Als Orientierung für die Formulierung entsprechender Antwortalternativen diente der Adjektiv-Zirkel von Hevner (vgl. Gabrielsson & Lindström, 2001; s. auch Abb. 54). 189 Der Begriff ‚musikalische Mittel’ wurde in dem entsprechenden Testheft bereits bei einer vo-rangegangenen Aufgabe eingeführt und erklärt.
198
Tab. 42: Vergleich der Itemschwierigkeiten der Items D1-15c-1 und D1-15g (Testheft 3)
TH-3 Kurzbeschreibung NR (%) PZK �
D1-15g Erfassung des emotionalen Ausdrucks + musikalische Mittel 57.89 - 0.54
D1-15c-1 Erfassung des emotionalen Ausdrucks 94.74 93.43 -2.42
Dadurch, dass die Testpersonen aufgefordert werden, ihr Wissen in Bezug auf
musikalische Parameter mit dem wahrgenommenen emotionalen Ausdruck der
Musik zu verbinden, wird automatisch eine komplexere Wahrnehmungsleistung
notwendig. Denn während für die Zuordnung des musikalischen Ausdrucks zu ei-
nem passenden Adjektiv vermutlich ein eher ganzheitliches und relativ undiffe-
renziertes Hören ausreichend ist, muss zur Beschreibung der musikalischen Para-
meter die Aufmerksamkeit gezielt auf einzelne Details der Musik gelenkt werden.
Erst wenn z. B. eine Instrumentengruppe aus dem Gesamtklang isoliert werden
kann, ist es möglich, diese in ihrer Spielweise und deren Beitrag zum emotionalen
Ausdruck der Musik zu beschreiben (z. B. laut schmetternde Trompeten in hoher
Lage, die der Musik einen festlichen Duktus verleihen). Der Einsatz des Wissens
und die Wahrnehmung stehen hier also in einem reziproken Verhältnis. Dieses
Verhältnis kann als ein Zusammenspiel gedacht werden, bei dem einerseits das
Wissen die Wahrnehmung steuert (man weiß z. B., dass Dynamik und Tempo ent-
scheidend für die Wirkung einer Musik sind und richtet die Wahrnehmung des-
halb auf eben diese Parameter) oder aber andererseits die Wahrnehmung der Ak-
tivierung von Wissensbeständen vorausgeht (man hört z. B. eine laute, hohe Me-
lodie und richtet die Aufmerksamkeit auf deren weiteren Verlauf; daran anschlie-
ßend kommt das Wissen zum Einsatz, dass es sich hierbei um Trompeten handelt,
die im Forte spielen und deren schnelle Tonwechsel als Triller zu bezeichnen
sind). Die Musikpsychologie spricht hier von einem Zusammenspiel reizgeleiteter
‚bottom-up’ Prozesse und wissensgeleiteter ‚top-down’ Vorgänge (z. B. La Mot-
te-Haber, 2005b; Stoffer, 2005; vgl. auch 4.2.2).
Analyse 4: Verschiedene Wissensdimensionen
Bei Betrachtung des Kompetenzmodells und des darauf bezogenen Itempools
wird deutlich, dass das erforderliche Fachwissen verschiedenen inhaltlichen Wis-
sensdimensionen zugeordnet werden kann, so z. B. den Bereichen Musiktheorie
oder Musikgeschichte.
199
Prenzel et al. (2002) schlagen für wissensbasierte Aufgabenmerkmale eine Auf-
schlüsselung in aus didaktischer Sicht sinnvoll zu differenzierende Inhalte vor.
Solch ein Vorgehen erscheint in zweierlei Hinsicht sinnvoll:
(1) Durch eine Merkmalskodierung nach Inhalten ergibt sich ein höherer Diffe-
renzierungsgrad. Es kann so nicht nur festgestellt werden, ob der Einsatz von
Fachwissen prinzipiell schwierigkeitsgenerierend wirkt, sondern auch, ob ein e-
ventueller Einfluss an bestimmte Inhalte gebunden ist.
(2) Die inhaltliche Ausdifferenzierung der wissensbasierten Merkmale hat eine
Entsprechung in der fachlichen Struktur: Musikgeschichte und Musiktheorie sind
beispielsweise typische inhaltliche Dimensionen des Musikunterrichts, die sich
auf curricularer Ebene ebenso finden wie in Schulbüchern und didaktischen Mate-
rialien. Sofern die schwierigkeitsgenerierenden Merkmale einmal zur Beschrei-
bung und Generierung von Aufgaben, evtl. aber auch für die Festlegung von
Kompetenzniveaus verwendet werden, so erscheint es aus fachdidaktischer Per-
spektive höchst sinnvoll, bereits bei der Identifikation der Merkmale die fachli-
chen Dimensionen mitzudenken, die in Bezug auf eine spätere Ergebnisinterpreta-
tion und -rückmeldung für Lehrkräfte und Schüler relevant sein werden.
Im Anschluss an diese Überlegungen und unter Berücksichtigung der im KoMus-
Itempool repräsentierten Wissensinhalte werden in vorliegender Arbeit vier Wis-
sensdimensionen unterschieden und entsprechend als Merkmale kodiert: musik-
theoretisches, -historisches und -stilistisches Fachwissen sowie Wissen in Bezug
auf kulturelle und soziale Kontexte von Musik.
Zusammenfassung
Die Analysen und Ausführungen zu wissensbasierten Aufgabenmerkmalen haben
verdeutlicht, dass grundsätzlich von einem schwierigkeitsrelevanten Einfluss aus-
zugehen ist, wenn für die Lösung einer Aufgabe der Einsatz von Fachwissen not-
wendig ist. Das Merkmal ‚Einsatz von Fachwissen’ kann außerdem noch weiter
ausdifferenziert werden:
(1) Die Itemschwierigkeit ist nicht nur davon abhängig, ob das Merkmal grund-
sätzlich vorliegt, auch die Qualität des Wissens ist von Relevanz. Demgemäß ist
von einer steigenden Itemschwierigkeit auszugehen, umso detaillierter und elabo-
rierter das Wissen vorhanden sein muss.
200
(2) In inhaltlicher Hinsicht erscheint die Aufschlüsselung des Merkmals nach
Wissensdimensionen sinnvoll. Es ergeben sich somit vier wissensbasierte Merk-
male, die sich in Bezug auf die inhaltliche Dimension unterscheiden (musiktheo-
retisches, -historisches und -stilistisches Fachwissen sowie Wissen in Bezug auf
kulturelle und soziale Kontexte von Musik).
7.4 Merkmalsebene ‚Aufgabe’
7.4.1 Aufgabenmerkmal ‚Itemformat’
In Studien, die den Einfluss von Aufgabenmerkmalen auf die Aufgabenschwie-
rigkeit untersuchen, werden häufig die verwendeten Itemformate als Merkmale
beschrieben. Hinter dieser Vorgehensweise steht die Annahme, dass die Schwie-
rigkeit, beispielsweise einer Mathematik-Aufgabe, nicht nur von den mathemati-
schen Kompetenzen der Schüler abhängt, sondern auch durch das Itemformat be-
einflusst wird. Es wird angenommen, dass es Schülern grundsätzlich schwerer
fällt, eine Antwort eigenständig zu formulieren (freie Formate: halboffen, offen),
als eine vorgegebene Antwortalternative auszuwählen (gebundene Formate: Mul-
tiple-Choice-, Richtig-Falsch-, Zuordnungs-Items). Hierfür sind in der Regel zwei
Faktoren ausschlaggebend. Einerseits stellt ein freies Format erhöhte Anforderun-
gen an die sprachlichen Fähigkeiten (Textproduktion/Schreibleistung). Anderer-
seits spielen auch motivationale Aspekte eine Rolle, denn ein freies Aufgaben-
format ist in Bezug auf die rein technische Bearbeitung immer aufwendiger zu lö-
sen als ein gebundenes Format, bei dem z. B. lediglich eine Antwort angekreuzt
werden muss.
Eine Untersuchung des Zusammenhangs von Itemschwierigkeit und -format ist
daher aufschlussreich und wichtig, da so der Einfluss von diesen allgemeinen und
eher technischen Oberflächencharakteristika einer Aufgabe unterschieden werden
kann von den Aufgabenmerkmalen, die in genuinem Zusammenhang mit den an-
visierten musikspezifischen Kompetenzen stehen. Die Analyse von nicht kompe-
tenzspezifischen Merkmalen dient somit auch der Absicherung der Konstruktvali-
dität der Items bzw. des Kompetenztests.
Im Folgenden wird ein für die KoMus-Items evtl. vorhandener schwierigkeitsre-
levanter Einfluss des Merkmals ‚Itemformat’ mittels Korrelationsanalysen unter-
201
sucht. Gemäß der Hypothese, dass freie Formate schwierigkeitsgenerierend wir-
ken, sind dabei positive Korrelationen mit der Itemschwierigkeit zu erwarten.
Tab. 43: Verteilung der Item-Formate auf die einzelnen Testhefte
Gebundene Formate Freie Formate
Testheft Absolut % Absolut %
1 15 100 0 0
2 13 87 2 13
3 11 73 4 27
4 19 83 4 17
5 19 66 10 34
6 15 63 9 37
7 9 60 6 40
8 11 46 13 54
9 12 63 7 37
Gesamt 124 69 55 31
Tab. 43 gibt zunächst einen Überblick über die Verteilung der Itemformate inner-
halb der neun Testhefte. Während in den ersten vier Testheften hauptsächlich ge-
bundene Formate verwendet wurden, sind in den Testheften 5-9 jeweils mindes-
tens ein Drittel freie Aufgabenformate enthalten.
Aufgrund der ungünstigen Häufigkeitsverteilungen der Formate in den Testheften
1-4 werden für die Korrelationsanalysen nur die Testhefte 5-9 verwendet. Korre-
liert wird jeweils die dichotome Variable ‚Itemformat’ (Ausprägungen: gebun-
den/frei)190 mit der empirisch gemessenen Itemschwierigkeit (Itemparameter des
Rasch-Modells). In Tab. 44 sind die berechneten punktbiserialen Korrelationen
angegeben.
Tab. 44: Punktbiseriale Korrelation von Itemformat und Itemschwierigkeit
Itemformat
Itemschwierigkeit 0.140 0.553* 0.137 0.518** 0.447*
Testheft 5 6 7 8 9
* p<.05, ** p <.01
190 Kodiert ist die Variable mit 0 = gebundenes Format und 1 = freies Format.
202
Grundsätzlich bestätigen die Korrelationen den vermuteten Zusammenhang von
Itemformat und -schwierigkeit. Es liegen ausschließlich positive Korrelationen
vor, die bei Testheft 5 und 7 jedoch sehr schwach und nicht signifikant ausfallen.
Signifikante Korrelationen mittlerer Stärke liegen für die Testhefte 6, 8 und 9 vor.
Wie sind diese Ergebnisse zu interpretieren? Zunächst legen die Korrelationsana-
lysen auch für die KoMus-Items die Annahme eines Zusammenhangs von Item-
format und -schwierigkeit nahe. Zu fragen ist allerdings, ob der vermeintliche
schwierigkeitsgenerierende Einfluss des Itemformats tatsächlich auf das Format
als solches zurückgeführt werden kann. Denkbar wäre auch, dass in den Items mit
freiem Format weitere Merkmale repräsentiert sind, die eigentlich für die Schwie-
rigkeit verantwortlich sind, nur eben besonders häufig in Kombination mit den
freien Itemformaten auftreten. Diese Vermutung ist auch deshalb naheliegend, da
die Richtlinien zur Aufgabenentwicklung (vgl. 4.3) explizit eine Verwendung of-
fener Items für die Erfassung komplexerer Anforderungen und höherer Kompe-
tenzniveaus vorsehen. Vor diesem Hintergrund ist es zunächst wenig verwunder-
lich, dass die KoMus-Items mit freiem Format im Durchschnitt höhere I-
temschwierigkeiten aufweisen als gebundene Itemformate.191 Um die tatsächliche
Relevanz des Merkmals ‚Itemformat’ genauer bestimmen zu können, müsste der
Einfluss des Itemformats bei gleichzeitigem Einbezug weiterer schwierigkeitsre-
levanter Merkmale untersucht werden. Ein geeignetes statistisches Verfahren wä-
re hierfür beispielsweise die multiple lineare Regression (z. B. Bühner & Ziegler,
2009, S. 634 ff.). Anhand solch einer Analyse könnte beurteilt werden, ob das I-
temformat ein aussagekräftiger Prädiktor für die Itemschwierigkeit ist, oder aber
diese vielmehr von anderen (musik- bzw. wahrnehmungsspezifischen) Merkmalen
abhängt. Hierfür müssen aber zunächst tragfähige und für den gesamten Item-Pool
anwendbare Aufgabenmerkmale vorliegen, bevor diese dann für weitere Analyse-
schritte verwendet werden können (vgl. 7.5).
Vorerst wird das schwierigkeitsgenerierende Merkmal ‚Itemformat’ beibehalten,
jedoch in dem Bewusstsein, dass es sich bei den gefundenen Korrelationen um
Scheinkorrelationen handeln könnte.
191 Die punktbiseriale Korrelation entspricht konzeptuell einem t-Test für unabhängige Stichpro-ben (Bortz, 2005, S. 225 f.).
203
7.4.2 Aufgabenmerkmal ‚sprachliche Anforderungen’
Ein weiteres Merkmal, das auf der Ebene der technischen Oberflächencharakteris-
tika einer Aufgabe anzusiedeln ist, sind die sprachlichen Anforderungen, die
durch die textspezifische Beschaffenheit des Itemstamms aber auch der Antwort-
alternativen gegeben sind. Ähnlich wie bei dem Merkmal ‚Itemformat’ handelt es
sich hierbei nicht um ein musikspezifisches Merkmal: Der schwierigkeitsgenerie-
rende Einfluss steht in Zusammenhang mit den Lesefähigkeiten einer Testperson.
Direkt ersichtlich ist dies aus den beiden Beispielitems in Abb. 56 und Abb. 57.
Abb. 56: Item mit hohen sprachlichen Anforderungen
Abb. 57: Item mit niedrigen sprachlichen Anforderungen
Cohors-Fresenborg et al. (2004) sprechen in Bezug auf dieses Merkmal von einer
Art Filter, der zwischen der Aufgabenstellung und dem eigentlichen Bearbei-
tungsprozess eingeschoben ist:
„Denkbar ist der eine Extremfall, dass bei einer Aufgabe eine Testperson selbst zu ein-fachen Denkvorgängen nicht mehr veranlasst wird, weil sie gar nicht zu einer passen-den Vorstellung von der durch den Text gegebenen Aufgabe gelangt. Man stelle sich in diesem Fall die hohe sprachlogische Komplexität als einen Filter vor, der verhin-dert, dass es überhaupt zu einer sinnvollen Bearbeitung der Aufgabe kommt. Der um-gekehrte Extremfall, dass der Aufgabentext sofort durchsichtig ist, danach aber die Schwierigkeit der notwendigen Denkprozesse einsetzt, tritt sicherlich häufiger auf.“ (S. 120)
Anschaulich wird dieses Verständnis der sprachlichen Anforderungen einer Auf-
gabe in dem in Abb. 58 dargestellten Prozessmodell der Aufgabenbearbeitung.
204
Abgesehen von den mathematikspezifischen Teilen des Modells, lässt sich dieses
auch problemlos auf die KoMus-Items übertragen.
Abb. 58: Prozessmodell der Bearbeitung einer Mathe-matik-Aufgabe (nach: Cohors-Fresenborg et al., 2004, S. 121)
Geht man von einem Einfluss sprachlicher Anforderungen auf die Itemschwierig-
keit aus, so stellt sich die Frage, wie das entsprechende Merkmal genauer spezifi-
ziert werden kann. Prinzipiell wäre hier im Sinne einer Lesekompetenzbeschrei-
bung ein sehr hoher Differenzierungsgrad möglich. Wie differenziert das Merk-
mal letztlich beschrieben wird, ist primär von dem verwendeten Item-Pool abhän-
gig, aber auch davon, welche Varianz an sprachlichen Anforderungen in den I-
tems vorhanden ist. Dementsprechend sind in der Literatur verschiedene Merk-
malsspezifikationen zu finden. Cohors-Fresenborg et al. (2004) verwenden ein
globales Merkmal „sprachlogische Komplexität“, während Prenzel et al. (2002)
lediglich die Länge eines Aufgabentextes berücksichtigen. Nold & Rossa (2007)
hingegen differenzieren die sprachlichen Anforderungen durch zwei getrennte
Merkmale „Inhaltlicher Fokus“ und „Formalsprachliche Anforderungen“. Den
genannten Studien ist gemeinsam, dass zwar ein Zusammenhang von sprachlichen
Anforderungen und Aufgabenschwierigkeit gefunden wurde, gleichzeitig waren
es aber auch die Merkmale mit der geringsten Vorhersagekraft im Rahmen von
Regressionsanalysen.
Für vorliegende Arbeit erscheint eine Kombination der aufgeführten Merkmalsde-
finitionen sinnvoll, denn im KoMus-Itempool ist eine Reihe an Aufgaben vorhan-
205
den, die sich sowohl in Bezug auf die Textlänge als auch in Bezug auf die Anfor-
derungen an Wortschatz und Grammatik deutlich unterscheiden (vgl. Abb. 56 und
Abb. 57). Es werden somit zwei Merkmale spezifiziert:
(1) Das Merkmal ‚Textlänge’ bezieht sich sowohl auf den Itemstamm als auch auf
die Antwortalternativen. Die Items werden dabei klassifiziert in Items mit viel und
wenig Text. In Bezug auf die KoMus-Items genügt solch eine dichotome Kodie-
rung, da sich die Items in der Regel sehr deutlich hinsichtlich des Merkmals un-
terscheiden (z. B. Abb. 56 und Abb. 57).192
(2) Das Merkmal ‚formalsprachliche Anforderungen’ bezieht sich auf das in einer
Aufgabe verwendete Vokabular und die grammatikalischen Strukturen. Die Aus-
prägungen des Merkmals sind in Anlehnung an Nold & Rossa (2007) formuliert
und in folgender Tabelle dargestellt.
Tab. 45: Ausprägungen des Merkmals ‚formalsprachliche Anforderungen’
Ausprägung Deskriptoren
1 Wortschatz: weniger frequente Wörter, erweiterter Wortschatz
Grammatik: komplexere Strukturen
0 Wortschatz: hochfrequente Wörter
Grammatik: einfache syntaktische Strukturen (Parataxe, Verzicht auf komplexe Struktu-ren)
7.5 Zusammenfassung und Systematisierung der Aufgabenmerkmale
In den vergangenen Abschnitten wurde auf verschiedenen Ebenen eine Reihe von
Merkmalen identifiziert, die vermutlich einen schwierigkeitsgenerierenden Ein-
fluss ausüben. Es wurden entsprechende Hypothesen formuliert, die größtenteils
durch erste empirische Analysen weiter spezifiziert werden konnten. Im nun fol-
genden Abschnitt werden die Merkmale zusammengefasst und ihre Anwendbar-
keit auf den gesamten KoMus-Itempool überprüft. Die hierfür zu entwickelnde
192 Für den Fall, dass in einem Item-Pool eine große Anzahl an Items vorliegt, die eine mittlere Wortanzahl aufweisen, kann eine dreistufige Kodierung notwendig werden. In diesem Fall muss für jede Merkmalskategorie eine genaue Wortzahl angegeben werden, ab der ein Item in eine ent-sprechende Kategorie fällt. Noch genauer kann eine Kategorisierung vorgenommen werden unter Verwendung eines Lesbarkeitsindex, der nicht nur die reine Textlänge, sondern auch die durch-schnittliche Satzlänge und die Wortlänge erfasst (Köster, 2005). Für die KoMus-Items war solch ein differenziertes Vorgehen jedoch nicht notwendig.
206
Systematik dient in einem anschließenden Schritt der Einschätzung (Kodierung)
aller Items in Bezug auf die Ausprägungen der Aufgabenmerkmale. Die so ko-
dierten Merkmale werden dann abschließend für eine empirische Überprüfung des
schwierigkeitsgenerierenden Einflusses der Merkmale im Rahmen von Regressi-
onsanalysen verwendet (Abschnitt 7.6).
7.5.1 Systematisierung der Merkmale
In Kapitel 7 wurden mehrere Studien erwähnt, die jeweils fachdidaktikspezifische
Systematiken der Aufgabenmerkmale verwenden (u. a. Nold & Rossa, 2007;
Prenzel et al., 2002). Die in Abschnitt 7.1-7.4 dargestellten Analysen haben ge-
zeigt, dass auch in Bezug auf die KoMus-Items schwierigkeitsgenerierende Auf-
gabenmerkmale für verschiedene Bereiche vorliegen. Diese können auf drei über-
geordneten Ebenen systematisiert werden:
(1) Die erste Ebene ist – ähnlich wie bei Nold & Rossa (2007) und Prenzel et al.
(2002) – durch Merkmale gekennzeichnet, die Anforderungen an das Aufgaben-
verständnis stellen. Es geht hierbei um formale Aufgabencharakteristika wie das
Itemformat, aber auch um sprachliche Anforderungen, die aufgrund der Beschaf-
fenheit der Textteile eines Items entstehen. Auf der Merkmalsebene Aufgabe kön-
nen somit drei Aufgabenmerkmale unterschieden werden:
M1: Itemformat (7.4)193
M2: Textlänge (7.4)
M3: Formalsprachliche Anforderungen (7.4)
(2) Die zweite Ebene umfasst Anforderungen, die durch eine Aufgabe an die
Hörwahrnehmung und das musikalische Gedächtnis gestellt werden. Wahrneh-
mungs- und Gedächtnisanforderungen sind sehr eng miteinander verbunden, da
der Anforderungsgrad entscheidend mit dem Komplexitätsgrad der wahrzuneh-
menden Musik zusammenhängt. Beide Anforderungen können aber auch unab-
hängig voneinander auftreten, denn es gibt sowohl Aufgaben, die eine sehr diffe-
renzierte Wahrnehmung erfordern, gleichzeitig aber keine Anforderungen an das
193 Die Angaben in Klammer beziehen sich immer auf die Abschnitte in der vorliegenden Arbeit, in denen die entsprechenden Aufgabenmerkmale analysiert und beschrieben werden.
207
musikalische Gedächtnis stellen, als auch vice versa. Auf der Ebene Wahrneh-
mung und Gedächtnis werden daher zwei Merkmale spezifiziert:
M4: Anforderungen an die Hörwahrnehmung (7.1, A.2 u. B.1/2; 7.2, A.2/3)
M5: Anforderungen an das musikalische Gedächtnis (7.1, A.1; 7.2, A.1/3)
(3) Die dritte und letzte Ebene systematisiert Merkmale, die durch die Aktivierung
von Fachwissen gekennzeichnet sind. In Bezug auf die für das Lösen einer Auf-
gabe erforderliche Wissensbasis können auf der Ebene Fachwissen fünf Merkma-
le unterschieden werden:194
M6: Fachwissen – Notation (7.1, B.4)
M7: Fachwissen – Musiktheorie (7.2, A.4; 7.3)
M8: Fachwissen – Musikgeschichte (7.3)
M9: Fachwissen – Musikstile und -genres (7.3)
M10: Fachwissen – kultureller und sozialer Kontext von Musik (7.3)
Es ist offensichtlich, dass einige Merkmale, die in den Analysen identifiziert wer-
den konnten, in dieser Systematik zusammengefasst wurden. Dies betrifft z. B. die
Merkmale klangliche und rhythmische Komplexität sowie die Komplexität eines
Formteils, die nun gemeinsam das Merkmal M4 (Komplexitätsgrad Hörbeispiel)
bilden. Dies hat den Hintergrund, dass die Systematik auf alle Items anwendbar
sein soll. Daher wird diese von vornherein so konstruiert, dass alle Merkmale mit
einer gewissen Häufigkeit kodiert und somit in statistischen Analysen verwendet
werden können. Deshalb wäre es nicht sinnvoll ein Merkmal ‚rhythmische Kom-
plexität’ einzeln zu spezifizieren, da nur sehr wenige Items eine Ausprägung die-
ses Merkmals aufweisen. Einerseits geht mit dieser Vorgehensweise ein gewisser
Informationsverlust einher, denn es wird bei der anschließenden Kodierung dann
nicht mehr unterschieden, ob es sich bei dem wahrzunehmenden musikalischen 194 Einer kurzen Erläuterung bedarf die auf dieser Merkmalsebene vorgenommene Unterscheidung von Wissen in Bezug auf Notation und musiktheoretisches Wissen, denn Notationskenntnisse könnten auch unter die musiktheoretischen Wissensinhalte subsumiert werden. Die Unterschei-dung ist jedoch sinnvoll, da notationsbezogenes Wissen und dessen Anwendung als eigene Di-mension des Kompetenzmodells ausgewiesen ist (vgl. Kapitel 2.2.3). Dementsprechend existiert eine größere Anzahl Items, die explizit den unterschiedlich komplexen Einsatz von Notations-kenntnissen erfassen. Weitere musiktheoretische Wissensinhalte (z. B. Dynamik- und Tempobe-zeichnungen, Instrumentennamen, Formmodelle) spielen hingegen in allen Modelldimensionen ei-ne Rolle und wurden weit weniger systematisch variiert. Die Unterscheidung dieser beiden Merk-male ermöglicht somit letztlich auch eine differenziertere Untersuchung des schwierigkeitsrelevan-ten Einflusses verschiedener Wissensinhalte.
208
Phänomen beispielsweise um ein rhythmisch oder klanglich komplexes Phänomen
handelt. Andererseits kann somit aber zumindest auf übergeordneter Ebene der
schwierigkeitsgenerierende Einfluss des Komplexitätsgrades eines Hörbeispiels
bzw. der dadurch bedingten Anforderungen an die Hörwahrnehmung bestimmt
werden.195
Abb. 59 fasst die Zuordnung der Aufgabenmerkmale zu den verschiedenen
Merkmalsebenen noch einmal zusammen. Wie genau die Merkmale im Einzelnen
bestimmt sind und daran anschließend kodiert werden können, wird im folgenden
Abschnitt beschrieben.
Abb. 59: Systematisierung der schwierigkeitsgenerierenden Aufgabenmerkmale
7.5.2 Ausprägung und Kodierung der Merkmale
Ziel dieses Abschnitts ist es, die Aufgabenmerkmale zusammenzufassen und so
detailliert in Bezug auf deren Ausprägungen zu beschreiben, dass auf dieser Basis
alle KoMus-Items kodiert werden können. Die im Folgenden dargestellten Merk-
195 Sollte es im Erkenntnisinteresse einer Studie liegen, den Einfluss unterschiedlicher musikali-scher Parameter und deren Komplexitätsgrad auf die Itemschwierigkeit zu identifizieren, so müss-te eine entsprechend große Itemanzahl entwickelt werden, die systematisch die musikalischen Pa-rameter und unterschiedliche Ausprägungen von deren Komplexität kombiniert.
209
malsausprägungen und Deskriptoren sind das Ergebnis eines längeren iterativen
Prozesses, bei dem die formulierten Aufgabenmerkmale immer wieder an Item-
teilmengen erprobt und überarbeitet wurden. Einige Aufgabenmerkmale konnten
dabei direkt aus den Analysen übernommen werden, einzelne Merkmale mussten
jedoch unter Berücksichtigung der anvisierten Anwendung auf den gesamten
Itempool modifiziert oder ergänzt werden. Die entsprechenden Erläuterungen er-
folgen im Zusammenhang mit den einzelnen Aufgabenmerkmalen.
Im Anschluss an die in Abschnitt 7.4 angestellten Überlegungen sind die entspre-
chenden Ausprägungen und Deskriptoren der Aufgabenmerkmale ‚Itemformat’,
‚Textlänge’ und ‚formalsprachliche Anforderungen’ (Merkmalsebene Aufgabe) in
der Tab. 46 dargestellt:
Tab. 46: Ausprägungen und Deskriptoren der Aufgabenmerkmale M1-3 (Ebene ‚Aufgabe’)
M1: Itemformat
Ausprägung Deskriptoren
2 Freies Format: offene Items
1 Freies Format: halb-offene Items
0
Geschlossene Formate: Multiple-Choice-, Richtig-Falsch-, Zuordnungs-Items
M2: Textlänge
Ausprägung Deskriptoren
1 Aufgabe enthält viel Text (Itemstamm und Antwortalternativen)
0
Aufgabe enthält wenig Text
M3: Formalsprachliche Anforderungen
Ausprägung Deskriptoren
1 Wortschatz: weniger frequente Wörter, erweiterter Wortschatz
Grammatik: komplexere Strukturen
0 Wortschatz: hochfrequente Wörter
Grammatik: einfache syntaktische Strukturen (Parataxe, Verzicht auf komplexe Strukturen)
Im Rahmen der Analysen in Abschnitt 7.4 wurde das Aufgabenmerkmal ‚Item-
format’ (M1) lediglich dichotom (freies/gebundenes Format) kodiert. Zum Zwe-
cke der explorativen Untersuchung eines grundsätzlichen Einflusses des Itemfor-
mats auf die Itemschwierigkeit war dies zunächst ausreichend. Für die abschlie-
210
ßenden Analysen wird jedoch ein möglichst hoher Differenzierungsgrad innerhalb
der Merkmalsausprägungen angestrebt. Hierfür ist es naheliegend, die auch in an-
deren Studien häufig vorgenommene Unterscheidung von geschlossenen, halb-
offenen und offenen Items zu übernehmen (z. B. Prenzel et al., 2002).
Auf der nächsten Ebene werden die Anforderungen an die Hörwahrnehmung und
das musikalische Gedächtnis mit je spezifischen Merkmalsausprägungen be-
schrieben.
In Bezug auf das Merkmal ‚Hörwahrnehmung’ ist an dieser Stelle zu betonen,
dass die Deskriptoren sich nur auf die musikalischen Phänomene beziehen, deren
Wahrnehmung für die Aufgabenlösung zwingend erforderlich ist. Diese Vorge-
hensweise ist der Tatsache geschuldet, dass die Anforderungen an die Wahrneh-
mung zunächst durch die Aufgabenstellung und nicht durch das Hörbeispiel ge-
steuert werden. Dies wird sofort ersichtlich, wenn man sich den Fall vorstellt, dass
für zwei Items ein identisches Hörbeispiel verwendet wird, das beispielsweise ei-
ne hochkomplexe harmonische, rhythmische und vor allem formale Struktur auf-
weist. Die Aufgabenstellung des ersten Items lautet nun: „Notiere den Formver-
lauf des Stückes und benutze hierzu die Buchstaben A, B, A’ und C“; die Aufga-
benstellung des zweite Items lautet hingegen: „Passt der Begriff ‚forte’ oder ‚pia-
no’ besser zu dem Musikstück?“. In diesem Beispiel wird deutlich, dass obwohl
das Hörbeispiel objektiv betrachtet einen hohen Komplexitätsgrad aufweist, dieser
nur für die Lösung des ersten Items relevant ist. In Bezug auf das zweite Item ge-
nügt eine viel weniger differenzierte Wahrnehmung; entscheidender für die Lö-
sung dieses Items ist hingegen das fachterminologische Wissen in Bezug auf Dy-
namikbezeichnungen. Aus diesem Grund sind die Deskriptoren des Merkmals
zwar in Bezug auf die wahrzunehmende Musik formuliert, sie sind aber immer im
Zusammenhang mit der entsprechenden Aufgabenstellung anzuwenden.196
196 Nold & Rossa (2007, S. 184) gehen sehr ähnlich in Bezug auf die Einschätzung von schwierig-keitsgenerierenden Merkmalen für die DESI-Hörverstehensaufgaben vor. Sie verwenden hierbei das Konzept der ‚necessary information’, womit die Textbereiche bzw. Informationen gemeint sind, die eine Testperson unbedingt verstanden haben muss, um eine Aufgabe erfolgreich bearbei-ten zu können. Nold & Rossa beziehen sich hierbei auf Untersuchungen, die zeigen, dass es für die Lösung einer Aufgabe relativ unerheblich ist, wie ein Hörverstehenstext insgesamt beschaffen ist. Entscheidend für die Itemschwierigkeit sind fast ausschließlich die Charakteristika der ‚necessary information’. Es werden daher auch für die DESI-Hörverstehensaufgaben immer nur die Textbe-reiche in Bezug auf ihre schwierigkeitsgenerierenden Aufgabenmerkmale eingeschätzt, die auf-grund der Aufgabenstellung lösungsrelevant – also: ‚necessary informations’ – sind.
211
Die konkreten Ausprägungen und Deskriptoren der beiden Merkmale ‚Anforde-
rungen an die Hörwahrnehmung’ und ‚Anforderungen an das musikalische Ge-
dächtnis’ sind in Tab. 47 dargestellt.
Tab. 47: Ausprägungen und Deskriptoren der Aufgabenmerkmale M4-5 (Ebene ‚Wahrnehmung / Musikali-sches Gedächtnis’)
M4: Anforderungen an die Hörwahrnehmung
Ausprägung Deskriptoren
3 Stark verändertes musikalisches Material muss in seinem Bezug zum Ausgangsmaterial er-kannt werden; die Veränderung kann hierbei rhythmischer, klanglicher, melodischer oder harmonischer Natur sein.
2 Die wahrzunehmenden musikalischen Ereignisse weisen eine erhöhte klangliche, melodische und/oder rhythmische Komplexität auf; Segmentgrenzen sind weniger deutlich markiert.
1 Es müssen herausstechende Merkmale (‚salient features’) wahrgenommen werden; dies sind z. B. deutlich markierte Segmentgrenzen bei der Formwahrnehmung, starke Dynamikunter-schiede oder einzeln gespielte Instrumente.
0
Durch die Aufgabe werden keine Anforderungen an die Wahrnehmung gestellt (Aufgabe oh-ne Hörbeispiel).
M5: Anforderungen an das musikalische Gedächtnis
Ausprägung Deskriptoren
2 Es werden erhöhte Anforderungen an das musikalische Gedächtnis gestellt, da die Informati-onen über eine längere Zeitspanne hinweg behalten werden müssen, und/oder Interferenzen (z. B. Distraktoren) erschweren das Behalten des Wahrgenommenen im Gedächtnis.
1 Musikalische Ereignisse müssen im Gedächtnis behalten werden. Kennzeichen dieser Aus-prägung ist es, dass das Aufrechterhalten der Informationen im musikalischen Gedächtnis nicht erschwert ist (kurze Zeitspanne, geringe Informationsmenge, keine Interferenzen).
0 Für die Aufgabenlösung ist es nicht notwendig, die wahrgenommenen musikalischen Ereig-nisse im Gedächtnis zu behalten.
Die Deskriptoren des Aufgabenmerkmals ‚Anforderungen an das musikalische
Gedächtnis’ kombinieren die Analyseergebnisse aus Abschnitt 7.1 und 7.2.
Grundsätzlich unterschieden wird dabei, ob ein wahrgenommenes musikalisches
Ereignis im Gedächtnis behalten werden muss (Ausprägung 1/2) oder nicht (Aus-
prägung 0). Darüber hinaus ist das Merkmal weiter ausdifferenziert in Bezug auf
die konkreten Anforderungen an das musikalische Gedächtnis. Ausprägung 1 um-
fasst Anforderungen, bei denen ein klangliches Ereignis mit relativ begrenzter In-
formationsmenge über einen kurzen Zeitraum hinweg memoriert werden muss.
Ausprägung 2 hingegen ist gekennzeichnet durch erhöhte Anforderungen an das
212
musikalische Gedächtnis, da hier die Informationen über eine längere Zeitspanne
hinweg behalten werden müssen und/oder das Aufrechterhalten der Informationen
aufgrund von Interferenzen erschwert ist.197
Auch die Deskriptoren des Merkmals ‚Anforderungen an die Hörwahrnehmung’
basieren hauptsächlich auf den Analysen in Abschnitt 7.1 und 7.2. Die Unter-
scheidung von deutlichen und weniger deutlich markierten Segmentgrenzen (7.2)
findet sich ebenso in den Ausprägungen 1 und 2 wieder wie auch der schwierig-
keitsrelevante Einfluss einer gesteigerten klanglichen und rhythmischen Struktur
(7.1). Die dritte Ausprägung ist nicht aus den Analysen abgeleitet, wird jedoch
notwendig aufgrund einiger Items, die die Wahrnehmung von variiertem musika-
lischen Material erfassen. Ein Item mit dieser Merkmalsausprägung stellt bei-
spielsweise die Anforderung dar, eine zunächst einstimmige Melodie (z. B. einen
Liedausschnitt oder einen Teil einer Nationalhymne) später als Zitat (also mehr
oder weniger stark verändert) in einem polyphonen Orchestersatz wiederzuerken-
nen. Es ist offensichtlich, dass durch die Transformation des musikalischen Mate-
rials und den komplexen musikalischen Kontext hier deutlich höhere Anforderun-
gen an die Wahrnehmung gestellt werden als dies beispielsweise bei Items der
Fall ist, die die Wiedererkennung eines kurzen und einfachen Rhythmus in klang-
lich veränderter Form verlangen (vgl. 7.1). Um auch diese Wahrnehmungsanfor-
derungen differenziert abbilden zu können, wurde die Merkmalsausprägung 3 er-
gänzt.
Tab. 48 gibt einen Überblick über Ausprägungen und Deskriptoren aller wissens-
basierten Aufgabenmerkmale. Hierbei wird grundsätzlich unterschieden, ob das
Aufgabenmerkmal bei einem Item vorliegt (Ausprägung 1/2) oder nicht (Ausprä-
gung 0). Für die Deskriptoren der Merkmalsausprägungen 1 und 2 wurden die Er-
gebnisse aus Abschnitt 7.3 (insbesondere zur ‚Qualität des Wissens’) verwendet.
197 Diese erhöhten Anforderungen lassen sich gut mit dem in der Musikpsychologie häufig ver-wendeten Arbeitsgedächtnismodell von Baddeley (1986) in Verbindung bringen. Ein wichtiges Element in Baddeleys Modell sind sogenannte ‚Rehearsal-Prozesse’, die dazu dienen, Informatio-nen im Arbeitsgedächtnis aktiviert zu halten. Dies wird mittels häufigem inneren Wiederholen (‚rehearsal’) des Gedächtnisinhaltes erreicht (vgl. in Bezug auf musikpsychologische Anwendun-gen des Modells z. B. Lange, 2005; die spezielle Bedeutung von Rehearsal-Prozessen für die Rhythmuswahrnehmung ist bei Rammsayer, 2000 beschrieben). Während Rehearsal-Prozesse auf der Ausprägungsstufe 1 nur eine untergeordnete Rolle spielen, sind sie von besonderer Bedeutung, wenn Interferenzen auftreten oder die musikalische Information länger aufrechterhalten werden muss. In diesem Sinne könnte man die unterschiedlichen Merkmalsausprägungen auch in Abhän-gigkeit von den notwendigen Rehearsal-Prozessen beschreiben.
213
Es wird dementsprechend jeweils unterschieden, inwieweit ein differenziertes und
elaboriertes Fachwissen für eine erfolgreiche Aufgabenbearbeitung notwendig ist.
Tab. 48: Ausprägungen und Deskriptoren der Aufgabenmerkmale M6-10 (Ebene ‚Fachwissen’)
M6: Fachwissen – Notation
Ausprägung Deskriptoren
2 Eine Notation muss detailliert sowohl metrisch als auch in Bezug auf die Tonhöhenorga-nisation gelesen werden.
1 Das Notationskonzept muss grundsätzlich verstanden sein. Für die Aufgabenlösung ge-nügt jedoch eine grobe Orientierung im Notentext (z. B. an der Kontur eines Melodiever-laufs).
0 Für die Aufgabenlösung sind keine Notationskenntnisse erforderlich.
M7: Fachwissen – Musiktheorie
Ausprägung Deskriptoren
2 Elaboriertes Wissen und genaue Kenntnis spezieller Fachbegriffe notwendig.
1 Musiktheoretisches Wissen ist notwendig; es genügt jedoch ein grobes, eher vages Beg-riffsverständnis (z. B. wissen, dass „piano“ etwas mit Lautstärke zu tun hat).
0 Für die Aufgabenlösung ist kein musiktheoretisches Wissen erforderlich.
M8: Fachwissen – Musikgeschichte
Ausprägung Deskriptoren
1 Elaboriertes Wissen und genaue Kenntnis spezieller Fachbegriffe notwendig.
0 Für die Aufgabenlösung ist kein musikhistorisches Wissen erforderlich.
M9: Fachwissen – Musikstile und –genres
Ausprägung Deskriptoren
2 Elaboriertes Wissen und genaue Kenntnis spezieller Fachbegriffe notwendig.
1 Wissen in Bezug auf musikalische Stile/Genres ist notwendig; es genügt jedoch ein grobes, eher vages Begriffsverständnis bzw. das Wissen kann als Alltagswissen vor-ausgesetzt werden (z. B. Sprechgesang ist Kennzeichen von HipHop-Musik).
0 Für die Aufgabenlösung ist kein Wissen in Bezug auf musikalische Stile/Genres erfor-derlich.
M10: Fachwissen – kultureller und sozialer Kontext von Musik
Ausprägung Deskriptoren
1 Elaboriertes Wissen und genaue Kenntnis spezieller Fachbegriffe notwendig.
0 Für die Aufgabenlösung ist kein Wissen in Bezug auf kulturelle und soziale Kontexte von Musik erforderlich.
Die Merkmale M8 und M10 weisen nur dichotome Ausprägungen auf. Dies liegt
lediglich daran, dass für die jeweils fehlende Merkmalsausprägung keine Items
214
vorliegen. Ansonsten wäre für diese Merkmale selbstverständlich auch eine diffe-
renziertere Beschreibung möglich und sinnvoll.
Es wurde bereits darauf hingewiesen, dass das Wissen in Bezug auf Notation eine
Sonderstellung auf dieser Merkmalsebene einnimmt (s. o.). Die Merkmalsausprä-
gungen entsprechen hier der in Abschnitt 7.1 vorgenommenen Unterscheidung
zwischen der Fähigkeit, Musik figural und metrisch zu repräsentieren. Die Aus-
prägung 1 umfasst dementsprechend basale Anforderungen an die Notations-
kenntnisse. Notwendig ist ein grundsätzliches Verständnis des Notationskonzepts
(eine Note repräsentiert ein klangliches Ereignis, der zeitliche Verlauf von Musik
wird dabei horizontal von links nach rechts abgetragen, Tonhöhen werden vertikal
fixiert). Die Identifikation von konkreten Tondauern/-höhen oder Intervallverhält-
nissen ist nicht notwendig. Diese Art des detaillierten Lesens metrischer Notation
ist Inhalt der Merkmalsausprägung 2.198
7.5.3 Kodierung einzelner Beispielitems
In vorangegangenem Abschnitt wurden die Ausprägungen und Deskriptoren der
einzelnen Aufgabenmerkmale vorgestellt. Diese sollen nun im Folgenden für eine
Kodierung der KoMus-Items eingesetzt werden. Der Kodierungsprozess kann hier
nicht im Einzelnen dargestellt werden, zur Veranschaulichung des Prozesses die-
nen jedoch einige kommentierte Beispielitems.
Als erstes Beispiel (Abb. 60) wird ein Item zur Formwahrnehmung verwendet,
das bereits aus Abschnitt 7.2 (Analyse 4) bekannt ist und als Hörbeispiel ein Mo-
zart-Rondo (KV 15gg) enthält.
Abb. 60: Beispielitem 1 (Item D2-4f, Testheft 8)
198 Im Anschluss an die Analysen aus Abschnitt 7.1 müsste das Merkmal M6 eigentlich noch um eine weitere Ausprägung ergänzt werden, die die Anforderung des Schreibens von Notation auf Basis der Hörwahrnehmung enthält. Diese Merkmalsausprägung wurde nicht formuliert, da in Be-zug auf diese Anforderung nur zwei Items vorliegen.
215
Tab. 49 enthält die Kodierung des Beispielitems. Hierfür wurde das Item in Bezug
auf jedes schwierigkeitsgenerierende Aufgabenmerkmal (M1-10) eingeschätzt
und unter Verwendung der entsprechenden Deskriptoren eine Merkmalsausprä-
gung festgelegt.
Tab. 49: Kodierung von Beispielitem 1
Item 4a (TH 7)
Ausprägung 0 0 0 1 2 0 2 0 0 0
Merkmale M1 M2 M3 M4 M5 M6 M7 M8 M9 M10
Ebene Aufgabe Wahrnehmung/ Gedächtnis Fachwissen
Auf der Merkmalsebene ‚Aufgabe’ (M1-3) weist das Item jeweils die Ausprägung
‚0’ auf, da es sich um ein Multiple-Choice-Item handelt (M1), das Item sehr we-
nig Text enthält (M2) und die formalsprachlichen Anforderungen gering sind
(M3).
Die Anforderungen an die Hörwahrnehmung (M4) sind mit der Ausprägung ‚1’
kodiert, denn es muss zunächst erkannt werden, dass das Stück aus mehreren
Formteilen besteht, wobei die Segmentgrenzen deutlich markiert sind. Die klang-
liche, melodische und rhythmische Struktur ist dabei als wenig komplex einzu-
schätzen. Für die Aufgabenlösung ist des Weiteren der Einsatz des musikalischen
Gedächtnisses (M5) von Bedeutung, denn für das Erkennen des dritten Formteils
als Wiederholung des ersten Teils ist es erforderlich, den ersten Teil (Ritornell
bzw. A-Teil) im Gedächtnis zu behalten. Das Aufrechterhalten der musikalischen
Information (A-Teil) im Gedächtnis wird zudem erschwert durch Interferenzen,
da jeweils zwischen zwei A-Teilen ein B- bzw. C-Teil eingeschoben ist (Coup-
lets). Diese entsprechend hohen Anforderungen an das musikalische Gedächtnis
wurden daher mit der Ausprägung ‚2’ kodiert.
Außerdem muss eine Testperson für die erfolgreiche Bearbeitung des Items auch
noch über das explizite Wissen verfügen, dass die wahrgenommene Abfolge von
Formteilen (A-B-A-C-A) dem Formmodell eines Rondos entspricht. Das Item er-
fordert also detailliertes Wissen in Bezug auf einen musiktheoretischen Fachbeg-
riff, sodass das Merkmal M7 mit der entsprechenden Ausprägung kodiert ist. Die
anderen wissensbasierten Aufgabenmerkmale (M6, M8-10) sind hingegen nicht
relevant und folglich mit ‚0’ kodiert.
216
Das zweite Beispielitem ist in Abb. 61 dargestellt. Als Hörbeispiel dient eine Kla-
vierfassung der acht abgebildeten Takte. Der zu entdeckende Fehler besteht darin,
dass der Klavierschüler – entgegen der Dynamikvorschriften – am Anfang sehr
leise spielt, ab Takt 5 dann jedoch sehr laut.
Abb. 61: Beispielitem 2 (Item D3-9a,Testheft 7)
Aufgrund der Aufgabenstellung und des Vorhandenseins von nur zwei Fehlern ist
die Länge und Anzahl der möglichen Antworten stark eingeschränkt, wodurch ei-
ne völlig objektive Auswertung ermöglicht wird. Richtige Antworten sind z. B.
„Der Klavierschüler hat die Dynamik vertauscht“ oder „Am Anfang hätte er laut
spielen sollen und in der Mitte leise“. Es handelt sich hier also um ein halb-
offenes Itemformat, sodass das Merkmal M1 entsprechend mit ‚1’ zu kodieren ist.
Ansonsten sind keine Ausprägungen auf der Merkmalsebene ‚Aufgabe’ vorhan-
den, da weder eine umfangreiche Textmenge vorliegt (M2) noch besondere for-
malsprachliche Anforderungen an das Aufgabenverständnis gestellt werden (M3).
Tab. 50: Kodierung von Beispielitem 2
Item 4a (TH 7)
Ausprägung 1 0 0 1 0 1 2 0 0 0
Merkmale M1 M2 M3 M4 M5 M6 M7 M8 M9 M10
Ebene Aufgabe Wahrnehmung/ Gedächtnis Fachwissen
In Bezug auf die Hörwahrnehmung (M4) stellt das Item nur geringe Anforderun-
gen, da lediglich die sehr deutlichen Dynamikunterschiede (als ‚salientes Merk-
mal’) wahrgenommen werden müssen. Es ist dabei nicht notwendig das Wahrge-
nommene im musikalischen Gedächtnis zu behalten (M5).
Unter den wissensbasierten Merkmalen sind die Merkmale M6 und M7 für die
Aufgabenlösung relevant. Die Anforderungen bezüglich der Notationskenntnisse
217
(M6) sind dergestalt, dass die wahrgenommene Musik mindestens bis Takt 5 in
den Noten parallel mitverfolgt werden muss. Hierfür ist es nicht notwendig, die
Noten metrisch und in ihrem Intervallverhältnis zu lesen; es genügt eine grobe O-
rientierung an der Melodiekontur (Ausprägung ‚1’).199 Entscheidend für die Lö-
sung ist es, dass eine Testperson den erklingenden Takt 5 mit der Dynamikbe-
zeichnung unter dem notierten Takt 5 in Verbindung bringen kann. Die Dynamik-
bezeichnungen ‚forte’ und ‚piano’ bedingen darüber hinaus die Kodierung des
Merkmals M7 mit der Ausprägung ‚2’, denn nur wenn ein genaues Verständnis
dieser Fachtermini vorliegt, kann das Item gelöst werden.
Das dritte und letzte Beispielitem erfasst die Wahrnehmung von variiertem musi-
kalischen Material (Abb. 62).
Abb. 62: Beispielitem 3 (Item D1-5a, Testheft 6)
Das Thema (zum einfacheren Verständnis in der Aufgabe ‚Melodie’ genannt) ist
dem zweiten Satz der Sinfonie Nr. 94 von Joseph Haydn entnommen. Die als
Antwortalternativen fungierenden Hörbeispiele sind ebenfalls aus dem gleichen
Sinfoniesatz und enthalten sowohl Musikausschnitte ohne thematischen Bezug als
199 Weitaus höhere Anforderungen an die Notationskenntnisse (aber auch die Hörwahrnehmung) würden sich ergeben, wenn der Klavierschüler falsche Tonhöhen oder einen modifizierten Rhyth-mus spielte. Dann wäre es für die Aufgabenlösung tatsächlich unabdingbar, die Notation detailliert in Bezug auf die rhythmische und melodische Struktur zu lesen. Entsprechend müsste dann das Merkmal M6 mit ‚2’ kodiert werden.
218
auch Ausschnitte, in denen das Thema in variierter Fassung erklingt. Aufgabe der
Testpersonen ist es jeweils zu bestimmen, ob es sich bei den Antwortalternativen
um eine Variation des Themas handelt.
Tab. 51: Kodierung von Beispielitem 3
Item 4a (TH 7)
Ausprägung 0 1 0 3 2 0 1 0 0 0
Merkmale M1 M2 M3 M4 M5 M6 M7 M8 M9 M10
Ebene Aufgabe Wahrnehmung/ Gedächtnis Fachwissen
Bei diesem geschlossenen Item (M1 = 0) fällt zunächst die – im Vergleich zu den
bisherigen Items – relativ große Textmenge auf (M2 = 1). Die formalsprachlichen
Anforderungen (M3) könnten aufgrund einer Reihe von weniger frequenten Wör-
tern mit ‚1’ kodiert werden. Bei genauerer Betrachtung wird jedoch deutlich, dass
die betreffenden Wörter alle dem Bereich des musiktheoretischen Fachwissens
zugeordnet werden können. Aus diesem Grund wird die entsprechende Kodierung
auf der dritten Merkmalsebene vorgenommen.
Die entscheidenden Anforderungen dieses Items liegen ohne Zweifel auf der Ebe-
ne von Wahrnehmung (M4) und Gedächtnis (M5). Um die Aufgabe erfolgreich
bearbeiten zu können, muss die Testperson zunächst das Thema im musikalischen
Gedächtnis behalten. Aufgrund der Beschaffenheit der Distraktoren ergeben sich
dabei starke Interferenzen und gleichzeitig eine relativ lange Zeitspanne, über die
hinweg die Information im Gedächtnis aufrechterhalten werden muss (M5 = 2).
Auch für das Merkmal M4 liegt hier die höchste Ausprägung vor, denn das Item
erfordert eine sehr detaillierte Wahrnehmung einzelner Parameter, die darüber
hinaus immer mit dem ursprünglichen thematischen Material abgeglichen werden
müssen.
Wenngleich der zentrale Terminus ‚Variation’ im Aufgabentext erläutert wird, so
wird doch eine Reihe weiterer musiktheoretischer Begriffe verwendet (Melodie,
Rhythmus, Noten, Wiederholung). Keiner dieser Begriffe muss im Detail verstan-
den sein, ein grobes Begriffsverständnis ist für eine erfolgreiche Aufgabenbear-
beitung jedoch notwendig (M7 = 1).
Diese drei Beispiele mögen an dieser Stelle genügen, um das Vorgehen der Ko-
dierung zu verdeutlichen. Auf diese Weise wurden alle Items der neun Testhefte
219
in Bezug auf ihre schwierigkeitsgenerierenden Aufgabenmerkmale eingeschätzt
und kodiert, wobei sich die verwendeten Merkmale sowie die dazugehörigen De-
skriptoren als äußert praktikabel erwiesen haben. Es ist somit die Datenbasis ge-
geben, um in einem abschließenden Schritt die Aufgabenmerkmale einer statisti-
schen Analyse zu unterziehen.
7.6 Empirische Analyse der Zusammenhänge von Aufgabenmerkma-
len und -schwierigkeiten
Während in den vorangegangenen Abschnitten die Generierung, Spezifikation
und Systematisierung der Aufgabenmerkmale im Vordergrund stand, soll in die-
sem letzten Abschnitt der Zusammenhang von Aufgabenmerkmalen und
-schwierigkeiten systematisch mithilfe statistischer Analysen untersucht werden.
Ein geeignetes Verfahren, um die empirisch ermittelten Aufgabenschwierigkeiten
mit den Aufgabenmerkmalen in Beziehung zu setzen, ist die Regressionsanalyse
(vgl. Hartig, 2007). Hierbei wird untersucht, ob die Unterschiede der Aufgaben-
schwierigkeiten unter Verwendung der Aufgabenmerkmale erklärt werden kön-
nen. Das Ausmaß erklärter Unterschiede ist ein Indikator dafür, ob sich die ange-
nommenen schwierigkeitsgenerierenden Merkmale durch die tatsächlichen Auf-
gabenschwierigkeiten bestätigen lassen. Darüber hinaus kann auf Basis der Reg-
ressionsanalysen auch beurteilt werden, ob einzelne Merkmale besonders bedeut-
sam für die Aufgabenschwierigkeit sind oder aber Merkmale eine eher geringe
Erklärungskraft für die Schwierigkeit der Aufgaben besitzen.
7.6.1 Methodisches Vorgehen
Für die Berechnung der Regressionen muss zunächst eine Einschätzung der Items
hinsichtlich aller Merkmale vorliegen (vgl. vorigen Abschnitt zur Kodierung der
Merkmale). Da für Merkmale, die mehr als zwei Ausprägungen aufweisen, nicht
von Intervallskalenniveau ausgegangen werden kann, müssen die einzelnen Merk-
malsausprägungen in sogenannte ‚Dummy-Variablen’ umgewandelt werden, die
jeweils nur Werte von 1 und 0 annehmen (z. B. Bühner & Ziegler, 2009, S. 699).
So wird beispielsweise ein Merkmal mit drei Ausprägungen (z. B. M5: Anforde-
rungen an das musikalische Gedächtnis) in zwei Dummy-Variablen überführt, so-
220
dass eine Variable die mittlere Ausprägung und eine Variable die schwierigste
Merkmalsausprägung repräsentiert. Hierdurch ist es möglich, die angenommene
ordinale Abfolge der Merkmalsausprägungen einer empirischen Überprüfung zu
unterziehen (Hartig, 2007); d. h., es wird untersucht, ob eine mit ‚2’ kodierte Aus-
prägung tatsächlich schwieriger ist als eine mit ‚1’ kodierte Ausprägung des glei-
chen Merkmals.
Die so kodierten bzw. rekodierten Aufgabenmerkmale werden in der Regression
als Prädiktoren (unabhängige Variablen) verwendet. Als abhängige Variable, die
durch die Prädiktoren (Aufgabenmerkmale) vorhergesagt werden soll, dient die
empirisch ermittelte Schwierigkeit jedes Items (Itemparameter � des Rasch-
Modells), wobei die Items als ‚Fälle’ behandelt werden (Rauch & Hartig, 2007).
Als Analyseverfahren kommt eine multiple lineare Regression zum Einsatz, deren
allgemeine Modellgleichung (z. B. Bühner & Ziegler, 2009, S. 634 ff.) in Bezug
auf die Vorhersage der Itemschwierigkeit durch die Aufgabenmerkmale folgen-
dermaßen formalisiert werden kann (Hartig, 2007, S. 90):
iiMMimmii qqq �� ���������������� 110
�i = Schwierigkeit von Item i; �0 = Regressionskonstante; �m = Regressionsgewicht für Merkmal m; M = Anzahl der Aufgabenmerkmale qim = Kodierung des Merkmals m für Item i (0=liegt vor, 1=liegt nicht vor) i = Verbleibende Abweichung zwischen im Modell erwarteter und tatsächlicher Aufgaben-
schwierigkeit (Residuum)
Die Schwierigkeit jedes Items wird also als gewichtete Summe der in Bezug auf
ein entsprechendes Item vorhandenen Aufgabenmerkmale modelliert. Die einzel-
nen Regressionsgewichte (�m) stehen dabei für den Einfluss, den ein Aufgaben-
merkmal auf die Itemschwierigkeit ausübt. Demzufolge ist ein Item, bei dem das
Merkmal m vorliegt, um �m schwerer als ein Item ohne das entsprechende Merk-
mal. Die Werte der Regressionsgewichte �m werden in der Analyse so geschätzt,
dass die empirisch ermittelten Itemschwierigkeiten möglichst gut wiedergegeben
werden, das Residuum i also möglichst klein ist.
221
7.6.2 Datengrundlage
Der Anspruch vorliegender Arbeit ist es, dass die formulierten Aufgabenmerkma-
le auf den gesamten KoMus-Itempool angewendet werden können. Dass dies
prinzipiell möglich ist, konnte im Rahmen des Kodierungsprozesses überprüft und
sichergestellt werden (vgl. Abschnitt 7.5). Es liegt dementsprechend eine Ein-
schätzung aller Items hinsichtlich der jeweils vorhandenen schwierigkeitsgenerie-
renden Aufgabenmerkmale vor. Trotzdem ist aufgrund von statistischen Ein-
schränkungen der Einbezug aller Items in die Analysen nicht möglich, was im
Folgenden erläutert wird.
Grundsätzlich können innerhalb einer Regressionsanalyse nur Items verwendet
werden, die aus dem gleichen Testheft bzw. der gleichen Raschskalierung stam-
men und für die außerdem Raschhomogenität festgestellt wurde (Hartig, 2004,
S. 84). Diese Kriterien erfüllen die jeweils selektierten Items der Testhefte 1-9
(vgl. 6.1). Demnach wäre es prinzipiell möglich, alle selektierten Items zu berück-
sichtigen; es müssten dann entsprechend neun einzelne Regressionen berechnet
werden. Bei Durchsicht der selektierten Tests wird jedoch deutlich, dass durch
den Selektionsprozess pro Testheft teilweise nur noch eine geringe Itemmenge
vorliegt, was für Regressionsanalysen problematisch ist. Die Menge der Items
(‚Fälle’) ist deshalb von Bedeutung, da die Anzahl der Prädiktoren die Anzahl der
Fälle nicht übersteigen darf (Bühner & Ziegler, 2009, S. 682). Vielmehr sollten
deutlich mehr Fälle als Prädiktoren vorliegen, um möglichst genaue Parameter-
schätzungen zu erhalten und Verzerrungen durch Ausreißerwerte zu minimieren.
Zur Bestimmung eines geeigneten Verhältnisses von Prädiktoren zu Fällen sind in
der Literatur verschiedene Richtlinien zu finden (vgl. Bortz, 2005; Bühner &
Ziegler, 2009). Die Minimalforderung besteht darin, dass die Anzahl der Fälle
größer sein muss als die der Prädiktoren. Am strengsten ist die Forderung nach ei-
ner 15-fach größeren Anzahl der Prädiktoren. Das anzustrebende Verhältnis ist
nicht zuletzt aber auch von der konkreten Fragestellung und der geplanten Ver-
wendung der Ergebnisse abhängig. Aus diesem Grund scheint eine Orientierung
an Studien sinnvoll, die den Zusammenhang von Aufgabenmerkmalen und I-
temschwierigkeiten ebenfalls mittels regressionsanalytischen Verfahren untersu-
chen und dabei aussagekräftige Ergebnisse vorlegen konnten (z. B. Cohors-
Fresenborg et al., 2004; Neubrand, Klieme, Lüdtke & Neubrand, 2002; Nold &
Rossa, 2007; Prenzel et al., 2002). Bei Betrachtung der entsprechenden Studien
222
wird deutlich, dass in der Regel mindestens die doppelte, häufig die drei- bis fünf-
fache Anzahl an Items im Verhältnis zu den verwendeten Prädiktoren vorliegt.200
Daran anschließend wurde für vorliegende Arbeit als Kriterium für die Verwen-
dung eines Testhefts festgelegt, dass mindestens die doppelte Anzahl an Items im
Verhältnis zu den Prädiktoren vorliegen muss. Durch die Dummy-Kodierung der
zehn Aufgabenmerkmale (M1-10) entstehen 18 Prädiktoren, sodass in einem
Testheft mindestens 36 selektierte Items vorhanden sein müssten. Da jedoch in-
nerhalb eines einzelnen Testhefts nie alle Merkmalsausprägungen kodiert werden
können, reduziert sich auf Testheftebene die maximale Anzahl der Prädiktoren auf
10 bis 14 respektive die notwendige Itemzahl auf 20 bis 28.201 Berücksichtigt man
für jedes Testheft das festgelegte Mindestverhältnis, so kann knapp die Hälfte der
Testhefte (4, 5, 6 und 8; vgl. 6.1.3) in die Regressionsanalysen einbezogen wer-
den.
7.6.3 Durchführung der Regressionsanalysen
Für die Berechnung der Regressionen werden nur solche Merkmale als Prädikto-
ren verwendet, die mindestens bei zwei Items kodiert sind. Des Weiteren werden
Merkmale ausgeschlossen, für die ‚Kollinearität’ vorliegt. Von Kollinearität
spricht man, wenn zwei (oder auch mehrere) Prädiktoren sehr hoch miteinander
zusammenhängen (z. B. Bühner & Ziegler, 2009, S. 677 ff.). Dies zeigt sich in der
Regression daran, dass ein Merkmal keine zusätzliche Erklärungskraft mehr hat,
wenn ein anderes Merkmal bzw. andere Merkmale bereits berücksichtigt sind.
Kollinearitäten entstehen z. B. dann, wenn Merkmale immer oder zumindest sehr
häufig in Kombination auftreten (Hartig, 2007, S. 94). Ein entsprechender Fall
liegt beispielsweise in Testheft 5 vor. Dort weisen alle Items mit einer großen
Textmenge (M3) immer auch erhöhte formalsprachliche Anforderungen (M2) auf.
Auf Basis einer routinemäßigen Kollinearitätsdiagnose in SPSS (z. B. Bühner &
200 Teilweise stehen so umfangreiche Itempools zur Verfügung, bei gleichzeitiger Verwendung sehr sparsamer Regressionsmodelle, dass sich noch deutlich günstigere Verhältnisse von I-temstichprobe und Prädiktoren ergeben (z. B. Cohors-Fresenborg, Sjuts & Sommer, 2004; Isaac, Eichler & Hosenfeld, 2008). 201 Wenn z. B. innerhalb eines Testhefts kein Item vorliegt, das den Einsatz musiktheoretischen Wissens verlangt, dann kann das Merkmal M7 weder kodiert noch in die Regression einbezogen werden. Da das Merkmal drei Ausprägungen aufweist (also zwei Dummy-Variablen), verringert sich die Anzahl der Prädiktoren für dieses Testheft entsprechend um zwei Variablen. In gleicher Weise reduziert sich die Anzahl der Prädiktoren, wenn bei einem mehrstufigen Merkmal nicht alle Ausprägungen kodiert werden können.
223
Ziegler, 2009, S. 711) wurde das Merkmal M2 aus der Regression ausgeschlos-
sen. Dies bedeutet in inhaltlicher Hinsicht jedoch nicht, dass formalsprachliche
Anforderungen keine Bedeutung für die Aufgabenbearbeitung hätten. Durch die
Abhängigkeit der beiden Merkmale ergibt sich aber statistisch keine Erklärungs-
kraft für das Merkmal. Unter Berücksichtigung von Kollinearitäten und ausrei-
chend häufig kodierten Merkmalen gehen in die Regressionen mindestens 7 und
maximal 11 Aufgabenmerkmale als Prädiktoren ein (vgl. Tab. 52-Tab. 55).
Die durchgeführten Analysen sind in den Tab. 52-Tab. 55 dargestellt. Zur Über-
prüfung, inwieweit die Unterschiede der Itemschwierigkeiten durch die Aufga-
benmerkmale erklärt werden können, wird der Determinationskoeffizient R2 he-
rangezogen (jeweils unterste Zeile einer Tabelle). Der Determinationskoeffizient
beschreibt die gemeinsame Vorhersagekraft aller Merkmale durch den Anteil er-
klärter Varianz an der Gesamtvarianz der Itemschwierigkeiten. Beispielsweise
bedeutet ein Wert von R2 = 1.0, dass mithilfe der Prädiktoren eine perfekte Vor-
hersage der Itemschwierigkeiten möglich ist. Ein R2 = 0.45 würde bedeuten, dass
etwas weniger als die Hälfte der Gesamtvarianz (45 %) durch die Aufgaben-
merkmale erklärt werden kann.202
Außer der Einschätzung der gemeinsamen Erklärungskraft aller Aufgabenmerk-
male ermöglichen die Regressionsanalysen auch eine Beurteilung der Relevanz
einzelner Merkmale bzw. Merkmalsausprägungen. Hierzu werden die standardi-
sierten Regressionsgewichte �' herangezogen.203 Weist ein Merkmal ein hohes
Regressionsgewicht auf, so ist es besonders bedeutsam für die Itemschwierigkeit.
202 Die Höhe von R2 ist abhängig von der Anzahl der Prädiktoren und nimmt selbst bei irrelevanten Prädiktoren zu. Aus diesem Grund wird in der Literatur die Verwendung eines korrigierten Deter-minationskoeffizienten (R2
korr) vorgeschlagen, der die Anzahl der Prädiktoren und die Stichpro-bengröße (Anzahl der Items) berücksichtigt (z. B. Bühner & Ziegler, 2009, S. 654). In vorliegen-der Arbeit wird daher ausschließlich der korrigierte Koeffizient verwendet, der auch standardmä-ßig in SPSS ausgegeben wird. 203 Es werden die standardisierten Gewichte verwendet, da die unstandardisierten Regressionsge-wichte nicht direkt in ihrer Größe miteinander vergleichbar sind (Bühner & Ziegler, 2009, S. 662). Sie sind jedoch notwendig zur Vorhersage einer konkreten Itemschwierigkeit. Weist ein Aufga-benmerkmal beispielsweise ein unstandardisiertes Regressionsgewicht von 1.41 auf, so bedeutet dies, dass durch die Regression eine um 1.41 logits erhöhte Itemschwierigkeit für ein Item vorher-gesagt wird, bei dem das entsprechende Merkmal vorliegt. So können auch die Schwierigkeiten von Items mit mehreren Merkmalen vorhergesagt werden. Es müssen hierzu lediglich die unstan-dardisierten Regressionsgewichte der entsprechenden Merkmale addiert werden. Diese Verwen-dung der unstandardisierten Gewichte kommt insbesondere bei der Bildung von Kompetenzni-veaus auf Basis von Merkmalskombinationen zum Einsatz (z. B. Hartig, 2007). Für die vorliegen-de Arbeit dienen die unstandardisierten Regressionsgewichte jedoch lediglich zur Abschätzung der Größe des Standardfehlers.
224
Dementsprechend können die verschiedenen Merkmale (M1-10) hinsichtlich ihres
unterschiedlich großen Einflusses auf die Itemschwierigkeit verglichen werden.
Ebenso ist aber auch ein Vergleich der verschiedenen Ausprägungen eines einzel-
nen Merkmals möglich. Gemäß der hypothetisch angenommenen ordinalen
Merkmalsausprägungen, sollten höhere Ausprägungen eines Merkmals größere
Regressionsgewichte aufweisen als niedrigere Ausprägungen des gleichen Merk-
mals.
Bevor die Ergebnisse der Regressionen im Einzelnen betrachtet werden, bedarf es
noch einer Erläuterung der Analysen der Testhefte 4, 5 und 6, für die jeweils zwei
Regressionsanalysen berechnet wurden (Tab. 52-Tab. 54). Die erste Analyse
(Spalte 2-5 der entsprechenden Tabelle) enthält immer alle Merkmale, die bei den
Items der betreffenden Testhefte mindestens zweimal kodiert werden konnten. Bei
einigen Merkmalsausprägungen war jedoch der Standardfehler (Spalte S) größer
als der Absolutwert des Regressionsgewichts, sodass für das endgültige Regressi-
onsmodell (zweite Analyse, Spalte 6-9) die entsprechenden Prädiktoren nicht
mehr berücksichtigt wurden. Dadurch ergeben sich lediglich minimale Verände-
rungen der aufgeklärten Varianz sowie der Regressionsgewichte der verbliebenen
Prädiktoren.
225
Tab.
52:
Erg
ebni
sse
der m
ultip
len
Reg
ress
ions
anal
yse
zur V
orhe
rsag
e de
r Ite
msc
hwie
rigke
iten
von
Test
heft
4 du
rch
Auf
gabe
nmer
kmal
e (N
k = 2
3 Ite
ms)
E
inbe
zug
alle
r Mer
kmal
e
Einb
ezug
der
Mer
kmal
e m
it �
> S
Auf
gabe
nmer
kmal
e �
S
�'
p
� S
�'
p
Reg
ress
ions
kons
tant
e � 0
204
-1.4
63
.624
-
.033
-1.5
40
.150
-
< .0
01
M1
Item
form
at; A
uspr
ägun
g 2
(N=4
) 1.
575
.348
.3
68
.000
1.59
9 .2
80
.373
.0
00
M4
Hör
wah
rneh
mun
g; A
uspr
ägun
g 1
(N=1
3)
-.071
.6
08
-.022
.9
09
M4
Hör
wah
rneh
mun
g; A
uspr
ägun
g 2
(N=4
) 2.
456
.637
.5
73
.002
2.52
6 .2
92
.590
.0
00
M4
Hör
wah
rneh
mun
g; A
uspr
ägun
g 3
(N=5
) 2.
676
.673
.6
80
.001
2.75
1 .2
96
.699
.0
00
M5
Mus
ikal
isch
es G
edäc
htni
s; A
uspr
ägun
g 2
(N=3
) 1.
406
.373
.2
92
.002
1.40
9 .3
50
.292
.0
01
M9
Wis
sen
– S
til/G
enre
; Aus
präg
ung
1 (N
=3)
-.018
.3
29
-.004
.9
58
M9
Wis
sen
– S
til/G
enre
; Aus
präg
ung
2 (N
=2)
.924
.5
56
.116
.1
17
.9
30
.509
.1
17
.085
Erkl
ärte
Var
ianz
der
Item
schw
ierig
keit
R2 ko
rr =
.903
; p
< .0
01
R2 ko
rr =
.914
; p <
.001
� =
unst
anda
rdis
ierte
s Reg
ress
ions
gew
icht
; �’ =
stan
dard
isie
rtes R
egre
ssio
nsge
wic
ht; p
= e
xakt
e Ir
rtum
swah
rsch
einl
ichk
eit f
ür d
as R
egre
ssio
nsge
wic
ht; S
= S
tand
ardf
ehle
r
20
4 Die
Reg
ress
ions
kons
tant
e � 0
ent
spric
ht d
er e
rwar
tete
n Sc
hwie
rigke
it (in
logi
ts) d
es e
infa
chst
en It
ems,
wen
n al
so k
ein
schw
ierig
keits
gene
riere
ndes
Mer
kmal
vor
liegt
(alle
M
erkm
ale
mit
‚0’ k
odie
rt).
226
Tab.
53:
Erg
ebni
sse
der m
ultip
len
Reg
ress
ions
anal
yse
zur V
orhe
rsag
e de
r Ite
msc
hwie
rigke
iten
von
Test
heft
5 du
rch
Auf
gabe
nmer
kmal
e (N
k = 2
9 Ite
ms)
E
inbe
zug
alle
r Mer
kmal
e
Einb
ezug
der
Mer
kmal
e m
it �
> S
Auf
gabe
nmer
kmal
e �
S
�'
p
� S
�'
p
Reg
ress
ions
kons
tant
e � 0
-1
.657
.5
09
- .0
05
-1
.165
.2
28
- <
.001
M1
Item
form
at; A
uspr
ägun
g 1
(N=8
) .3
56
.366
.1
27
.344
M1
Item
form
at; A
uspr
ägun
g 2
(N=3
) 2.
125
.678
.5
15
.006
1.67
8 .5
78
.407
.0
09
M3
Text
läng
e (N
=3)
1.28
0 .6
73
.311
.0
74
.7
89
.485
.1
91
.119
M4
Hör
wah
rneh
mun
g; A
uspr
ägun
g 2
(N=1
0)
.633
.5
20
.240
.2
40
.5
88
.430
.2
23
.186
M4
Hör
wah
rneh
mun
g; A
uspr
ägun
g 3
(N=2
) 2.
823
.654
.5
70
.000
2.69
5 .5
71
.544
.0
00
M5
Mus
ikal
isch
es G
edäc
htni
s; A
uspr
ägun
g 2
(N=3
) 1.
898
.607
.4
61
.006
1.55
5 .5
10
.377
.0
06
M6
Wis
sen
– N
otat
ion;
Aus
präg
ung
1 (N
=2)
1.56
2 .9
20
.227
.1
08
1.
115
.837
.1
62
.198
M6
Wis
sen
– N
otat
ion;
Aus
präg
ung
2 (N
=3)
1.95
9 .5
31
.475
.0
02
2.
066
.485
.5
01
.000
M7
Wis
sen
– M
usik
theo
rie; A
uspr
ägun
g 1
(N=5
) .3
72
.594
.1
02
.539
M7
Wis
sen
– M
usik
theo
rie; A
uspr
ägun
g 2
(N=6
) .4
80
.551
.1
82
.396
M8
Wis
sen
– M
usik
gesc
hich
te (N
=2)
3.59
5 .9
20
.523
.0
01
3.
148
.837
.4
58
.001
Erkl
ärte
Var
ianz
der
Item
schw
ierig
keit
R2 ko
rr =
.644
; p =
.001
R
2 korr =
.664
; p <
.001
� =
unst
anda
rdis
ierte
s Reg
ress
ions
gew
icht
; �’ =
stan
dard
isie
rtes R
egre
ssio
nsge
wic
ht; p
= e
xakt
e Ir
rtum
swah
rsch
einl
ichk
eit f
ür d
as R
egre
ssio
nsge
wic
ht; S
= S
tand
ardf
ehle
r
227
Tab.
54:
Erg
ebni
sse
der m
ultip
len
Reg
ress
ions
anal
yse
zur V
orhe
rsag
e de
r Ite
msc
hwie
rigke
iten
von
Test
heft
6 du
rch
Auf
gabe
nmer
kmal
e (N
k = 2
4 Ite
ms)
E
inbe
zug
alle
r Mer
kmal
e
Einb
ezug
der
Mer
kmal
e m
it �
> S
Auf
gabe
nmer
kmal
e �
S
�'
p
� S
�'
p
Reg
ress
ions
kons
tant
e � 0
-2
.450
.5
57
- .0
01
-2
.042
.2
54
<
.001
M1
Item
form
at; A
uspr
ägun
g 1
(N=2
) .7
93
.472
.1
69
.115
.793
.4
67
.169
.1
10
M1
Item
form
at; A
uspr
ägun
g 2
(N=7
) 1.
070
.301
.3
75
.003
1.09
6 .2
96
.384
.0
02
M4
Hör
wah
rneh
mun
g; A
uspr
ägun
g 1
(N=9
) .4
37
.529
.1
63
.423
M4
Hör
wah
rneh
mun
g; A
uspr
ägun
g 2
(N=1
4)
1.77
5 .5
57
.675
.0
07
1.
385
.292
.5
27
.000
M5
Mus
ikal
isch
es G
edäc
htni
s; A
uspr
ägun
g 2
(N=4
) .8
78
.466
.2
52
.081
.890
.4
61
.256
.0
73
M6
Wis
sen
– N
otat
ion;
Aus
präg
ung
2 (N
=2)
.806
.6
25
.124
.2
18
.7
88
.618
.1
21
.222
M7
Wis
sen
– M
usik
theo
rie; A
uspr
ägun
g 1
(N=1
0)
.496
.2
96
.189
.1
15
.4
36
.283
.1
66
.145
M7
Wis
sen
– M
usik
theo
rie; A
uspr
ägun
g 2
(N=5
) 1.
869
.345
.5
85
.000
1.85
9 .3
41
.582
.0
00
M9
Wis
sen
– S
til/G
enre
; Aus
präg
ung
1 (N
=3)
1.93
7 .3
94
.494
.0
00
1.
950
.389
.4
97
.000
Erkl
ärte
Var
ianz
der
Item
schw
ierig
keit
R2 ko
rr =
.873
; p <
.001
R
2 korr =
.876
; p <
.001
� =
unst
anda
rdis
ierte
s Reg
ress
ions
gew
icht
; �’ =
stan
dard
isie
rtes R
egre
ssio
nsge
wic
ht; p
= e
xakt
e Ir
rtum
swah
rsch
einl
ichk
eit f
ür d
as R
egre
ssio
nsge
wic
ht; S
= S
tand
ardf
ehle
r
228
Tab. 55: Ergebnisse der multiplen Regressionsanalyse zur Vorhersage der Itemschwierigkeiten von Testheft 8 durch Aufgabenmerkmale (Nk = 23 Items)
Aufgabenmerkmale � S �' p
Regressionskonstante �0 -4.375 1.297 - .005
M1 Itemformat; Ausprägung 1 (N=5) 2.398 .766 .604 .007
M1 Itemformat; Ausprägung 2 (N=8) 2.235 .796 .708 .014
M4 Hörwahrnehmung; Ausprägung 1 (N=7) 1.444 1.061 .442 .195
M4 Hörwahrnehmung; Ausprägung 2 (N=11) 1.973 .952 .655 .057
M5 Musikal. Gedächtnis; Ausprägung 2 (N=4) 1.420 .783 .358 .091
M6 Wissen – Notation; Ausprägung 1 (N=3) 2.134 .814 .478 .020
M7 Wissen – Musiktheorie; Ausprägung 1 (N=5) 1.444 .685 .396 .054
M7 Wissen – Musiktheorie; Ausprägung 2 (N=8) 3.049 .670 .966 .000
Erklärte Varianz der Itemschwierigkeit R2korr = .628; p = .003
� = unstandardisiertes Regressionsgewicht; �’ = standardisiertes Regressionsgewicht; p = exakte Irrtums-wahrscheinlichkeit für das Regressionsgewicht; S = Standardfehler
7.6.4 Ergebnisse
Die Analysen ergeben für alle vier Testhefte hochsignifikante multiple Determi-
nationskoeffizienten (R2korr) und eine durchweg sehr starke Prädiktion der I-
temschwierigkeiten durch die Aufgabenmerkmale. Die Varianzaufklärung beträgt
dabei mindestens 62.8 %, für die Testhefte 4 und 6 liegt sie sogar bei über 80
bzw. 90 %. Empirisch kann also eindeutig ein Effekt der Aufgabenmerkmale auf
die Itemschwierigkeiten nachgewiesen werden.
Der vermutete schwierigkeitsgenerierende Einfluss der Aufgabenmerkmale lässt
sich hierbei für fast alle Merkmale empirisch validieren.205 Lediglich die Merkma-
le M2 (formalsprachliche Anforderungen) und M10 (Fachwissen – sozia-
le/kulturelle Kontexte) konnten aufgrund eines zu geringen Vorkommens nicht in
205 Wenngleich der größte Teil der Merkmale signifikante bzw. hochsignifikante Regressionsge-wichte aufweist, ist dies für die Beurteilung des Einflusses eines Merkmals oder dessen Einbezug in ein Regressionsmodell nicht von primärer Bedeutung. Es geht in den Analysen nicht darum, all-gemeingültige Modelle zu validieren, die Gültigkeit für Populationen von Items beanspruchen würden (vgl. auch Hartig, 2007, S. 95). Vielmehr ist es Ziel vorliegender Arbeit, Merkmale zu i-dentifizieren und validieren, die zur Beschreibung der spezifischen im KoMus-Projekt entwickel-ten Items herangezogen werden können. Kriterium für die Integration (oder auch den Ausschluss) eines Merkmals in ein Regressionsmodell und die Interpretation der daraus resultierenden Ergeb-nisse muss daher nicht notwendigerweise das Signifikanzniveau sein. Entscheidend ist vielmehr, ob die Größe und die Vorzeichen der Regressionsgewichte mit den theoretischen Annahmen be-züglich eines Merkmals korrespondieren (Bühner & Ziegler, 2009, S. 662).
229
die Analysen einbezogen werden bzw. mussten bedingt durch Kollinearitäten ent-
fernt werden.
Darüber hinaus lässt sich für fast alle mehrstufigen Merkmale (M1: Itemformat,
M4: Anforderungen an die Hörwahrnehmung, M6: Fachwissen – Notation, M7:
Fachwissen – Musiktheorie, M9: Fachwissen – Stil/Genre) zeigen, dass die als
schwieriger angenommenen Ausprägungen auch tatsächlich jeweils höhere Reg-
ressionsgewichte (�') aufweisen. Die einzige Ausnahme stellt das Merkmal M5
(Anforderungen an das musikalische Gedächtnis) dar, da hier ausschließlich die
Ausprägung ‚2’ in die Regressionen einbezogen werden konnte. Eine Überprü-
fung der ordinalen Abfolge der Ausprägungen des Merkmals M5 kann daher an
dieser Stelle nicht erfolgen.
Interessant ist auch ein Vergleich der Größe der Regressionsgewichte, also des
Einflusses der verschiedenen Merkmale. Betrachtet man jeweils die drei Merkma-
le mit dem größten Regressionsgewicht, so fällt auf, dass unter diesen immer das
Merkmal M4 (Anforderungen an die Hörwahrnehmung) vertreten ist; in den Test-
heften 4 und 5 ist es das Merkmal mit dem größten Einfluss. Da im Zentrum des
Kompetenztests und -modells die Erfassung der Hörwahrnehmung steht, ist dieses
Ergebnis zwar wenig verwunderlich, wirft aber trotzdem ein positives Licht auf
die Konstruktvalidität.
Besonders stark scheint außerdem der Einfluss des Merkmals M7 (Fachwissen –
Musiktheorie) zu sein. Sofern es in ein Regressionsmodell integriert werden konn-
te (Testhefte 6 und 8), ist es stets das Merkmal mit dem größten Regressionsge-
wicht. Ergänzt um die großen Regressionsgewichte der Merkmale M6 (Fachwis-
sen – Notation; vgl. Tab. 53), M8 (Fachwissen – Musikgeschichte; vgl. Tab. 53)
und M9 (Fachwissen – Stil/Genre; vgl. Tab. 54) bestätigt dies die in Abschnitt 7.3
postulierte Bedeutung der wissensbasierten Merkmale. Auch dieser Befund steht
in Einklang mit dem zugrunde gelegten Kompetenzkonstrukt, das sich nicht allein
auf Hörwahrnehmungsfähigkeiten beschränkt, sondern als Zusammenspiel von
Wahrnehmung und dem reflektierten Einsatz musikbezogener Wissensbestände
definiert ist (vgl. 4.2).
Das Merkmal M5 (Anforderungen an das musikalische Gedächtnis) hingegen
weist durchweg nur Regressionsgewichte mittlerer Größe auf. Die Schwierigkeit
eines Items scheint also stärker von den Anforderungen an die Hörwahrnehmung
230
und dem notwendigen Einsatz von Fachwissen abzuhängen und nur in geringerem
Maße von den Anforderungen an das musikalische Gedächtnis. Dieser Befund ist
jedoch mit äußerster Vorsicht zu interpretieren, da das Merkmal M5 in den Test-
heften nur sehr selten kodiert werden konnte.206
Abschließend können auch die Hypothesen in Bezug auf das Merkmal M1 (Item-
format) überprüft werden (vgl. Abschnitt 7.4). Grundsätzlich stützen die Analysen
die Annahme eines schwierigkeitsgenerierenden Einflusses des Itemformats. In
den Regressionen der Testhefte 6 und 8 zeigt sich ein Einfluss für beide Ausprä-
gungen (1: halb-offen, 2: offen), während in den Testheften 4 und 5 nur die Aus-
prägung ‚2’ in das Regressionsmodell aufgenommen werden konnte. Die Betrach-
tung der Regressionsgewichte ergibt außerdem einen höheren Einfluss für das of-
fene Itemformat. Schwieriger zu interpretieren ist die Größe der Regressionsge-
wichte in Bezug auf die anderen Merkmale. Während in den Regressionen der
Testhefte 4, 5 und 6 das Itemformat keinen besonders großen Einfluss aufweist,
stellt das offene Itemformat (M1, Ausprägung 2) mit �' = .708 den zweitstärksten
Prädiktor des Testhefts 8 dar (vgl. Tab. 55). Dieses Ergebnis verwundert zunächst,
bedeutet dies doch, dass das Itemformat einen stärkeren Einfluss auf die I-
temschwierigkeiten des Testhefts 8 hat als die Anforderungen an die Hörwahr-
nehmung (M4, Ausprägung 2: �' = .655). Zum besseren Verständnis ist eine ge-
nauere Betrachtung der betreffenden offenen Items notwendig. Hierbei zeigt sich,
dass fünf der acht Items der Modelldimension 2 (Verbalisierung und Umgang mit
Fachterminologie) zuzuordnen sind. Durch die Items wird hierbei explizit die Fä-
higkeit des ‚Sprechens über Musik’ erfasst. Bei der Auswertung der Items wird
bewertet, inwieweit die Testpersonen in der Lage sind, sich adäquat über Musik-
stücke und deren Ausführung zu äußern. Die sprachlichen Anforderungen, die bei
diesen Items maßgeblich zu einer hohen Itemschwierigkeit führen, sind also we-
niger durch das Itemformat – im Sinne eines technischen Oberflächencharakteris-
tikums einer Aufgabe – gegeben, sondern vielmehr als eine operationalisierte Fa-
cette des Kompetenzkonstrukts zu betrachten, die explizit sprachliche Anteile um-
fasst. Vor diesem Hintergrund erscheint das hohe Regressionsgewicht für das
Merkmal M1 (Ausprägung 2) plausibel. Gleichzeitig deuten die Überlegungen auf
206 Vgl. hierzu auch die Ausführungen zu den Einschränkungen und Grenzen der Regressionsana-lysen im folgenden Abschnitt.
231
einen evtl. Korrekturbedarf der Merkmalssystematik hin. Im Zuge einer Überar-
beitung der Systematik wäre zu überlegen, ob sinnvollerweise ein gesondertes
Merkmal ‚Anforderungen an die Verbalisierungsfähigkeit’ o. ä. einzuführen wäre,
um eine Konfundierung mit dem Einfluss des Itemformats zu vermeiden.
Einschränkungen und Grenzen der Analysen
Die Aussagekraft des eingesetzten regressionsanalytischen Verfahrens hat Gren-
zen. Dies gilt insbesondere unter Berücksichtigung der gegebenen Datenlage. Da
für die Analysen eine relativ kleine Itemanzahl im Verhältnis zur Anzahl der Prä-
diktoren verwendet wurde, sind die erzielten Ergebnisse mit Vorsicht zu interpre-
tieren. Vor allem die recht hohen Determinationskoeffizienten sind zu relativie-
ren, denn durch das ungünstige Verhältnis von Prädiktoren und Items ist eine ho-
he Varianzaufklärung relativ einfach zu erzielen (Cohors-Fresenborg et al., 2004,
S. 137). Dieser Effekt wird von der durchgeführten Korrektur des Koeffizienten
(R2korr) nur unzureichend aufgefangen (Bühner & Ziegler, 2009, S. 655).
Ebenso muss die Reichweite der validierten Merkmale vorerst offen bleiben. Dies
liegt zum einen daran, dass einzelne Merkmale nur bei einem sehr kleinen Anteil
der Items kodiert werden konnten, wodurch teilweise relativ große Standardfehler
der Regressionsgewichte auftreten. Zum anderen liegen für jedes Testheft andere
Kombinationen und Häufigkeiten der Merkmale vor. Während beispielsweise in
Testheft 8 das Merkmal M7 bei 13 Items kodiert werden konnte, kommt es bei
den Items des Testhefts 4 kein einziges Mal vor. Dies liegt daran, dass die Aufga-
benmerkmale im Hinblick auf den gesamten Itempool spezifiziert wurden, in den
Testheften aber Itemteilmengen vorliegen, die jeweils nur einzelne Facetten und
Dimensionen des Kompetenzmodells abbilden. Dementsprechend ergibt sich auch
für jedes Testheft ein spezifisches Regressionsmodell. Ein Vergleich der Regres-
sionsgewichte ist zwischen den Testheften daher nicht sinnvoll. Dass z. B. das
Merkmal M7 (Ausprägung 2) in Testheft 8 mit �' = .966 das nominell größte Reg-
ressionsgewicht aufweist, muss nicht bedeuten, dass das Merkmal auch in Bezug
auf den ganzen Itempool den größten schwierigkeitsgenerierenden Einfluss hat.
Für die im vorangegangenen Abschnitt erfolgten Interpretationen wurden daher
die Merkmale bezüglich ihres Regressionsgewichts immer nur innerhalb eines
Testhefts verglichen. Über alle Testhefte hinweg wurde lediglich auf einer sehr
globalen Ebene versucht, Auffälligkeiten unter den Merkmalen mit besonders
232
starkem Einfluss zu identifizieren (z. B. dass das Merkmal ‚Anforderungen an die
Hörwahrnehmung’ immer zu den einflussstärksten Merkmalen gehört). Ein ge-
nauerer Vergleich des Einflusses aller Merkmale ist erst auf Basis der Pilotie-
rungsdaten möglich (s. auch folgender Abschnitt).
Über die genannten Punkte hinaus sind auch grundsätzliche Einschränkungen der
verwendeten regressionsanalytischen Methode anzumerken. Die Annahme eines
linear-additiven Zusammenhangs von Aufgabenmerkmalen und Itemschwierig-
keit, wie er durch die multiple lineare Regression modelliert wird, ist zunächst ein
relativ einfaches Modell (Hartig, 2007, S. 96). Zudem ist keineswegs zwingend
davon auszugehen, dass sich Aufgabenmerkmale rein additiv zu einer Gesamt-
schwierigkeit ergänzen (Hartig, 2004, S. 90). Ebenso denkbar wären Wechselwir-
kungen von Aufgabenmerkmalen, also dass z. B. die Kombination zweier be-
stimmter Merkmale eine deutlich höhere Itemschwierigkeit ergibt als eine einfa-
che Addition der einzelnen Merkmalsschwierigkeiten (unstandardisierte Regressi-
onsgewichte; vgl. auch Fußnote 203). In der DESI-Studie konnte zwar gezeigt
werden, dass ein linear-additives Modell durchaus angemessen sein kann für die
Beschreibung des Zusammenhangs von Aufgabenmerkmalen und Itemschwierig-
keit (Hartig, 2007, S. 96). Trotzdem wäre in weiterführenden Untersuchungen zu
überprüfen, ob solch eine Modellierung die optimale Methode in Bezug auf die
Merkmale der KoMus-Items darstellt oder eher Modelle mit Wechselwirkungs-
termen zu berücksichtigen wären.
Zusammenfassung und Ausblick
Trotz der einschränkenden Faktoren können auf Basis der Regressionsanalysen
folgende Befunde zusammengefasst werden:
(1) Die Analysen zeigen, dass sich empirisch ein schwierigkeitsgenerierender Ef-
fekt der Aufgabenmerkmale auf die Itemschwierigkeiten nachweisen lässt. Die in
den Regressionen durchweg hohen Varianzaufklärungen (.628 � R2korr � .914)
sind aufgrund der Datenbasis mit der gebotenen Vorsicht zu interpretieren, deuten
jedoch auf eine starke Vorhersagekraft der Merkmale hin.
(2) Der Großteil der identifizierten Merkmale konnte in die Regressionsmodelle
einbezogen und dadurch validiert werden. Lediglich die Überprüfung des Einflus-
ses der beiden Merkmale M2 (formalsprachliche Anforderungen) und M10
233
(Fachwissen – soziale/kulturelle Kontexte) war aufgrund der Datenlage nicht
möglich und muss daher weiterführenden Untersuchungen vorbehalten bleiben.
(3) Die in den Abschnitten 7.1-7.4 formulierten Hypothesen in Bezug auf die or-
dinalen Ausprägungen der Aufgabenmerkmale werden durch die Analysen bestä-
tigt. Als schwieriger eingeschätzte Merkmalsausprägungen weisen dementspre-
chend höhere Regressionsgewichte (�') auf. Einzig für das Merkmal M5 (Anfor-
derungen an das musikalische Gedächtnis) konnte die ordinale Abfolge der Merk-
malsausprägungen nicht überprüft werden, da hierfür nicht genug Items mit der
Ausprägung ‚1’ vorlagen.207
(4) Betrachtet man den Einfluss der einzelnen Merkmale, so ist es nur sehr be-
grenzt möglich diese hinsichtlich ihrer Stärke miteinander zu vergleichen. Ten-
denziell scheint sich aber anzudeuten, dass die Schwierigkeit eines Items vor al-
lem durch die Anforderungen an die Hörwahrnehmung (M4) und das notwendige
Fachwissen (M6-10) beeinflusst wird. Ebenso zeigt sich ein schwierigkeitsgene-
rierender Einfluss der Anforderungen an das musikalische Gedächtnis (M5), der
vermutlich aber weniger stark ist. Auch für das Itemformat bestätigt sich der an-
genommene Effekt auf die Itemschwierigkeit. Für die Ausprägung ‚2’ (offenes
Format) wäre jedoch in weiterführenden Analysen zu untersuchen, ob eine Kon-
fundierung mit der musikbezogenen Verbalisierungsfähigkeit vorliegt.
Es wurde bereits mehrfach darauf hingewiesen, dass die erzielten Erkenntnisse
von zunächst begrenzter Reichweite sind, was hauptsächlich durch die verwendete
Datengrundlage bedingt ist. Es ist daher vorgesehen, die in vorliegender Arbeit
identifizierten Aufgabenmerkmale auch in die Analysen der Pilotierungsdaten
einzubeziehen. Da dort die Itemschwierigkeiten (�i) aller Items innerhalb einer
gemeinsamen Raschskalierung geschätzt werden, ergibt sich die Möglichkeit, alle
Items und alle Aufgabenmerkmale innerhalb einer Regressionsanalyse zu ver-
wenden. Daraus folgt ein deutlich günstigeres Verhältnis von Prädiktoren und I-
tems sowie eine ausreichend häufige Kodierung der einzelnen Merkmale. Auf
dieser Datengrundlage ist es dann möglich, eine endgültige empirische Validie-
207 Das Aufgabenmerkmal wird trotzdem vorerst mit drei Ausprägungen erhalten. Die Validierung der ordinalen Abfolge muss jedoch im Rahmen der Auswertung der Pilotierung erfolgen.
234
rung der Merkmalssystematik und der verschiedenen Merkmalsausprägungen
vorzunehmen.208
Im Zuge dieser Analysen kann evtl. auch eine Modifikation der Merkmalssyste-
matik notwendig werden. Durch die Verwendung der Pilotierungsdaten besteht
die Möglichkeit, die durch das Regressionsmodell vorhergesagten ( i�̂ ) mit den
empirischen Itemschwierigkeiten ( i� ) abzugleichen. Interessant sind dann vor al-
lem die Items, deren Schwierigkeit durch das Modell schlecht vorhergesagt wird.
An diesen Items könnte sich zeigen, ob die Merkmalssystematik evtl. um weitere
Merkmale erweitert werden muss und/oder die bestehenden stärker auszudifferen-
zieren sind (vgl. Cohors-Fresenborg et al., 2004, S. 137 ff.).
Die validierte und evtl. modifizierte Merkmalssystematik wird auch eine wichtige
Rolle für die endgültige Ausformulierung des Kompetenzmodells spielen. Inner-
halb dieses Prozesses müssen u. a. zwei entscheidende Schritte durchgeführt wer-
den: 1. die Definition von Schwellen zwischen den Kompetenzniveaus; 2. die kri-
terienorientierte Beschreibung der verschiedenen Modelldimensionen und
-niveaus. Prinzipiell denkbar wäre die Verwendung der Aufgabenmerkmale für
beide Schritte. Hartig (2004, 2007) beschreibt ausführlich Vorgehen und Möglich-
keiten der Schwellendefinition mittels Aufgabenmerkmalen. Stark verkürzt darge-
stellt müssen hierbei zuerst die für ein Niveau charakteristischen Merkmalskom-
binationen identifiziert werden. Daran anschließend können die (unstandardisier-
ten) Regressionsgewichte der Merkmale einer entsprechenden Kombination ad-
diert werden, um so einen konkreten Logitwert zu erhalten (= erwartete Schwie-
rigkeit i�̂ eines Items, bei dem die Merkmalskombination vorliegt). Dieser Wert
verankert die Merkmalskombination auf der Kompetenzskala und markiert so den
Beginn eines Kompetenzniveaus. Solch ein Vorgehen ist insbesondere dann nahe-
liegend, wenn A-priori-Beschreibungen der Aufgabenmerkmale vorliegen und
diese auch für die Itemkonstruktion verwendet wurden (z. B. Nold & Rossa,
2007). Für das KoMus-Projekt lag jedoch keine systematische Beschreibung von
Aufgabenmerkmalen der Itementwicklung zugrunde, sodass für die Schwellende-
208 Erste Analysen auf Basis der Pilotierungsdaten wurden bereits durchgeführt. Eine Veröffentli-chung der genauen Ergebnisse erfolgt jedoch erst im Kontext der Abschlusspublikationen des KoMus-Projekts (Jordan, Knigge, Lehmann-Wermser, Lehmann & Niessen, i. Vorb.; Knigge & Jordan, i. Vorb.). An dieser Stelle kann lediglich angedeutet werden, dass die in vorliegender Ar-beit erzielten Befunde auch durch die weiterführenden Analysen bestätigt werden.
235
finition ein anderes Verfahren eingesetzt wird, das an dieser Stelle jedoch nicht
weiter ausgeführt werden kann (vgl. Jordan et al., i. Vorb.).
Gleichwohl ist die Verwendung der Aufgabenmerkmale für die Beschreibung der
Modelldimensionen und -niveaus geplant. Hierfür werden zuerst die Niveau-
schwellen festgelegt. Anschließend können die Items innerhalb eines Kompetenz-
niveaus auf charakteristische Merkmalskombinationen hin untersucht werden. In-
teressant sind dabei vor allem die Kombinationen, die zwei benachbarte Niveaus
voneinander unterscheiden. Ist beispielsweise ein Merkmal auf einem unteren Ni-
veau überhaupt nicht repräsentiert, taucht aber auf dem höheren Niveau gehäuft
auf, so scheint dieses Merkmal geeignet, den Unterschied der beiden Niveaus in-
haltlich zu beschreiben.209 Ähnlich kann auch in Bezug auf die Dimensionen des
Modells und deren inhaltlicher Abgrenzung vorgegangen werden. Sowohl für die
inhaltliche Spezifikation der Dimensionen als auch der Niveaus ist noch eine wei-
tere Eigenschaft der Aufgabenmerkmale interessant. Es kann nämlich in eine Be-
schreibung nicht nur einbezogen werden, ob ein Merkmal oder eine Merkmals-
kombination vorliegt oder nicht, sondern auch die Erklärungskraft der Merkmale
in Bezug auf die Itemschwierigkeiten. Demgemäß können die vorhersagenstärks-
ten Merkmale (größte Regressionsgewichte) auch in inhaltlicher Hinsicht entspre-
chend ‚gewichtet’ und bei der Modellierung berücksichtigt werden.
Nicht zuletzt können Aufgabenmerkmale auch ein hilfreiches ‚Werkzeug’ für die
Entwicklung neuer Items sein. In Bezug auf diesen letzten Punkt könnte die in
vorliegender Arbeit entwickelte Merkmalssystematik auch über das KoMus-
Projekt hinaus von Bedeutung sein. So könnten die Merkmale beispielsweise im
Kontext von weiterführenden Forschungen dazu verwendet werden, um Items für
209 Durch die Verwendung von Aufgabenmerkmalen für die Niveaubeschreibung kann nicht nur eine hohe inhaltliche Differenzierung erreicht werden, es ist darüber hinaus auch möglich, Fehl-spezifikationen des Modells zu entdecken oder vermeintliche Inkonsistenzen zwischen Niveaube-schreibung und den auf einem Niveau empirisch verorteten Items. Helmke & Hosenfeld (2003) beschreiben dies sehr anschaulich am Beispiel eines mathematikbezogenen Kompetenzmodells: „Die Berücksichtigung derjenigen Merkmale, die nachweislich mit der empirischen Aufgaben-schwierigkeit zusammenhängen, erlaubt eine inhaltlich klarere Interpretation der Kompetenzstu-fen, da z. B. zwischen rein inhaltlichen und formal-gestalterischen Anforderungen der Aufgaben unterschieden werden kann. Fallen beispielsweise viele Aufgaben zur Addition und Subtraktion im Zahlenraum bis 1000 in eine Kompetenzstufe, so liegt es nahe diese Stufe entsprechend zu definie-ren. Dies erscheint jedoch auf den ersten Blick nicht angemessen, wenn auch eine größere Zahl von Aufgaben dieses Inhalts der nächst höheren Stufe zuzuordnen sind. Weiß man jedoch, dass diese Aufgaben z. B. alle einen langen Aufgabentext besitzen und dass die Aufgabentextlänge nachweislich mit der Aufgabenschwierigkeit in Verbindung steht, dann ist die ursprüngliche Defi-nition der Kompetenzstufe durchaus plausibel“ (S. 10).
236
eine jüngere oder ältere Stichprobe (z. B. Schüler der neunten Jahrgangsstufe) zu
generieren. Oder aber im Zentrum des Forschungsinteresses steht eine möglichst
differenzierte Leistungserfassung in Bezug auf einen bestimmten Bereich des
Kompetenzmodells (z. B. sehr leistungsstarke Schüler auf hohen Kompetenzni-
veaus). In beiden Fällen wäre es möglich, für die zu entwickelnden Aufgaben spe-
zifische ‚Anforderungsprofile’ zu erstellen, die aus verschiedenen Kombinationen
der Aufgabenmerkmale bestehen. Mittels solch einer ‚merkmalsbasierten’ Aufga-
benkonstruktion könnte a priori bestimmt werden, welche Aufgaben leichter oder
schwerer sein sollten und worauf diese Unterschiede zurückzuführen sind. Aufga-
ben könnten dementsprechend explizit für ein bestimmtes Kompetenzprofil bzw.
Kompetenzniveau entwickelt werden, was eine effektivere und genauere Item-
konstruktion ermöglichen würde.
Ohne an dieser Stelle noch weiter ins Detail zu gehen, ist doch ersichtlich, welche
Bedeutung Aufgabenmerkmale im Prozess der Modellierung einer Kompetenz
einnehmen können, womit gleichzeitig der Bogen zurück an den Anfang des Ka-
pitels geschlagen wird: Die Überlegungen und Analysen der vorangegangenen
Abschnitte (7.1-7.6) haben gezeigt, dass durch die detaillierte Beschreibung von
schwierigkeitsgenerierenden Aufgabenmerkmalen ein tieferes Verständnis der zur
Aufgabenbearbeitung notwendigen Prozesse und damit ein besseres Verständnis
des anvisierten Kompetenzkonstrukts ermöglicht wird (vgl. Hartig & Jude, 2007,
S. 31). Dieses Verständnis erlaubt eine präzisere Interpretation von Testdaten so-
wie eine differenzierte Formulierung eines Kompetenzmodells und kann nicht zu-
letzt für die zukünftige Konstruktion von Items und Tests genutzt werden.
237
8 Diskussion und Zusammenfassung
Im folgenden letzten Kapitel werden die wesentlichen Ergebnisse der vorliegen-
den Arbeit noch einmal zusammengefasst und diskutiert. Es werden Probleme und
Grenzen der modellbasierten Aufgabenentwicklung und -analyse sowie weiterge-
hende methodische Überlegungen dargestellt. Die Arbeit schließt mit Ausführun-
gen zur curricularen Validität der entwickelten Testaufgaben und einem Ausblick
auf die Verwendungsmöglichkeiten der Aufgaben.
8.1 Zusammenfassung der Ergebnisse
Aufgabenentwicklungsprozess und Itempool
Als zentrales Ergebnis der vorliegenden Arbeit ist festzuhalten, dass mittels des
gewählten methodischen Vorgehens ein psychometrisch hochwertiger Itempool
(179 Items) generiert werden konnte, der die Strukturen des theoretischen Kompe-
tenzmodells abbildet, auf unterrichtlicher und curricularer Ebene verankert ist und
dabei sowohl eine Differenzierung über das gesamte Fähigkeitsspektrum (von
Schülern der sechsten Jahrgangsstufe) ermöglicht als auch den strengen testtheo-
retischen Annahmen des Rasch-Modells genügt (vgl. 6.1.3).
Hierbei hat sich die Konzeption der modellbasierten Aufgabenentwicklung als
kooperativer Prozess von schulischer Praxis und Fachwissenschaft und unter
Verwendung psychometrischer Methoden der Testkonstruktion bewährt (vgl. 4.3):
� Auf grundlegender methodischer Ebene betrifft dies zunächst die modellba-
sierte Vorgehensweise. Durch das stark theoriegeleitete Vorgehen konnte die
Aufgabenentwicklung einerseits musikpsychologisch fundiert und an den cur-
ricularen Vorgaben für das Fach Musik ausgerichtet werden (vgl. 4.2). Ande-
rerseits wurden durch die Verwendung eines theoretischen Modells den Auf-
gaben starke Annahmen auferlegt – vor allem hinsichtlich ihrer Schwierigkeit
–, die sich im Rahmen der statistischen Auswertungen bestätigen mussten. Es
erfolgte somit bereits im Prozess der Aufgabenentwicklung eine ständige
Rückkopplung zwischen Empirie und Theorie, die häufig zu einer Überarbei-
tung von Aufgaben führte, teilweise aber auch die Notwendigkeit von Modifi-
kationen am theoretischen Modell nahelegte.
238
� Des Weiteren konnten durch die verwendete Kombination klassischer und
probabilistischer Analysemethoden (vgl. 5.2) die Messeigenschaften der Auf-
gaben auf umfassende Weise untersucht und somit die angestrebte psychomet-
rische Qualität des Itempools im Rahmen der Itemselektion sichergestellt wer-
den (vgl. 6.1). Deutlich wurde hierbei, dass es über die statistischen Verfahren
hinaus der fachwissenschaftlichen Reflexion bedarf (vgl. 6.2).
� Von großer Bedeutung für den Aufgabenentwicklungsprozess war die Koope-
ration mit Lehrkräften. Durch die Beteiligung von Lehrern aus nahezu allen
Schulformen konnte die unterrichtliche Relevanz und ein möglichst gutes Pas-
sungsverhältnis der Aufgaben in Bezug auf die anvisierte Schülerpopulation
(Jahrgangsstufe sechs) sichergestellt werden. Darüber hinaus war es möglich,
über die ganze Entwicklungsphase hinweg Feldtests in den Schulen der Ko-
operationslehrer durchzuführen. Die entwickelten bzw. überarbeiteten Aufga-
ben konnten so kontinuierlich einer empirischen Überprüfung an Stichproben
mittlerer Größe (� pro Test N = 215) unterzogen werden.
Schwierigkeitsgenerierende Aufgabenmerkmale
Ein weiteres wichtiges Ergebnis der vorliegenden Arbeit stellt die Identifikation,
Systematisierung und Validierung von schwierigkeitsgenerierenden Aufgaben-
merkmalen dar (vgl. Kap. 7). Mittels umfassender Itemanalysen gelang es, ver-
schiedene Aufgabenmerkmale zu identifizieren, für die von einem schwierigkeits-
relevanten Einfluss auszugehen ist. Diese wurden auf drei übergeordneten Ebenen
systematisiert: Merkmalsebene ‚Aufgabe’ (Merkmale: Itemformat, Textlänge,
formalsprachliche Anforderungen), Merkmalsebene ‚Wahrnehmung und Ge-
dächtnis’ (Merkmale: Anforderungen an die Hörwahrnehmung, Anforderungen an
das musikalische Gedächtnis) und Merkmalsebene ‚Fachwissen’ (Notationskennt-
nisse, musiktheoretisches Wissen, musikhistorisches Wissen, musikstilistisches
Wissen, Wissen in Bezug auf kulturelle und soziale Kontexte von Musik). An-
schließend erfolgte die empirische Validierung der Aufgabenmerkmale. Trotz
verschiedener einschränkender Faktoren aufgrund der Datenlage (vgl. 7.6.4) kön-
nen auf Basis der empirischen Analysen (multiple lineare Regression) folgende
Befunde zusammengefasst werden:
� Die Analysen zeigen, dass sich empirisch ein schwierigkeitsgenerierender Ef-
fekt der oben genannten Aufgabenmerkmale auf die Itemschwierigkeiten
239
nachweisen lässt. Die in den Regressionen durchweg hohen Varianzaufklärun-
gen deuten auf eine starke Vorhersagekraft der Merkmale hin.
� Der Großteil der identifizierten Merkmale kann validiert werden. Lediglich
die Überprüfung des Einflusses von formalsprachlichen Anforderungen und
dem Einsatz von Fachwissen in Bezug auf soziale/kulturelle Kontexte war
aufgrund der Datenlage nicht möglich.
� Die formulierten Hypothesen in Bezug auf die ordinalen Ausprägungen der
Aufgabenmerkmale werden durch die Analysen bestätigt. Als schwieriger ein-
geschätzte Merkmalsausprägungen weisen auch empirisch eine höhere
Schwierigkeit auf.
� Die Einflussstärke der einzelnen schwierigkeitsgenerierenden Merkmale auf
die Itemschwierigkeit kann aufgrund methodischer Einschränkungen nur sehr
begrenzt miteinander verglichen werden. Tendenziell scheint sich aber anzu-
deuten, dass die Schwierigkeit eines Items vor allem durch die Anforderungen
an die Hörwahrnehmung und das notwendige Fachwissen beeinflusst wird.
Ebenso zeigt sich ein schwierigkeitsgenerierender Einfluss der Anforderungen
an das musikalische Gedächtnis, der vermutlich aber weniger stark ist.
8.2 Grenzen der durchgeführten Analysemethoden und weiterfüh-
rende methodische Überlegungen210
Für die Item- und Testanalyse wurden verschiedene statistische Methoden sowohl
der klassischen als auch der probabilistischen Testtheorie verwendet (vgl. Kap. 5).
In den folgenden Ausführungen werden einerseits die Grenzen von einzelnen ein-
gesetzten Verfahren diskutiert und andererseits Perspektiven für weiterführende
Analysemethoden eröffnet.
Differential Item Functioning (DIF)
DIF-Analysen sind ein hilfreiches Mittel, um die ‚Fairness’ von Items abzusichern
(vgl. 5.2.6). Idealerweise sollten die Items eines Tests kein DIF aufweisen, sodass
210 Eine ausführliche Diskussion der methodischen Einschränkungen der Regressionsanalysen im Rahmen der Validierung der schwierigkeitsgenerierenden Aufgabenmerkmale wurde bereits in Abschnitt 7.6.4 geführt. Es erfolgen daher an dieser Stelle keine zusätzlichen Ausführungen.
240
die Lösungswahrscheinlichkeiten der Items vollständig aufgrund von Personenfä-
higkeit und Itemschwierigkeit erklärt werden können. Ist dies nicht der Fall, so
deutet sich eine Benachteiligung bzw. Übervorteilung einer bestimmten Gruppe
von Testpersonen an, für die entsprechende ‚biased’ Items ‚zu leicht’ oder ‚zu
schwer’ sind.
Der Einsatz dieser Analysemethode konnte in der vorliegenden Arbeit nur in sehr
begrenztem Umfang erfolgen (es wurde ausschließlich ‚Gender-DIF’ untersucht),
da einerseits die Stichprobengrößen zu klein waren und andererseits nur wenige
Gruppenvariablen erhoben wurden (vgl. 6.1.1). Für weiterführende Analysen
könnten neben dem Geschlecht u. a. die Schulform und der Migrationshintergrund
der Schüler von Interesse sein. Noch bedeutsamer wäre allerdings die Untersu-
chung von DIF hinsichtlich der außerschulischen musikalischen Aktivitäten. Es
wäre beispielsweise zu untersuchen, ob Schüler, die in der Freizeit keine weitere
musikalische Förderung erhalten (z. B. Instrumentalunterricht oder Singen in ei-
nem Chor), in Bezug auf einen Teil der Items benachteiligt werden. Entsprechen-
de Analysen können für den Itempool im Rahmen der Pilotierungsstudie des Ko-
Mus-Projekts durchgeführt werden (vgl. 2.2.3). Hier werden zusätzlich zu den
Kompetenztests auch verschiedene weitere Instrumente zur Erhebung von Hinter-
grundvariablen der Schüler (u. a. sozio-ökonomischer Status, musikalisches
Selbstkonzept, musikbezogene Freizeitbeschäftigungen) eingesetzt. Dadurch kann
einerseits der Einfluss dieser Variablen untersucht werden, andererseits ist es im
Rahmen von DIF-Analysen aber auch möglich, Interaktionen zwischen den Vari-
ablen zu modellieren (z. B. Knoche & Lind, 2004).
Auswertung von offenen Items
Items mit offenem Format stellen besondere Anforderungen an die Auswertung
(insbesondere in Bezug auf die Objektivität), da diese nicht standardisiert durch-
geführt werden kann. Für die entwickelten offenen Items wurden daher zunächst
Kodieranweisungen erstellt, auf deren Basis die Auswertung (Kodierung) der I-
tems erfolgte. Aufgrund von begrenzten personellen Ressourcen wurde die Kodie-
rung der offenen Items im Rahmen der vorliegenden Arbeit lediglich von einer
Person durchgeführt (in der Regel vom Autor selbst). Dieses Vorgehen war zu-
nächst ausreichend, um die Anwendbarkeit der Kodieranweisungen zu überprüfen
und einen Einbezug der Items in die statistischen Analysen zu ermöglichen. Die
241
Absicherung der Objektivität der Auswertung konnte so jedoch nicht erfolgen.
Hierfür werden in der Literatur Auswertungsverfahren vorgeschlagen, bei denen
die offenen Items von mehreren Personen (Ratern) kodiert werden (z. B. Wirtz &
Caspar, 2002). In der anschließenden statistischen Analyse kommen Überein-
stimmungskoeffizienten zum Einsatz, die das Ausmaß der Übereinstimmung der
Rater in Form der Interrater-Reliabilität angeben. Um die Auswertungsobjektivität
auch für die offenen Items sicherzustellen, sollte solch ein Vorgehen für weiter-
führende Analysen berücksichtigt werden.
Umgang mit ‚problematischen’ Items: ‚cognitive labs’
Im Rahmen der durchgeführten Itemanalysen musste eine größere Anzahl von I-
tems ausgeschlossen oder überarbeitet werden aufgrund von schlechten bzw. theo-
retisch nicht plausiblen statistischen Kennwerten (vgl. 6.1.2). In diesem Zusam-
menhang wurden in der Regel weiterführende inhaltliche Itemanalysen durchge-
führt, um die möglichen Gründe für die schlechten bzw. unerwarteten Kennwerte
zu identifizieren (vgl. 6.2). Es wurde innerhalb der vorliegenden Arbeit mehrfach
deutlich, dass durch die Analysen oftmals nicht abschließend geklärt werden
kann, welche (Teil-) Kompetenzen für eine Aufgabenlösung notwendig sind oder
welche Lösungsstrategien von den Schülern eingesetzt werden. Denkbar wäre ei-
nerseits, dass ein entsprechendes Item das anvisierte Konstrukt nur unzulänglich
misst bzw. viel eher ein nicht anvisiertes Konstrukt erfasst wird (z. B. Intelligenz,
sprachliche Kompetenzen oder allgemeine Problemlösefähigkeiten). Andererseits
ist es aber auch möglich, dass die theoretischen Annahmen in Bezug auf die
Struktur der Kompetenz zu revidieren sind. In jedem Fall ist eine Überarbeitung
der Items oft nur schwer möglich, so lange ein genaueres Verständnis der für die
Aufgabenbearbeitung notwendigen Prozesse fehlt. Die einfachste Lösung im Um-
gang mit solch problematischen Items besteht darin, diese aus einem Test zu ent-
fernen. Dies ist jedoch einerseits ein relativ unökonomisches Vorgehen, da die
Neukonstruktion von Items sehr aufwendig ist, andererseits würde dadurch die
Möglichkeit vergeben, ein genaueres Verständnis der Testaufgaben bzw. der dafür
benötigten Kompetenzen zu erlangen. Wilson schlägt dementsprechend eine al-
ternative Vorgehensweise vor: „What to do about item misfit? Delete? Better – try
to understand” (Wilson, 2005). Ein möglicher methodischer Zugang ist hierbei die
242
Durchführung von ‚think aloud interviews’ bzw. von ‚cognitive labs’ (Wilson,
2005, S. 54 ff.).
‚Lautes Denken’ als übergeordneter Begriff bezeichnet eine empirische For-
schungsmethode, bei der Personen aufgefordert werden, „ihre Gedanken laut aus-
zusprechen, während sie sich einer Aufgabe oder Tätigkeit widmen“ (Bilandzic,
2005, S. 362). Aus den Audio- und Videoaufnahmen solcher Erhebungssituatio-
nen werden ‚verbal protocols’ erstellt, die dann ausgewertet werden können (vgl.
Ericsson & Simon, 1999). Eine spezifischere Form der ‚thinking aloud technique’
stellen ‚cognitive labs’ dar. Diese Methode ist charakterisiert durch den Gegens-
tandsbezug und daraus folgend durch bestimmte methodische und methodologi-
sche Besonderheiten (z. B. Zucker, Sassmann & Case 2004, S. 2 ff.). Besonders
geeignet sind ‚cognitive labs’, um die Gründe für Ungereimtheiten und Probleme
bei Testaufgaben aufzudecken (ebd.).
Vor diesem Hintergrund wurden ‚cognitive labs’ bereits im Rahmen einer kleinen
Teilstudie des KoMus-Projekts explorativ und mit wenigen Items eingesetzt (vgl.
Knigge et al., im Druck). Hierbei zeigte sich ein großes Potential in Bezug auf die
Aufgabenentwicklung und insbesondere -überarbeitung. Für die Durchführung
von zukünftigen Testentwicklungen wäre ein systematischer und den gesamten
Prozess der Aufgabenentwicklung begleitender Einsatz von ‚cognitive labs’ anzu-
streben.
Verwendete Testmodelle und mögliche Ergänzungen
Im Rahmen der vorliegenden Arbeit wurden ausschließlich unidimensionale
Rasch-Modelle (dichotomes und ordinales Rasch-Modell) für die Skalierung der
Tests verwendet (vgl. 5.1.2). Es konnte dabei für alle selektierten Items die Gel-
tung des Rasch-Modells inferenzstatistisch abgesichert werden (vgl. 6.1). Trotz-
dem stellt sich die Frage, ob evtl. andere Testmodelle die Daten besser abbilden
könnten. Diese Frage ist aus zwei Gründen naheliegend: (1) Die Struktur des the-
oretischen Kompetenzmodells ist mehrdimensional, (2) die Itemanalysen – insbe-
sondere im Rahmen der Identifikation der schwierigkeitsgenerierenden Aufga-
benmerkmale (vgl. Kap. 7) – konnten zeigen, dass für die Lösung einer Aufgabe
oftmals verschiedene Teilkompetenzen notwendig sind. Vor allem für komplexere
Aufgabenstellungen könnte daher die Annahme von mehreren latenten Variablen
zutreffender sein, als die Annahme einer einzelnen Kompetenzdimension (vgl.
243
Robitzsch, 2009, S. 54 f.). Vor diesem Hintergrund wäre insbesondere die Ver-
wendung von multidimensionalen Rasch-Modellen in Betracht zu ziehen (z. B.
Hartig, 2008b; Hartig & Höhler, 2008; Rost, 2004). Eine Anwendung entspre-
chender Modelle (z. B. ‚Between-Item-Modell’, ‚Within-Item-Modell’) konnte in
der vorliegenden Arbeit nicht erfolgen. Zuvorderst lag dies daran, dass in den ein-
zelnen Testheften jeweils schwerpunktmäßig nur einzelne Dimensionen des
Kompetenzmodells vertreten waren. Die übrigen Dimensionen waren hingegen
nur durch einzelne Items repräsentiert. Auf dieser Datenbasis erschien die An-
wendung multidimensionaler Testmodelle nicht sinnvoll. Für die Analysen im
Rahmen der Pilotierungsstudie sind entsprechende Auswertungsverfahren jedoch
vorgesehen (vgl. Jordan et al., 2010).
Im Rahmen der Diskussion von Testmodellen ist abschließend noch das Problem
der Ratewahrscheinlichkeit zu nennen. Diese wird innerhalb der verwendeten
Rasch-Modelle nicht berücksichtigt. Es ist daher problematisch, in einem Test I-
tems mit verschiedenen Formaten zu skalieren, da sich hierdurch in der Regel zu
niedrige Itemschwierigkeiten für MC-Items ergeben (Robitzsch, 2009, S. 45).
Prinzipiell ist auch im Rasch-Modell die Berücksichtigung der Ratewahrschein-
lichkeit möglich, was aber häufig zu Problemen bei der Interpretation der Ergeb-
nisse führt (z. B. Hartig, 2004). Trotzdem handelt es sich hierbei um ein nicht zu
unterschätzendes Problem, vor allem wenn die Items zur Bildung von Kompe-
tenzniveaus herangezogen werden. Neuere statistische Verfahren stellen hierfür
zunehmend Alternativen bereit, die jedoch teilweise an sehr hohe Anforderungen
an die Stichprobengröße gekoppelt sind. Aber auch für moderate Stichprobengrö-
ßen liegen mittlerweile Ansätze vor, die für zukünftige Testkonstruktionen zu be-
rücksichtigen wären (vgl. Robitzsch, 2009, S. 46).
8.3 Testaufgaben zur Erfassung der Hörwahrnehmung: Technische
Herausforderungen und mögliche Optimierungen
Die im Rahmen der vorliegenden Arbeit durchgeführten Tests erfolgten aus-
schließlich als Gruppentestung im ‚Papier-Bleistift-Format’ (vgl. 5.3.2). D. h., die
Hörbeispiele wurden von einem Testleiter mittels einer zentralen Audioeinheit
abgespielt und die Schüler notierten die Antworten in ein Testheft. Die Rückmel-
dungen der Kooperationslehrer, die bei den Testdurchführungen als Testleiter
244
fungierten, erbrachten hierbei wichtige Erkenntnisse, die auf Probleme und Opti-
mierungsmöglichkeiten des Testdesigns hindeuten:
(1) Problematisch erschienen zuvorderst die je nach Schule differierenden Bedin-
gungen in Bezug auf das Abspielen der Hörbeispiele. Zum Einen ist hier die teil-
weise stark schwankende Qualität der Tontechnik-Ausstattung in den verschiede-
nen Schulen zu nennen. Zum Anderen betrifft dies die unvermeidliche Tatsache,
dass die Schüler in unterschiedlichem Abstand und Winkel zu der Schallquelle
saßen. Vor allem in großen Klassen führte dies teilweise dazu, dass einige Schüler
die Hörbeispiele zu leise oder undeutlich wahrnahmen. Weiterhin beeinträchtigten
bereits kleinere Störungen im Klassenraum die Konzentration und machten es
einzelnen Schülern nur schwer möglich, die Hörbeispiele zu verfolgen (z. B. ge-
nügt schon ein herunterfallender Bleistift, um eine Rhythmus-
Wahrnehmungsaufgabe entscheidend zu beinträchtigen).
(2) Durch die Nutzung einer zentralen Audioeinheit konnten die Tests von allen
Schülern nur in einem einheitlichen Tempo bearbeitet werden, was möglicherwei-
se zu einer Unterforderung von leistungsstarken und zu einer Überforderung von
leistungsschwachen Schülern führte.
(3) Ein weiteres von den Lehrern häufig genanntes Problem war das Abschreiben.
Dieses in schulischen Kontexten bekannte Phänomen schien durch die Art der
Testdurchführung besonders begünstigt: Wenn z. B. bei einem MC-Item mit vier
Hörbeispielen dasjenige ausgewählt werden soll, welches zu den im Testheft ab-
gedruckten Noten passt, dann ist allein aufgrund des Zeitpunkts der Antwortabga-
be (und einer entsprechenden Handbewegung) ersichtlich, welches Hörbeispiel
(Antwortalternative) ein Schüler für die richtige Lösung hält. So berichteten die
Lehrer davon, dass bei vergleichbaren Aufgaben häufig Teile der Klasse so lange
mit der Antwort warteten, bis ein oder mehrere als besonders leistungsstark einge-
schätzte Schüler ihre Lösung notiert hatten.
Im Sinne der Durchführungsobjektivität eines Tests erscheinen die genannten
Punkte problematisch, sodass für zukünftige Testdurchführungen eine Modifikati-
on des Testdesigns zu überlegen ist. Von zentraler Bedeutung könnten an dieser
Stelle die jüngsten Entwicklungen auf dem Gebiet des ‚Technology Based As-
sessment’ (TBA) sein (z. B. Hartig & Klieme, 2007). Die Lösung der genannten
Probleme wäre evtl. durch ein computerbasiertes Verfahren möglich, bei dem die
245
Hörbeispiele individuell über Kopfhörer abgespielt werden. Neben den musikspe-
zifischen könnten hierbei weitere allgemeine Vorteile eines technologiebasierten
Verfahrens genutzt werden: So ermöglicht diese Testform eine Verbesserung der
Testgütekriterien (vor allem der Objektivität, in Abhängigkeit des zu erfassenden
Konstrukts aber auch der Validität) sowie eine vereinfachte Datenerfassung (vgl.
Jude & Wirth, 2007). Auf Basis der an dieser Stelle zusammengefassten Erfah-
rungen und Überlegungen wurde im Rahmen des KoMus-Projekts beschlossen,
die Testdurchführung für die Pilotierungsstudie auf ein computerbasiertes Verfah-
ren umzustellen (vgl. Jordan et al., 2010).
8.4 Curriculare Validität der entwickelten Aufgaben
Die Inhaltsvalidität ist ein Hauptgütekriterium in Bezug auf die Qualität eines
Testverfahrens (z. B. Bühner, 2006, S. 36 ff.; vgl. auch 3.1 und 4.2.1). Insbeson-
dere im Kontext der Erfassung von schulbezogenen Leistungen bzw. Kompeten-
zen kommt der Inhaltsvalidität, hier häufig bezeichnet als curriculare Validität, ei-
ne zentrale Bedeutung zu (Hartig & Jude 2007, S. 23). Mit curricularer Validität
ist die Gültigkeit eines Tests und dessen Testaufgaben hinsichtlich eines bestimm-
ten Curriculums gemeint. Um diese Gültigkeit beanspruchen zu können, müssen
die Testaufgaben die auf curricularer Ebene geforderten Kompetenzen möglichst
umfassend abdecken. Da innerhalb eines Tests jedoch nur eine begrenzte Anzahl
an Aufgaben eingesetzt werden kann, ist es von entscheidender Bedeutung, dass
die verwendeten Aufgaben die Menge möglicher Aufgaben (‚Itemuniversum’)
hinreichend gut repräsentieren (Hartig et al., 2007, S. 141 f.). Denn nur wenn die
curriculare Validität eines Tests sichergestellt ist, ist eine Verallgemeinerung der
Testergebnisse über die konkret verwendeten Testaufgaben hinaus zulässig (‚Rep-
räsentationsschluss’; vgl. Hartig et al., 2007, S. 142).
Vor diesem Hintergrund wurde im Rahmen der Aufgabenentwicklung eine mög-
lichst hohe curriculare Validität der Testaufgaben angestrebt. Hierfür war einer-
seits die Verankerung des Testkonstrukts auf curricularer Ebene von Bedeutung
(vgl. 4.2.1). Andererseits konnte durch die Einbindung von Kooperationslehrern
aus verschiedenen Bundesländern und Schulformen in den Entwicklungsprozess
deren fachpraktische Expertise und Kenntnis der jeweiligen Curricula genutzt
werden. Trotz solch eines Vorgehens ist jedoch nicht sichergestellt, ob die ange-
246
strebte curriculare Validität durch die Testaufgaben tatsächlich gegeben ist. Wäh-
rend für einen Teil der Testgütekriterien eine statistische Überprüfung erfolgen
kann, ist dies grundsätzlich für die Inhaltsvalidität nicht bzw. nur indirekt mög-
lich. Eine Möglichkeit, die Prüfung der curricularen Validität trotzdem möglichst
objektiv vorzunehmen, ist das Einholen externer Expertenurteile (Hartig & Jude
2007, S. 23). In der Regel werden hierfür Fachdidaktiker und Curriculum-
Experten gebeten, die Aufgaben auf Ratingskalen hinsichtlich ihrer Relevanz und
Repräsentativität in Bezug auf die anvisierten Kompetenzen (Lehrziele) einzu-
schätzen (z. B. Dubberke & Harks, 2007). Ergibt die statistische Auswertung der
Expertenurteile eine hohe Relevanz der Aufgaben (berechnet als Median der Ra-
tings) und gleichzeitig eine hohe Übereinstimmung zwischen den Experten (be-
rechnet mittels Übereinstimmungskoeffizienten), so kann von der curricularen
Validität der Aufgaben ausgegangen werden.
Für die vorliegende Arbeit ist festzuhalten, dass die curriculare Validität der Test-
aufgaben ein zentrales Kriterium im Rahmen des Entwicklungsprozesses war. Ei-
ne Überprüfung der angestrebten Validität mittels Expertenurteilen konnte in die-
sem Zusammenhang jedoch nicht durchgeführt werden. Ein entsprechendes Vor-
gehen ist im Rahmen der Pilotierungsstudie geplant. Dort sollen sowohl die Leh-
rer der teilnehmenden Klassen als auch Curriculum-Experten aus verschiedenen
Ländern um eine Einschätzung der Aufgaben gebeten werden.
8.5 Ausblick
In den vorangegangenen Abschnitten wurden die Ergebnisse der vorliegenden
Arbeit zusammengefasst, diskutiert und teilweise bereits Perspektiven aufgezeigt
in Bezug auf weiterführende methodische Ansätze und Optimierungsmöglichkei-
ten der Testkonstruktion und -durchführung. Im folgenden abschließenden Ab-
schnitt soll ein Ausblick über die Arbeit hinaus gegeben werden. Zunächst sind
hierfür die erzielten Ergebnisse in den größeren Kontext des KoMus-Projekts ein-
zubetten. Die Arbeit ist integraler Bestandteil des Gesamtprojekts, sodass die Er-
gebnisse innerhalb des Projekts weitere Verwendung finden werden.
Hauptsächlich betrifft dies den entwickelten Itempool, der im Rahmen der Pilotie-
rungsstudie in der dritten Phase des KoMus-Projekts für die Validierung des
247
Kompetenzmodells eingesetzt wird (vgl. 2.2.3). In diesem Zusammenhang werden
die Items auch einem erneuten Selektionsprozess unterzogen, um die Endform des
anvisierten Testinstruments erstellen zu können. Diese abschließende Itemselekti-
on ist vor allem deshalb notwendig, da die zum jetzigen Zeitpunkt vorliegenden
179 Items nicht innerhalb einer realistischerweise zur Verfügung stehenden Test-
zeit bearbeitet werden können. Um einen in der Praxis einsetzbaren Kompetenz-
test zu erhalten, muss daher nochmals ca. die Hälfte der Items selektiert werden.
Darüber hinaus sind auch die in der vorliegenden Arbeit identifizierten schwierig-
keitsgenerierenden Aufgabenmerkmale von Bedeutung für das Gesamtprojekt. Im
Rahmen der Modellvalidierung wird ein wichtiger Schritt die Bildung von empi-
risch abgesicherten Kompetenzniveaus sein. Ähnlich dem in der DESI-Studie
praktizierten Vorgehen (vgl. Hartig, 2007; Nold & Rossa, 2007) ist auch für das
KoMus-Projekt geplant, hierbei Aufgabenmerkmale zur Charakterisierung der
Kompetenzniveaus einzusetzen.
Im Zentrum der vorliegenden Arbeit und auch des KoMus-Projekts steht zunächst
ausschließlich die Test- und Modellkonstruktion. Mittelfristig ist jedoch nach den
Anwendungsmöglichkeiten der entwickelten Testaufgaben bzw. des Kompetenz-
tests und -modells zu fragen: Eine Verwendung des Kompetenztests und -modells
ist vor allem im Rahmen von Schulleistungsmessungen naheliegend, aufgrund der
Konzeption des Testinstruments insbesondere für den Bereich des ‚large-scale-
assessments’. Somit wäre es im deutschen musikpädagogischen Kontext erstmalig
möglich, großflächiger und evtl. repräsentativ Daten in Bezug auf den musikali-
schen Leistungsstand von Schülern im Kompetenzbereich ‚Wahrnehmen und
Kontextualisieren von Musik’ zu erheben. Es wären verschiedene Verwendungs-
möglichkeiten der dabei erhobenen Daten im Bereich der Qualitätssicherung
denkbar. Zuvorderst wird in diesem Zusammenhang meist an die Nutzung der Er-
gebnisse auf Systemebene gedacht – also beispielsweise für die Bildungsplanung
oder für Schulverwaltungen. In der Bildungsforschung und -administration setzt
sich jedoch zunehmend die Überzeugung durch, dass die durch die aktuellen Re-
formprozesse intendierte Qualitätssicherung bzw. -steigerung von schulischem
Unterricht nur erzielt werden kann, wenn die Ergebnisse der empirischen Schul-
leistungsforschung insbesondere auch auf der Ebene der Schul- und Unterrichts-
entwicklung verwendet werden (z. B. Klieme, 2009). Dadurch ergibt sich automa-
tisch die Frage nach geeigneten Rückmeldeformaten für die Testergebnisse. Wäh-
248
rend auf erziehungswissenschaftlicher Ebene mittlerweile ein breiter Diskurs zu
dieser Thematik existiert (z. B. Kuper & Schneewind, 2006; Hosenfeld & Groß
Ophoff, 2007), sind musikspezifische Forschungen hierzu bislang noch nicht
durchgeführt worden. Gerade in diesem Zusammenhang könnte sich ein großes
Anwendungspotential der erzielten Ergebnisse ergeben: Denn durch die Verbin-
dung eines Testinstruments mit einem Kompetenzmodell entstehen nicht nur viel-
fältige Möglichkeiten der Kompetenzdiagnostik, sondern auch die Möglichkeit
von sehr differenzierten Rückmeldungen (vgl. Rupp, Leucht & Hartung, 2006).
Des Weiteren könnten die in der vorliegenden Arbeit und im KoMus-Projekt er-
zielten Ergebnisse auch auf curricularer und unterrichtlicher Ebene Verwendung
finden. Wie in Abschnitt 2.2.1 dargestellt, fehlt in den Musik-Curricula bislang
noch eine präzise Beschreibung von Kompetenzen und deren Systematisierung in
Form von Kompetenzmodellen. Ebenso wurden bisher keine Aufgaben vorgelegt,
die empirisch abgesichert die Dimensionen und Graduierungen der geforderten
Kompetenzen abbilden. Für eine Verwendung des KoMus-Kompetenzmodells
und der darauf bezogenen Aufgaben in diesem Zusammenhang könnte insbeson-
dere den schwierigkeitsgenerierenden Aufgabenmerkmalen eine wichtige Funkti-
on zukommen. Denn die Übertragung von Kompetenzmodellen auf konkretes Un-
terrichtsgeschehen ist ein komplexer Prozess. Für ein besseres Verständnis der
verschiedenen Dimensionen und Niveaus von Kompetenzmodellen werden daher
im Rahmen von Bildungsstandards illustrative Aufgaben vorgeschlagen (Klieme
et al., 2003). So nützlich diese Aufgaben – so sie denn existieren – sind, so geben
sie den Lehrkräften in der Regel doch nur in sehr begrenztem Umfang Hinweise,
welche Charakteristika eine Aufgabe konstituieren, in welchem konkreten Ver-
hältnis diese zur anvisierten Kompetenz stehen, und vor allem, wie Aufgaben zu
konstruieren sind, die ähnliche Kompetenzen erfassen sollen. Schwierigkeitsgene-
rierende Aufgabenmerkmale könnten an dieser Stelle ein äußerst hilfreiches Ve-
hikel für die Variierung von Aufgabenstellungen und eine der konkreten Schüler-
schaft angemessene Konstruktion von z. B. Klassenarbeiten sein. Es fehlen bis-
lang Berichte bezüglich solch unterrichtspraktisch relevanter Anwendungen. Dies
dürfte hauptsächlich an den aktuell noch kaum vorhandenen Kompetenzmodellen
mit durch schwierigkeitsgenerierende Merkmale beschriebenen Aufgabenpools
liegen. Wo entsprechende Forschungen vorliegen, wird teilweise aber bereits in
249
die Richtung von unterrichtsrelevanten Anwendungen gedacht (z. B. Cohors-
Fresenborg et al., 2004; Nold et al., 2007).
Die vorliegende Arbeit und auch das KoMus-Projekt insgesamt stellen lediglich
erste Schritte in Richtung einer empirisch basierten musikspezifischen Kompe-
tenzerfassung und -modellierung dar. Die vorangegangenen Ausführungen haben
ausschnitthaft das Potential aber auch die damit verbundenen und erst noch zu lei-
stenden umfassenden Forschungstätigkeiten in diesem Kontext skizziert. Wenn-
gleich Sigrid Abel-Struth (1985) am Ende ihres „Grundriss der Musikpädagogik“
noch viele weitere Arbeitsfelder vor Augen hatte, so scheint ihr abschließender
Satz auch für das größtenteils noch offene Feld der Erforschung musikalischer
Kompetenzen zutreffend: „Insgesamt ergibt sich ziemlich viel Arbeit“ (S. 624).
250
Literaturverzeichnis
A
Abel-Struth, S. (1978). Ziele des Musik-Lernens: Teil I: Beitrag zur Entwicklung ihrer Theorie. Musikpädagogik: Forschung und Lehre: Bd. 12. Mainz: Schott.
Abel-Struth, S. (1985). Grundriss der Musikpädagogik. Mainz: Schott.
Ackeren, I. van (2003). Nutzung großflächiger Tests für die Schulentwicklung: Erfahrun-gen aus England, Frankreich und den Niederlanden. Bildungsreform: Bd. 3. Berlin: BMBF.
Adams, R. (2002). Scaling PISA Cognitive Data. In R. Adams & M. Wu (Hrsg.), PISA 2000. Technical Report (S. 99-108). Paris: OECD.
Adams, R. & Carstensen, C. H. (2002). Scaling Outcomes. In R. Adams & M. Wu (Hrsg.), PISA 2000. Technical Report (S. 149-162). Paris: OECD.
Allen, N. L., Jenkins, F. & Schoeps, T. L. (2004). The NAEP 1997 Arts Technical Analy-sis Report, Educational Testing Service. ETS-NAEP 04-T01. Verfügbar unter: http://www.ets.org/Media/Research/pdf/ETS-NAEP-04-T01.pdf [6.1.2008].
Amelang, M. & Schmidt-Atzert, L. (2006). Psychologische Diagnostik und Intervention (4., vollst. überarb. und erw. Aufl.). Heidelberg: Springer.
Anderson, L. W., Krathwohl, D. R. & Airasian, P. W. (2001). A Taxonomy for Learning, Teaching, and Assessing: A Revision of Bloom's Taxonomy of Educational Objectives. New York: Longman.
Andrews, F. M. & Deihl, N. C. (1967). Development of a technique for identifying ele-mentary school children’s musical concepts. Coop Research Project 5-0233. Washing-ton D.C.
Arbeitsgruppe Internationale Vergleichsstudie (2003). Vertiefender Vergleich der Schul-systeme ausgewählter Pisa-Teilnehmerstaaten. Bildungsforschung: Bd. 2. Bonn: BMBF.
Asmus, E. P. (1999). Music Assessment Concepts. Music Educators Journal, Special Fo-cus: Assessment in Music Education, 86 (2), 19-24. Verfügbar unter: http://www.jstor.org/stable/3399585 [15.8.2008].
Auhagen, W. (2005). Rhythmus- und Tempoempfinden. In H. de La Motte-Haber & G. Rötter (Hrsg.), Musikpsychologie (Handbuch der Systematischen Musikwissenschaft, S. 231-249). Laaber: Laaber.
Ayala, R. J. de (2009). The theory and practice of item response theory. New York: Guil-ford.
B
Baddeley, A. D. (1986). Working Memory. Oxford: Oxford University Press.
Bähr, J. (2001). Zur Entwicklung musikalischer Fähigkeiten von Zehn- bis Zwölfjährigen: Evaluation eines Modellversuchs zur Kooperation von Schule und Musikschule. Göt-tingen: Cuvillier.
Bähr, J. (2003). Qualitätsentwicklung und Qualitätssicherung im Musikunterricht. AfS-Magazin (15), 7-13. Verfügbar unter: http://www.afs-musik.de/pdf/AfS-Mag15_Baehr.pdf [10.1.2007].
Bähr, J. (2004a). Bildungsstandards für den Musikunterricht? In M. Ansohn & J. Terhag (Hrsg.), Musikkulturen - fremd und vertraut (Musikunterricht heute, S. 404-419). Ol-dershausen: Lugert.
251
Bähr, J. (2004b). Standards - Voraussetzungen und Ziele. Musik & Bildung (4), 56-57.
Bähr, J. (2005). Bildungsstandards für den Musikunterricht. In W. Jank (Hrsg.), Musik-Didaktik. Praxishandbuch für die Sekundarstufe I und II (S. 139-142). Berlin: Cornel-sen Scriptor.
Baumert, J., Bos, W. & Lehmann, R. (Hrsg.). (2000). Mathematische und naturwissen-schaftliche Grundbildung am Ende der Pflichtschulzeit. TIMSS/III: Bd. 1. Opladen: Leske + Budrich.
Baumert, J., Klieme, E., Neubrand, M., Prenzel, M., Schiefele, U., Schneider, W. et al. (Hrsg.). (2001). PISA 2000: Basiskompetenzen von Schülerinnen und Schülern im in-ternationalen Vergleich. Opladen: Leske + Budrich.
Baumert, J., Köller, O., Lehrke, M. & Brockmann, J. (2000). Anlage und Druchführung der dritten Internationalen Mathematik- und Naturwissenschaftsstudie zur Sekundar-stufe II (TIMSS/III) - Technische Grundlagen. In J. Baumert, W. Bos & R. Lehmann (Hrsg.), Mathematische und naturwissenschaftliche Grundbildung am Ende der Pflichtschulzeit (TIMSS/III, S. 31-84). Opladen: Leske + Budrich.
Baumert, J. & Lehmann, R. (1997). TIMSS - Mathematisch-naturwissenschaftlicher Un-terricht im internationalen Vergleich: Deskriptive Befunde. Opladen: Leske + Bu-drich.
Bausch, K. R., Burwitz-Melzer, E., Königs, F. G. & Krumm, H.-J. (Hrsg.). (2006). Auf-gabenorientierung als Aufgabe: Arbeitspapiere der 26. Frühjahrskonferenz zur Erfor-schung des Fremdsprachenunterrichts. Tübingen: Narr.
Bayrhuber, H. (2007a). Einführung - Beitrag der Fachdidaktiken zur Qualitätsverbesse-rung im Bildungssystem. In H. Bayrhuber (Hrsg.), Kompetenzentwicklung und As-sessment (Forschungen zur Fachdidaktik, S. 9-15). Innsbruck: Studien-Verl.
Bayrhuber, H. (Hrsg.). (2007b). Kompetenzentwicklung und Assessment. Forschungen zur Fachdidaktik: Bd. 9. Innsbruck: Studien-Verl.
Beck, B. & Klieme, E. (Hrsg.). (2007). Sprachliche Kompetenzen - Konzepte und Mes-sung: DESI-Studie (Deutsch Englisch Schülerleistungen International). DESI Ergeb-nisse: Bd. 1. Weinheim: Beltz.
Benner, D. (2007). Unterricht - Wissen - Kompetenz: Zur Differenz zwischen didakti-schen Aufgaben und Testaufgaben. In D. Benner (Hrsg.), Bildungsstandards. Instru-mente zur Qualitätssicherung im Bildungswesen. Kontroversen - Beispiele - Perspek-tiven (S. 124-138). Paderborn: Schöningh.
Bilandzic, H. (2005). Lautes Denken. In L. Mikos & C. Wegener (Hrsg.), Qualitative Medienforschung. Ein Handbuch (S. 362–370). Konstanz: UVK.
Bloom, B. S. (Hrsg.). (1956). The Taxonomy of Educational Objectives: Handbook I: Cognitive Domain. New York: McKay.
Blum, W. (2006). Einführung. In W. Blum, C. Drüke-Noe, R. Hartung & O. Köller (Hrsg.), Bildungsstandards Mathematik: konkret. Sekundarstufe I: Aufgabenbeispiele, Unterrichtsanregungen, Fortbildungsideen (S. 14-32). Berlin: Cornelsen Scriptor.
Bond, T. G. & Fox, C. M. (2007). Applying the Rasch model: Fundamental measurement in the human sciences (2. Aufl.). Mahwah, NJ: Lawrence Erlbaum.
Borries, B. von (2007). Von der Curriculumdebatte um 1970 zur Kompetenzdebatte um 2005. In A. Körber, W. Schreiber & A. Schöner (Hrsg.), Kompetenzen historischen Denkens. Ein Strukturmodell als Beitrag zur Kompetenzorientierung in der Ge-schichtsdidaktik (Kompetenzen, S. 317-333). Neuried: ars una.
Borsboom, D., Mellenbergh, G. J. & van Heerden, J. (2004). The Concept of Validity. Psychological Review, 111 (4), 1061-1071.
252
Bortz, J. (2005). Statistik für Human- und Sozialwissenschaftler (6., vollst. überarb. und aktual. Aufl.). Springer-Lehrbuch. Heidelberg: Springer.
Bortz, J. & Döring, N. (2006). Forschungsmethoden und Evaluation für Human- und So-zialwissenschaftler (4. überarb. Aufl.). Heidelberg: Springer.
Böttcher, W. (2006). Bildungsstandards und Evaluation im Paradigma der Outputsteue-rung. In W. Böttcher, G. Holtappels & M. Brohm (Hrsg.), Evaluation im Bildungswe-sen. Eine Einführung in Grundlagen und Praxisbeispiele (S. 39-50). Weinheim: Ju-venta.
Boyle, J. D. & Radocy, R. E. (1987). Measurement and evaluation of musical experi-ences. New York: Schirmer Books.
Brophy, T. S. (2000). Assessing the developing child musician: A guide for general music teachers. Chicago: GIA.
Brophy, T. S. (Hrsg.). (2008). Assessment in Music Education: Integrating Curriculum, Theory, and Practice – Proceedings of the 2007 Florida Symposium on Assessment in Music Education. Chicago: GIA.
Brophy, T. S. (Hrsg.). (2010). The Practice of Assessment in Music Education: Frame-works, Models, and Designs: Proceedings of the 2009 Florida Symposium on Assess-ment in Music Education. Chicago: GIA.
Brügelmann, H. (2003). Das kurze Gedächtnis großer Reformer. Die Deutsche Schule, 95 (2), 168-171.
Bruhn, H. (1993a). Rhythmus in Wahrnehmung und musikbezogener Handlung. In H. Bruhn, R. Oerter & H. Rösing (Hrsg.), Musikpsychologie. Ein Handbuch (S. 291-299). Reinbek: Rowohlt.
Bruhn, H. (1993b). Tonpsychologie - Gehörpsychologie - Musikpsychologie. In H. Bruhn, R. Oerter & H. Rösing (Hrsg.), Musikpsychologie. Ein Handbuch (S. 439-451). Reinbek: Rowohlt.
Bruhn, H. (1994). Test. In S. Helms, R. Schneider & R. Weber (Hrsg.), Neues Lexikon der Musikpädagogik. Sachteil (S. 274-276). Regensburg: Bosse.
Bruhn, H. (2000). Kognitive Aspekte der Entwicklung von Rhythmus. In K. Müller & G. Aschersleben (Hrsg.), Rhythmus. Ein interdisziplinäres Handbuch (S. 227-244). Bern: Huber.
Bruhn, H. (2005). Wissen und Gedächtnis. In R. Oerter & T. H. Stoffer (Hrsg.), Allge-meine Musikpsychologie (Enzyklopädie der Psychologie, S. 537-590). Göttingen: Ho-grefe.
Bühner, M. (2006). Einführung in die Test- und Fragebogenkonstruktion (2., aktual. und erw. Aufl.). München: Pearson Studium.
Bühner, M. & Ziegler, M. (2009). Statistik für Psychologen und Sozialwissenschaftler. München: Pearson Studium.
C
Campbell, M. R. (1991). Musical learning and the development of psychological proc-esses in perception. Council for Research in Music Education (107), 35-38.
Caspari, D., Grotjahn, R. & Kleppin, K. (2008). Kompetenzorientierung und Aufgaben: Zur Unterscheidung zwischen Lern- und Testaufgaben. In B. Tesch, E. Leupold & O. Köller (Hrsg.), Bildungsstandards Französisch: konkret. Sekundarstufe I: Grundla-gen, Aufgabenbeispiele und Unterrichtsanregungen (S. 85-87). Berlin: Cornelsen Scriptor.
253
Cohors-Fresenborg, E., Sjuts, J. & Sommer, N. (2004). Komplexität von Denkvorgängen und Formalisierung von Wissen. In M. Neubrand (Hrsg.), Mathematische Kompeten-zen von Schülerinnen und Schülern in Deutschland. Vertiefende Analysen im Rahmen von PISA 2000 (S. 109-144) . Wiesbaden: VS Verlag.
Colwell, R. (1969). Music achievement tests 1 and 2. Chicago: Follet Educational Corp.
Colwell, R. (1970a). Music achievement tests 3 and 4. Chicago: Follet Educational Corp.
Colwell, R. (1970b). The evaluation of music teaching and learning. New York: Engle-wood Cliffs.
Colwell, R. (1979). Silver Burdett Music Competency Tests. Morristown: Silver Burdett.
Colwell, R. (1999a). The 1997 Assessment in Music: Red Flags in the Sunset. Arts Edu-cation Policy Review, 100 (6), 33-39.
Colwell, R. (1999b). The Future of Assessment. Journal of Aesthetic Education, 33 (4), 53-75.
Colwell, R. (2002). Assessment's Potential in Music Education. In R. Colwell & C. P. Richardson (Hrsg.), The new handbook of research on music teaching and learning. A project of the Music Educators National Conference (S. 1128-1158). New York: Ox-ford Univ. Press.
Colwell, R. (2004). Evaluation in the arts is sheer madness. Arts Praxis (1). Verfügbar unter: http://steinhardt.nyu.edu/music/artspraxis/sheer_madness [12.2.2008].
Criblez, L., Oelkers, J., Reusser, K., Berner, E., Halbheer, U. & Huber, C. (2009). Bil-dungsstandards. Lehren lernen - Basiswissen für die Lehrerinnen- und Lehrerbildung. Zug: Klett und Balmer.
Cvetko, A. & Knigge, J. (im Druck). Musik- und (Fremd-) Sprachenunterricht – Interdis-ziplinäre Perspektiven in Schule und Forschung. In P. Graf & A. Fernandez-Castillo (Hrsg.), Schüler auf dem Weg nach Europa. Interkulturelle Bildung und Mehrspra-chigkeit in der Schule. Bad Heilbrunn: Klinkhardt.
D
Davier, M. von (1997). Methoden zur Prüfung probabilistischer Testmodelle. IPN Schrif-tenreihe: Bd. 157. Kiel: IPN.
Davier, M. von (2001). WINMIRA (Version 2001). University Ave, St. Paul: Assessment Systems Corporation.
DESI-Konsortium (Hrsg.). (2008). Unterricht und Kompetenzerwerb in Deutsch und Englisch: Ergebnisse der DESI-Studie. Weinheim: Beltz.
Dubberke, T. & Harks, B. (2008). Zur curricularen Validität der DESI-Aufgaben: Ergeb-nisse eines Expertenratings. In DESI-Konsortium (Hrsg.), Unterricht und Kompetenz-erwerb in Deutsch und Englisch. Ergebnisse der DESI-Studie (S. 26-33). Weinheim: Beltz.
Dubs, R. (2007). Education Standards: Attempting a Critical Judgement of Development - A Reflection of the Symposium. In D. Waddington, P. Nentwig & S. Schanze (Hrsg.), Making it comparable. Standards in science education (S. 405-430). Münster: Waxmann.
E
Ehmke, T., Leiß, D., Blum, W. & Prenzel, M. (2006). Entwicklung von Testverfahren für die Bildungsstandards Mathematik: Rahmenkonzeption, Aufgabenentwicklung, Feld- und Haupttest. Unterrichtswissenschaft, 34 (3), 220-238.
Eikenbusch, G. (Hrsg.). (2008) Aufgabenkultur [Themenheft]. Pädagogik, 60 (3).
254
Ericsson, K. A. & Simon, H. A. (1999). Protocol analysis: Verbal reports as data (3. überarb. Aufl.). Cambridge: Mit Press.
F
Fisher, R. (2009). Debating Assessment in Music Education. Research and Issues in Mu-sic Education, 6 (1). Verfügbar unter: http://www.stthomas.edu/rimeonline/vol6/fisher1.htm [6.3.2010].
Flämig, M. (2004). Diskussionspapier zu Standards und Musikunterricht, Bundesfach-gruppe Musikpädagogik. Verfügbar unter: http://www.bfg-musikpaedagogik.de/Dateien/Diskussionspapier.pdf [17.11.2007].
Füller, K. (1974). Lernzielklassifikation und Leistungsmessung im Musikunterricht: Stu-dien zur Entwicklung einer Lernzieltaxonomie und zur objektivierten Leistungserfas-sung im Fach Musik. Weinheim: Beltz.
G
Gabrielsson, A. (2001/2002). Perceived emotion and felt emotion: Same or different? In I. Deliège (Hrsg.). Current Trends in the Study of Music and Emotion. Musicæ Scien-tiæ, 123-148.
Gabrielsson, A. & Lindström, E. (2001). The influence of musical structure on emotional expression. In P. N. Juslin & J. Sloboda (Hrsg.), Music and emotion. Theory and re-search (S. 223-248). Oxford: Oxford Univ. Press.
Gembris, H. (1998). Grundlagen musikalischer Begabung und Entwicklung. Forum Mu-sikpädagogik: Bd. 20. Augsburg: Wißner.
Gembris, H. (2005). Die Entwicklung musikalischer Fähigkeiten. In H. de La Motte-Haber & G. Rötter (Hrsg.), Musikpsychologie (Handbuch der Systematischen Musik-wissenschaft, S. 394-456). Laaber: Laaber.
Gembris, H. (2006). The Development of Musical Abilities. In R. Colwell (Hrsg.), MENC handbook of musical cognition and development (S. 124-164). New York: Ox-ford Univ. Press.
Geuen, H. (2006). Kompetenzvermittlung und Bildungsstandards: Probleme und Chan-cen für den allgemein bildenden Musikunterricht, Ministerium für Schule und Weiter-bildung des Landes Nordrhein-Westfalen. Verfügbar unter: http://www.schulministerium.nrw.de/BP/Schueler/Veranstaltungen_Akademien/Materialien_zu_vergangenen_Veranstaltungen/KunstMusikBildungSchule/Geuen.html [6.11.2007].
Geuen, H. & Orgass, S. (2007). Partizipation - Relevanz - Kontinuität: Musikalische Bil-dung und Kompetenzentwicklung in musikdidaktischer Perspektive. Aachen: Shaker.
Gordon, E. (1971). Iowa Tests of Musical Literacy. Iowa: Univ. of Iowa (Publications Order Department).
Granzer, D., Böhme, K. & Köller, O. (2008). Kompetenzmodelle und Aufgabenentwick-lung für die standardisierte Leistungsmessung im Fach Deutsch. In A. Bremerich-Vos, D. Granzer & O. Köller (Hrsg.), Lernstandsbestimmung im Fach Deutsch. Gute Auf-gaben für den Unterricht (S. 10-49). Weinheim: Beltz.
Gudmundsdottir, H. R. (1999). Children’s auditory discrimination of simultaneous melo-dies. Journal of Research in Music Education, 47 (2), 101-110.
255
H
Haft, H. & Hopmann, S. (1987). Lehrplanarbeit in der Bundesrepublik Deutschland: Ver-änderungen zwischen 1970 und heute. Die Deutsche Schule, 79 (4), 506-518.
Hargreaves, D. J. (1982). Preference and prejudice in music: A psychological approach. Popular Music and Society, 8, 13-18.
Hartig, J. (2004). Methoden zur Bildung von Kompetenzstufenmodellen. In H. Moos-brugger, D. Frank & W. Rauch (Hrsg.), Qualitätssicherung im Bildungswesen (Riez-lern-Reader, S. 74-93). Frankfurt: Inst. für Psychologie.
Hartig, J. (2007). Skalierung und Definition von Kompetenzniveaus. In B. Beck & E. Klieme (Hrsg.), Sprachliche Kompetenzen - Konzepte und Messung. DESI-Studie (Deutsch Englisch Schülerleistungen International) (DESI Ergebnisse, S. 83-99). Weinheim: Beltz.
Hartig, J. (2008). Kompetenzen als Ergebnisse von Bildungsprozessen. In N. Jude, J. Hartig & E. Klieme (Hrsg.), Kompetenzerfassung in pädagogischen Handlungsfel-dern. Theorien, Konzepte und Methoden (Bildungsforschung, S. 15-25). Bonn: BMBF.
Hartig, J. (2008b). Psychometric Models for the Assessment of Competencies. In J. Har-tig, E. Klieme & D. Leutner (Hrsg.), Assessment of Competencies in Educational Set-tings (S. 69-90). Göttingen: Hogrefe & Huber.
Hartig, J., Frey, A. & Jude, N. (2007). Validität. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S. 135-163). Heidelberg: Springer.
Hartig, J. & Höhler, J. (2008). Representation of Competencies in Mulitdimensional IRT Models with Within-Item and Between-Item Multidimensionality. Zeitschrift für Psy-chologie, 216 (2), 89-101.
Hartig, J. & Jude, N. (2007). Empirische Erfassung von Kompetenzen und psychometri-sche Kompetenzmodelle. In J. Hartig & E. Klieme (Hrsg.), Möglichkeiten und Vor-aussetzungen technologiebasierter Kompetenzdiagnostik. Eine Expertise im Auftrag des Bundesministeriums für Bildung und Forschung (Bildungsforschung, S. 17-36). Berlin: BMBF.
Hartig, J. & Klieme, E. (2006). Kompetenz und Kompetenzdiagnostik. In K. Schweizer (Hrsg.), Leistung und Leistungsdiagnostik (S. 127-143). Heidelberg: Springer Medi-zin.
Hartig, J. & Klieme, E. (Hrsg.). (2007). Möglichkeiten und Voraussetzungen technologie-basierter Kompetenzdiagnostik: Eine Expertise im Auftrag des Bundesministeriums für Bildung und Forschung. Bildungsforschung: Bd. 20. Berlin: BMBF.
Helmke, A. & Hosenfeld, I. (2003). Vergleichsarbeiten - Standards - Kompetenzstufen: Begriffliche Klärung und Perspektiven für VERA. Verfügbar unter: http://www.mbjs.brandenburg.de/media/lbm1.a.4365.de/vera_standards_kompetenzstufen.pdf [5.1.2010].
Herget, W. (2006). Typen von Aufgaben. In W. Blum, C. Drüke-Noe, R. Hartung & O. Köller (Hrsg.), Bildungsstandards Mathematik: konkret. Sekundarstufe I: Aufgaben-beispiele, Unterrichtsanregungen, Fortbildungsideen (S. 178-193). Berlin: Cornelsen Scriptor.
Hosenfeld, I. & Groß Ophoff, J. (Hrsg.). (2007) Nutzung und Nutzen von Evaluationsstu-dien in Schule und Unterricht [Themenheft]. Empirische Pädagogik, 21 (4).
256
Huber, C., Späni, M., Schmellentin, C. & Criblez, L. (2006). Bildungsstandards in Deutschland, Österreich, England, Australien, Neuseeland und Südostasien: Litera-turbericht zu Entwicklung, Implementation und Gebrauch von Standards in nationalen Schulsystemen, Fachhochschule Nordwestschweiz Pädagogische Hochschule Aarau. Verfügbar unter: http://www.fhnw.ch/ph/ife/download/fberichte/literaturanalysefhnw.pdf [6.3.2010].
I
Imberti, M. (1969). L’acquisition des structures tonales chez l’enfant. Paris: Klincksieck.
Isaac, K., Eichler, W. & Hosenfeld, I. (2008). Ein Modell zur Vorhersage von Aufgaben-schwierigkeiten im Kompetenzbereich Sprache und Sprachgebrauch untersuchen. In B. Hofmann & R. Valtin (Hrsg.), Checkpoint Literacy. Tagungsband 2 zum 15. Euro-päischen Lesekongress 2007 Berlin (S. 12-27). Berlin: Dt. Ges. für Lesen und Schrei-ben.
J
Jones, R. L. (1976). The development of the child’s conception of meter in music. Jour-nal of Research in Music Education, 24 (3), 142-154.
Jordan, A.-K., Knigge, J. & Lehmann-Wermser, A. (2010). Projekt KoMus: Entwicklung von Kompetenzmodellen in einem ästhetischen Fach. In A. Gehrmann, U. Hericks & M. Lüders (Hrsg.), Bildungsstandards und Kompetenzmodelle – Eine Verbesserung der Qualität von Schule, Unterricht und Lehrerbildung (S. 209-222). Bad Heilbrunn: Klinkhardt.
Jordan, A.-K., Knigge, J., Lehmann-Wermser, A., Lehmann, A. C. & Niessen, A. (i. Vorb.). Entwicklung und Validierung eines Kompetenzmodells im Fach Musik – Wahrnehmen und Kontextualisieren von Musik.
Jude, N. & Wirth, J. (2007). Neue Chancen bei der technologiebasierten Erfassung von Kompetenzen. In J. Hartig & E. Klieme (Hrsg.), Möglichkeiten und Voraussetzungen technologiebasierter Kompetenzdiagnostik. Eine Expertise im Auftrag des Bundesmi-nisteriums für Bildung und Forschung (Bildungsforschung, S. 49–56). Berlin: BMBF.
K
Kaiser, H. J. (1995). Die Bedeutung von Musik und Musikalischer Bildung. Musikforum, 31 (83), 17-26.
Kaiser, H. J. (2001). Kompetent, aber wann?: Über die Bestimmung von "musikalischer Kompetenz" in Prozessen ihres Erwerbs. Musik & Bildung (3), 5-10.
Kaiser, H. J. & Nolte, E. (1989). Musikdidaktik: Sachverhalte - Argumente - Begründun-gen: Ein Lese- und Arbeitsbuch. Mainz: Schott.
Karno, M. & Kone�ni, V. (1992). The effect of structural interventions in the first move-ment of Mozart's symphony in g-Minor KV 550. Music Perception, 10 (1), 63-72.
Kelava, A. & Moosbrugger, H. (2007). Deskriptivstatistische Evaluation von Items (Ite-manalysen) und Testwertverteilung. In H. Moosbrugger & A. Kelava (Hrsg.), Testthe-orie und Fragebogenkonstruktion (S. 73-98). Heidelberg: Springer.
Klieme, E. (2004a). Begründung, Implementation und Wirkung von Bildungsstan-dards: Aktuelle Diskussionslinien und empirische Befunde. Zeitschrift für Pädagogik, 50 (5), 625-634.
Klieme, E. (2004b). Was sind Kompetenzen und wie lassen sie sich messen? Pädagogik, 56 (6), 10-13.
257
Klieme, E. (2007). Bildungsstandards, Leistungsmessung und Unterrichtsqualität. In P. Labudde (Hrsg.), Bildungsstandards am Gymnasium. Korsett oder Katalysator? (S. 75-84). Bern: h.e.p.
Klieme, E. (2009). Leitideen der Bildungsreform und der Bildungsforschung. Pädagogik (5), 44-47.
Klieme, E., Avenarius, H., Blum, W., Döbrich, P., Gruber, H., Prenzel, M. et al. (Hrsg.). (2003). Zur Entwicklung nationaler Bildungsstandards: Eine Expertise. Bildungsfor-schung: Bd. 1. Berlin: BMBF.
Klieme, E. & Hartig, J. (2007). Kompetenzkonzepte in den Sozialwissenschaften und im erziehungswissenschaftlichen Diskurs. In M. Prenzel, I. Gogolin & H.-H. Krüger (Hrsg.), Kompetenzdiagnostik. Zeitschrift für Erziehungswissenschaft. (Sonderheft 8), 11-29. Wiesbaden: Verlag für Sozialwissenschaften.
Klieme, E. & Leutner, D. (2006a). Kompetenzmodelle zur Erfassung individueller Lern-ergebnisse und zur Bilanzierung von Bildungsprozessen: Überarbeitete Fassung des Antrags an die DFG auf Einrichtung eines Schwerpunktprogramms. Verfügbar unter: http://www.kompetenzdiagnostik.de/images/Dokumente/antrag_spp_kompetenzdiagnostik_ueberarbeitet.pdf [14.2.2010].
Klieme, E. & Leutner, D. (2006b). Kompetenzmodelle zur Erfassung individueller Lern-ergebnisse und zur Bilanzierung von Bildungsprozessen. Zeitschrift für Pädagogik, 52, 876-903.
Klieme, E., Maag Merki, K. & Hartig, J. (2007). Kompetenzbegriff und Bedeutung von Kompetenzen im Bildungswesen. In J. Hartig & E. Klieme (Hrsg.), Möglichkeiten und Voraussetzungen technologiebasierter Kompetenzdiagnostik. Eine Expertise im Auf-trag des Bundesministeriums für Bildung und Forschung (Bildungsforschung, S. 5-15). Berlin: BMBF.
Knigge, J. (2008). Hinweise zur Erstellung von Testaufgaben für das KoMus-Projekt. Bremen: Universität Bremen (unveröffentlichtes Papier).
Knigge, J. & Jordan, A.-K. (i. Vorb.). Assessing competencies of 6th graders in Germany – a model based approach to item-development.
Knigge, J. & Lehmann-Wermser, A. (2008). Bildungsstandards für das Fach Musik - Ei-ne Zwischenbilanz. Zeitschrift für Kritische Musikpädagogik, Sonderedition: Bil-dungsstandards und Kompetenzmodelle für das Fach Musik?, 60-98. Verfügbar unter: http://www.zfkm.org/sonder08-knigge-lehmannwermser.pdf [4.1.2009].
Knigge, J. & Lehmann-Wermser, A. (2009). Kompetenzorientierung im Musikunterricht. Musik & Unterricht (94), 56-60. Verfügbar unter: http://www.musik.uni-bremen.de/fileadmin/mediapool/musik/dateien/Knigge_Lehmann-Wermser_2009.pdf [4.11.2009].
Knigge, J., Niessen, A. & Jordan, A.-K. (im Druck). Erfassung der Kompetenz „Musik wahrnehmen und kontextualisieren“ mit Hilfe von Testaufgaben – Aufgabenentwick-lung und -analyse im Projekt KoMus. In N. Knolle (Hrsg.), Evaluationsforschung in der Musikpädagogik (Musikpädagogische Forschung ). Essen: Die Blaue Eule.
Knoche, N. & Lind, D. (2004). Eine differenzielle Itemanalyse zu den Faktoren Bil-dungsgang und Geschlecht. In M. Neubrand (Hrsg.), Mathematische Kompetenzen von Schülerinnen und Schülern in Deutschland. Vertiefende Analysen im Rahmen von PI-SA 2000 (S. 73–86). Wiesbaden: VS Verlag.
Köhler, M. (2004). Standards - ganz konkret. Musik & Bildung (4), 57-58.
Köller, O. (2008). Bildungsstandards – Verfahren und Kriterien bei der Entwicklung von Messinstrumenten. Zeitschrift für Pädagogik, 54 (2), 163-173.
258
Köller, O., Böhme, K., Winkelmann, H., Bremerich-Vos, A., Granzer, D., Vock, M. et al. (2005). Hinweise zur Erstellung von Testaufgaben für das Projekt "Evaluation der Standards Deutsch in der Grundschule" ESDeG (Primarbereich, Jahrgang 4). Berlin: IQB (unveröffentlichtes Papier).
Körber, A. (2007). Grundbegriffe und Konzepte: Bildungsstandards, Kompetenzen und Kompetenzmodelle. In A. Körber, W. Schreiber & A. Schöner (Hrsg.), Kompetenzen historischen Denkens. Ein Strukturmodell als Beitrag zur Kompetenzorientierung in der Geschichtsdidaktik (Kompetenzen, S. 54-86). Neuried: ars una.
Köster, J. (2005). Wodurch wird ein Text schwierig? Ein Test für die Fachkonferenz. Deutschunterricht (5), 34-39.
Kormann, A. (2005). Musiktests. In R. Oerter & T. H. Stoffer (Hrsg.), Spezielle Musik-psychologie (Enzyklopädie der Psychologie, S. 369-407). Göttingen: Hogrefe.
Krämer, O. (2005). Gemeinsame Lernvereinbarungen über Standards hinaus: Mit Schüle-rinnen und Schülern festlegen, was sie lernen wollen. Diskussion Musikpädagogik (27), 23-27.
Kreutz, G. (1995). Aspekte musikalischer Formwahrnehmung. In H. de La Motte-Haber & R. Kopiez (Hrsg.), Der Hörer als Interpret (Schriften zur Musikpsychologie und Musikästhetik, S. 125-147). Frankfurt am Main: Lang.
Kreutz, G. (2005). Melodiewahrnehmung: Funktionen von Arbeitsgedächtnis und Auf-merksamkeit. In H. de La Motte-Haber & G. Rötter (Hrsg.), Musikpsychologie (Hand-buch der Systematischen Musikwissenschaft, S. 185-207). Laaber: Laaber.
Kreutz, G., Ott, U. & Vaitl, D. (2006). Spezifität des emotionalen Ausdrucks klassischer Musikstücke: Ergebnisse einer Befragung von Musikstudenten. In K.-E. Behne, G. Kleinen & H. de La Motte-Haber (Hrsg.), Inter- und multimodale Wahrnehmung (Mu-sikpsychologie. Jahrbuch der DGM, S. 104-124). Göttingen: Hogrefe.
Kuper, H. & Schneewind, J. (Hrsg.). (2006). Rückmeldung und Rezeption von For-schungsergebnissen. Zur Verwendung wissenschaftlichen Wissens im Bildungssystem. Münster: Waxmann.
L
La Motte-Haber, H. de (2004). Kognitive Informationsverarbeitung und Musikverstehen. In C. von Blumröder & W. Steinbeck (Hrsg.), Musik und Verstehen (Spektrum der Musik, S. 254-261). Laaber: Laaber.
La Motte-Haber, H. de (2005a). Formwahrnehmung. In H. de La Motte-Haber & G. Röt-ter (Hrsg.), Musikpsychologie (Handbuch der Systematischen Musikwissenschaft, S. 263-267). Laaber: Laaber.
La Motte-Haber, H. de (2005b). Modelle der musikalischen Wahrnehmung: Psychophy-sik - Gestalt - Invarianten - Mustererkennen - Neuronale Netze - Sprachmetapher. In H. de La Motte-Haber & G. Rötter (Hrsg.), Musikpsychologie (Handbuch der Syste-matischen Musikwissenschaft, S. 55-73). Laaber: Laaber.
Labudde, P. (Hrsg.). (2007). Bildungsstandards am Gymnasium: Korsett oder Katalysa-tor? Bern: h.e.p.
Lange, E. B. (2005). Musikpsychologische Forschung im Kontext allgemeinpsychologi-scher Gedächtnismodelle. In H. de La Motte-Haber & G. Rötter (Hrsg.), Musikpsycho-logie (Handbuch der Systematischen Musikwissenschaft, S. 74-100). Laaber: Laaber.
Lehmann, A. C. (2005). Vomblattspiel und Notenlesen. In R. Oerter & T. H. Stoffer (Hrsg.), Allgemeine Musikpsychologie (Enzyklopädie der Psychologie, S. 877-911). Göttingen: Hogrefe.
259
Lienert, G. A. & Raatz, U. (1994). Testaufbau und Testanalyse (5., völlig neubearb. und erw. Aufl.). Weinheim: Beltz.
Lind, D. & Knoche, N. (2004). Testtheoretische Modelle und Verfahren bei PISA-2000-Mathematik. In M. Neubrand (Hrsg.), Mathematische Kompetenzen von Schülerinnen und Schülern in Deutschland. Vertiefende Analysen im Rahmen von PISA 2000 (S. 51-69). Wiesbaden: VS Verlag.
Lohmann, W. (1997). Leistungserfassung – Leistungsbeurteilung / Leistungsbewertung. In S. Helms, R. Schneider & R. Weber (Hrsg.), Handbuch des Musikunterrichts. Se-kundarstufe I (S. 49-55). Kassel: Bosse.
Lütgert, W. (2001). Leistungsdiagnose und Leistungsbeurteilung im Fach Musik. In W. Lütgert, K.-J. Tillmann & J. Kassing-Koch (Hrsg.), Leistungsbewertung in den Fä-chern Bildende Kunst, Sport, Musik und Darstellendes Spiel. Eine Expertise zum schulpädagogischen und fachdidaktischen Diskussionsstand. Hamburg: Freie und Hansestadt Hamburg, Behörde für Schule, Jugend und Berufsbildung, Amt für Schule. [18-28].
M
Manturzewska, M. & Kaminska, B. (1993). Human musical development. In A. Langen & W. Piel (Hrsg.), Musik und Heilpädagogik. Frankfurt: Lang.
Meißner, R. (1999). Leistungsbewertung im Musikunterricht: Positionen, Aufgaben und Tests für die Klassen 5 bis 12. Musik in der Schule (2), 66-74.
Meißner, R. (1987). Informelle Tests: Die Bewertung der Schülerleistung. In H. de La Motte-Haber (Hrsg.), Psychologische Grundlagen des Musiklernens (Handbuch der Musikpädagogik, S. 431-469). Kassel: Bärenreiter.
Mislevy, R. J., Steinberg, L. S. & Almond, R. G. (2002). On the Roles of Task Model Variables in Assessment Design. In S. H. Irvine (Hrsg.), Item generation for test de-velopment (S. 97-128). Mahwah: Lawrence Erlbaum.
Moosbrugger, H. (2007). Item-Response-Theorie (IRT). In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S. 215-259). Heidelberg: Springer.
Moosbrugger, H. & Kelava, A. (2007). Qualitätsanforderungen an einen psychologischen Test (Testgütekriterien). In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S. 7-26). Heidelberg: Springer.
Murphy, R. (2007). Harmonizing Assessment and Music in the Classroom. In L. Bresler (Hrsg.), International handbook of research in arts education (Springer international handbook of research in arts education, Bd. 1, S. 361-380). Dordrecht: Springer.
Music Educators National Conference (Hrsg.). (1994). The School Music Program: A New Vision. The K-12 National Standards, Pre-K standards, and what they mean to music educators. Reston VA: Music Educators National Conference. [30.1.2007].
N
National Assessment Governing Board. (1994). Arts Education Assessment Framework, 1997: NAEP Arts Education Consensus Project. Washington. Verfügbar unter: http://www.nagb.org/pubs/artsed.pdf [17.10.2007].
Nauck-Börner, C. (1987). Wahrnehmung und Gedächtnis. In H. de La Motte-Haber (Hrsg.), Psychologische Grundlagen des Musiklernens (Handbuch der Musikpädago-gik, S. 13-115). Kassel: Bärenreiter.
Neubrand, M. (Hrsg.). (2004). Mathematische Kompetenzen von Schülerinnen und Schü-lern in Deutschland: Vertiefende Analysen im Rahmen von PISA 2000. Wiesbaden: VS Verlag.
260
Neubrand, M., Klieme, E., Lüdtke, O. & Neubrand, J. (2002). Kompetenzstufen und Schwierigkeitsmodelle für den PISA-Test zur mathematischen Grundbildung. Unter-richtswissenschaft, 30 (2), 100-119.
Niessen, A. (2008). Leistungsmessung oder individuelle Förderung? Zur Funktion und Gestaltung von Aufgaben im Unterricht. In H.-U. Schäfer-Lembeck (Hrsg.), Leistung im Musikunterricht. Beiträge der Münchner Tagung 2008 (Musikpädagogische Schrif-ten der Hochschule für Musik und Theater München, S. 134-152). München: Allitera.
Niessen, A. & Lehmann-Wermser, A. (2005). Bildungsstandards in Musik. Diskussion Musikpädagogik (27), 8-13.
Niessen, A., Lehmann-Wermser, A., Knigge, J. & Lehmann, A. C. (2008). Entwurf eines Kompetenzmodells 'Musik wahrnehmen und kontextualisieren'. Zeitschrift für Kriti-sche Musikpädagogik, Sonderedition: Bildungsstandards und Kompetenzmodelle für das Fach Musik?, 3-33. Verfügbar unter: http://www.zfkm.org/sonder08-niessenetal.pdf [27.4.2009].
Nold, G. & Rossa, H. (2007). Hörverstehen. In B. Beck & E. Klieme (Hrsg.), Sprachliche Kompetenzen - Konzepte und Messung. DESI-Studie (Deutsch Englisch Schülerleis-tungen International) (DESI Ergebnisse, S. 178-196). Weinheim: Beltz.
Nold, G. & Willenberg, H. (2007). Lesefähigkeit. In B. Beck & E. Klieme (Hrsg.), Sprachliche Kompetenzen - Konzepte und Messung. DESI-Studie (Deutsch Englisch Schülerleistungen International) (DESI Ergebnisse, S. 23-41). Weinheim: Beltz.
O
OECD. (2005). PISA 2003: Technical Report. Verfügbar unter: http://www.oecd.org/dataoecd/49/60/35188570.pdf [7.1.2010].
Oelkers, J. & Reusser, K. (2008). Qualität entwickeln – Standards sichern – mit Differenz umgehen. Bildungsforschung: Bd. 27. Berlin: BMBF.
Oerter, R. & Bruhn, H. (1997). Künstlerische Fächer: Das Beispiel Musik. In F. E. Wei-nert (Hrsg.), Enzyklopädie der Psychologie. Themenbereich D: Praxisgebiete, Ser. 1: Pädagogische Psychologie, Bd. 3 (S. 535-570). Göttingen: Hogrefe.
Oster, M. (2000). Arrangieren - Inszenieren - Interpretieren: Ein Forschungsprojekt zur geschlechts(un)typischen musikalischen Sozialisation. In F. Hoffmann, J. Bowers & R. Heckmann (Hrsg.), Frauen- und Männerbilder in der Musik. Festschrift für Eva Rieger zum 60. Geburtstag (S. 217-230). Oldenburg: bis.
P
Persky, H. R., Sandene, B. A. & Askew, J. M. (1998). The NAEP 1997 Arts Report Card: Eighth Grade Findings From the National Assessment of Educational Progress. Washington: National Center for Education Statistics. Verfügbar unter: http://nces.ed.gov/pubsearch/pubsinfo.asp?pubid=1999486 [2.7.2007].
Pflederer, M. & Sechrest, L. (1968). Conservation-type responses of children to musical stimuli. Council for Research in Music Education (13), 19-36.
Picht, G. (1964). Die deutsche Bildungskatastrophe: Analyse und Dokumentation. Olten: Walter.
Pick, A. D. & Palmer, C. F. (1993). Development of the perception od musical events. In T. J. Tighe & W. J. Dowling (Hrsg.), Psychology and music. The understanding of melody and rhythm . Hillsdale: LEA.
PISA-Konsortium Deutschland (Hrsg.). (2007). PISA 2006: Die Ergebnisse der dritten internationalen Vergleichsstudie. Münster: Waxmann.
261
Pistone, N. R. (2002). Envisioning arts assessment: A process guide for assessing arts education in school districts and states Washington. Washington, DC: Arts Education Partnership and Council of Chief State School Officers.
Pongratz, L. A., Reichenbach, R. Wimmer, M. (Hrsg.). (2007). Bildung – Wissen – Kom-petenz. Bielefeld: Janus Presse.
Poppensieker, K. (1986). Die Entwicklung musikalischer Wahrnehmungsfähigkeit. In S. Abel-Struth (Hrsg.), Musikpädagogik. Forschung und Lehre. Mainz: Schott.
Prenzel, M., Häußler, P., Rost, J. & Senkbeil, M. (2002). Der PISA-Naturwissenschaftstest: Lassen sich die Aufgabenschwierigkeiten vorhersagen? Un-terrichtswissenschaft, 30 (2), 120-135.
R
Rammsayer, T. (2000). Zeitwahrnehmung und Rhythmuswahrnehmung. In K. Müller & G. Aschersleben (Hrsg.), Rhythmus. Ein interdisziplinäres Handbuch (S. 83-106). Bern: Huber.
Rauch, D. & Hartig, J. (2007). Interpretation von Testwerten in der IRT. In H. Moos-brugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (S. 240-250). Heidelberg: Springer.
Richter, C. (2005). Auf der Suche nach Bildungsstandards und Kompetenzformulierun-gen im Fach Musik. Diskussion Musikpädagogik (27), 14-23.
Richter, T. & Christmann, U. (2002). Lesekompetenz: Prozessebenen und interindividuel-le Unterschiede. In N. Groeben & B. Hurrelmann (Hrsg.), Lesekompetenz. Bedingun-gen, Dimensionen, Funktionen (S. 25-58). Weinheim: Juventa.
Robitzsch, A. (2009). Methodische Herausforderungen bei der Kalibrierung von Leis-tungstests. In D. Granzer, O. Köller & A. Bremerich-Vos (Hrsg.), Bildungsstandards Deutsch und Mathematik. Leistungsmessung in der Grundschule (S. 42-107). Wein-heim: Beltz.
Rolle, C. (2006). Verordnete Freiheit oder beliebige Verbindlichkeit: Oder: Wie soll über die Inhalte des Musikunterrichts entschieden werden? In H. J. Kaiser, D. Barth, F. Hess, H. Jünger, C. Rolle, J. Vogt et al. (Hrsg.), Bildungsoffensive Musikunterricht? Das Grundsatzpapier der Konrad-Adenauer-Stiftung in der Diskussion (S. 96-124). Regensburg: ConBrio.
Rolle, C. (2008a). Argumentationsfähigkeit: eine zentrale Dimension musikalischer Kompetenz? In H.-U. Schäfer-Lembeck (Hrsg.), Leistung im Musikunterricht. Beiträ-ge der Münchner Tagung 2008 (Musikpädagogische Schriften der Hochschule für Musik und Theater München, S. 70-100). München: Allitera.
Rolle, C. (2008b). Musikalische Bildung durch Kompetenzerwerb? Überlegungen im An-schluss an den Entwurf eines Kompetenzmodells „Musik wahrnehmen und kontextua-lisieren“. Zeitschrift für Kritische Musikpädagogik, Sonderedition: Bildungsstandards und Kompetenzmodelle für das Fach Musik?, 42-59. Verfügbar unter: http://www.zfkm.org/sonder08-rolle.pdf.
Rost, J. (1999). Was ist aus dem Rasch-Modell geworden? Psychologische Rundschau, 50 (3), 140-156.
Rost, J. (2004). Lehrbuch Testtheorie - Testkonstruktion (2., vollst. überarb. und erw. Aufl.). Bern: Huber.
Roth, H. (1971). Pädagogische Anthropologie: Band 2. Hannover: Schroedel.
Rumpf, H. (2005). Bildungsstandards?: Einwände gegen die absehbare Verödung des Le-bens. Diskussion Musikpädagogik (27), 4-8.
262
Runfola, M. & Swanwick, K. (2002). Developmental characteristics of music learners. In R. Colwell & C. P. Richardson (Hrsg.), The new handbook of research on music teaching and learning. A project of the Music Educators National Conference (S. 373-397). New York: Oxford Univ. Press.
Rupp, A. A., Leucht, M. & Hartung, M. (2006). 'Die Kompetenzbrille aufsetzen': Verfah-ren zur multiplen Klassifikation von Lernenden für Kompetenzdiagnostik in Unter-richt und Testung. Unterrichtswissenschaft, 34 (3), 195-219.
Rychen, D. S. & Salganik, L. H. (Hrsg.). (2001). Defining and selecting key competen-cies. Seattle: Hogrefe & Huber.
S
Schäfer-Lembeck, H.-U. (Hrsg.). (2008). Leistung im Musikunterricht: Beiträge der Münchner Tagung 2008. Musikpädagogische Schriften der Hochschule für Musik und Theater München: Bd. 2. München: Allitera.
Schecker, H. & Parchmann, I. (2007). Standards and Competence Models: The German Situation. In D. Waddington, P. Nentwig & S. Schanze (Hrsg.), Making it comparable. Standards in science education (S. 147-164). Münster: Waxmann.
Schellberg, G. (1998). Zur Entwicklung der Klangfarbenwahrnehmung von Vorschulkin-dern. Dissertation, Universität Münster.
Scheuer, W. (2003). Zur Einführung von Bildungsstandards für den Musikunterricht, Musikhochschule Trossingen. Verfügbar unter: http://www.musiceducation.de/html/bem.html [1.11.2007].
Schlegel, C. M. (2001). Europäische Musiklehrpläne im Primarbereich: Eine verglei-chende Inhaltsanalyse. Forum Musikpädagogik: Bd. 50. Augsburg: Wißner.
Schlömerkemper, J. (Hrsg.). (2004) Bildung und Standards [Themenheft]. Die Deutsche Schule, 96 (8. Beiheft). Weinheim: Juventa.
Schoenebeck, M. von (2004). Grundkompetenzen und kein Ende? Grundschule, 36 (9), 8.
Senatorin für Bildung und Wissenschaft Bremen (Hrsg.). (2009). Übergang von der Grundschule in die 5. Jahrgangsstufe Grundschule: Schuljahr 2010/2011. Verfügbar unter: http://www.bildung.bremen.de/fastmedia/13/Broschuere4nach5Internet%20.pdf [6.3.2010].
Serafine, M. L. (1975). A measure of meter conservation in music based on Piaget’s the-ory. Dissertation, University of Florida.
Serafine, M. L. (1988). Music as cognition. The development of thought in sound. New York: Columbia University Press.
Sjuts, J. (2006). Unterrichtliche Gestaltung und Nutzung kompetenzorientierter Aufgaben in diagnostischer Sicht. In W. Blum, C. Drüke-Noe, R. Hartung & O. Köller (Hrsg.), Bildungsstandards Mathematik: konkret. Sekundarstufe I: Aufgabenbeispiele, Unter-richtsanregungen, Fortbildungsideen (S. 96-112). Berlin: Cornelsen Scriptor.
Sloboda, J. & Juslin, P. N. (2005). Affektive Prozesse: Emotionale und ästhetische As-pekte musikalischen Verhaltens. In R. Oerter & T. H. Stoffer (Hrsg.), Allgemeine Mu-sikpsychologie (Enzyklopädie der Psychologie, S. 767-841). Göttingen: Hogrefe.
Sloboda, J. A. (2005). Exploring the musical mind: Cognition, emotion, ability, function. Oxford: Oxford Univ. Press.
Stoffer, T. H. (2005). Aufmerksamkeitsprozesse beim Musikhören: Wissensunabhängige und wissensabhängige Selektionsprozesse. In R. Oerter & T. H. Stoffer (Hrsg.), All-gemeine Musikpsychologie (Enzyklopädie der Psychologie, S. 591-656). Göttingen: Hogrefe.
263
Stöger, C. (2006). Leistungsbeurteilung im Musikunterricht. AfS-Magazin (22), 4-9.
Stolla, J. & Gaul, M. (2008). Von der Blockflöte zur E-Gitarre: Eine empirische Studie zu Instrumentenvorlieben bei Kindern und Jugendlichen. In A. C. Lehmann & M. Weber (Hrsg.), Musizieren innerhalb und außerhalb der Schule (Musikpädagogische For-schung, S. 163-178). Essen: Die Blaue Eule.
T
Thompson, W. F. & Schellenberg, E. G. (2006). Listening to Music. In R. Colwell (Hrsg.), MENC handbook of musical cognition and development (S. 72-123). New York: Oxford Univ. Press.
Thonhauser, J. (Hrsg.). (2008a). Aufgaben als Katalysatoren von Lernprozessen: Eine zentrale Komponente organisierten Lehrens und Lernens aus der Sicht von Lernfor-schung, Allgemeiner Didaktik und Fachdidaktik. Münster: Waxmann.
Thonhauser, J. (2008b). Warum (neues) Interesse am Thema 'Aufgaben'. In J. Thonhauser (Hrsg.), Aufgaben als Katalysatoren von Lernprozessen. Eine zentrale Komponente organisierten Lehrens und Lernens aus der Sicht von Lernforschung, Allgemeiner Di-daktik und Fachdidaktik (S. 13-27). Münster: Waxmann.
U
Uhl, S. (2006). Die Bildungsstandards, die Outputsteuerung und ihre Kritiker. IQ Kom-pakt: Bd. 2. Wiesbaden: Hessisches Kultusministerium, Insitut für Qualitätsentwick-lung. Verfügbar unter: http://www.rhs-giessen.de/data/intern/bildungsstandards_und_kritiker.pdf [14.2.2010].
Upitis, R. (1987). Children’s understanding of rhythm: The relationship between devel-opment and music training. Psychomusicology, 7 (1), 41-60.
Urban, U. (2004). Standards - vom Input zum Output. Musik & Bildung (4), 60-62.
V
Vogt, J. (2004). Standards für den Musikunterricht in der Grundschule? Grundschule, 36 (9), 9-12.
Vogt, J. (2008). Musikbezogene Bildungskompetenz – ein hölzernes Eisen? Anmerkun-gen zu den 'Theoretischen Überlegungen zu einem Kompetenzmodell für das Fach Musik'. Zeitschrift für Kritische Musikpädagogik, Sonderedition: Bildungsstandards und Kompetenzmodelle für das Fach Musik?, 34-41. Verfügbar unter: http://www.zfkm.org/sonder08-vogt.pdf [5.1.2009].
Voss, A., Carstensen, C. H. & Bos, W. (2005). Textgattungen und Verstehensaspekte: Analyse von Leseverständnis aus den Daten der IGLU-Studie. In W. Bos, E.-M. Lan-kes, M. Prenzel, K. Schwippert, R. Valtin & G. Walther (Hrsg.), IGLU. Vertiefende Analysen zu Leseverständnis, Rahmenbedingungen und Zusatzstudien (S. 1-36). Mün-ster: Waxmann.
W
Wang, W.-C. (2000). The simultaneous factorial analysis of differential item functioning. Methods of Psychological Research Online, 5 (1), 57-75.
Weber, K. (2004). Sind Standards von musikalischer Bildung möglich? Musik & Bildung (4), 58-60.
Weinert, F. E. (1999). Concepts of competence: DeSeCo Expert Report. Neuchatel: DeSeCo.
264
Weinert, F. E. (2001a). Concept of Competence: A Conceptual Clarification. In D. Si-mone Rychen & L. Hersh Salganik (Hrsg.), Defining and selecting key competencies (S. 45-65). Seattle: Hogrefe & Huber.
Weinert, F. E. (Hrsg.). (2001b). Leistungsmessungen in Schulen. Weinheim: Beltz.
Weinert, F. E. (2001c). Vergleichende Leistungsmessung in der Schule - eine umstrittene Selbstverständlichkeit. In F. E. Weinert (Hrsg.), Leistungsmessungen in Schulen (S. 17-31). Weinheim: Beltz.
Wilson, M. (2005). Constructing measures: An item response modeling approach. Mah-wah, N.J: Lawrence Erlbaum Associates.
Wirtz, M. & Caspar, F. (2002). Beurteilerübereinstimmung und Beurteilerreliabilität: Methoden zur Bestimmung und Verbesserung der Zuverlässigkeit von Einschätzungen mittels Kategoriensystemen und Ratingskalen. Göttingen: Hogrefe.
Wolf, D. & Pistone, N. R. (1991). Taking full measure: Rethinking assessment through the arts. New York: College Entrance Examination Board.
Wu, M. & Adams, R. (2007). Applying the rasch model to psycho-social measurement: A practical approach, Educational Measurement Solutions, Melbourne. Verfügbar unter: http://edmeasurement.com.au/_docs/RaschMeasurement_Complete.pdf [6.3.2010].
Wu, M., Adams, R. & Wilson, M. (1998). ConQuest: Generalised item response model-ling software. Melbourne: Australian Council for Educational Research.
Wu, M., Adams, R., Wilson, M. & Haldane, S. (2007). ACER ConQuest: Version 2.0. Generalised Item Response Modelling Software. Camberwell, Victoria: Acer.
Y
Young, L. P. (1982). An investigation of young children’s music concept development us-ing nonverbal and manipulative techniques. Dissertation, Ohio State University.
Z
Zenatti, A. (1993). Children’s musical cognition and taste. In T. J. Tighe & W. J. Dowl-ing (Hrsg.), Psychology and music. The understanding of melody and rhythm (S. 177-196). Hillsdale: LEA.
Zimmermann, M. P. & Sechrest, L. (1968). How children conceptually organize musical sounds. Coop. Research Project No. 5-0256, Northwestern University.
Zucker, S., Sassmann C. & Case B. J. (2004). Cognitive Labs. Technical Report. Verfüg-bar unter: http://pearsonassess.com/NR/rdonlyres/E5CD33E6-D234-46F3-885A-9358575372FB/0/CognitiveLabs_Final.pdf [9.3.2010].
265
Verzeichnis der verwendeten Curricula
Baden-Württemberg
Ministerium für Kultus, Jugend und Sport des Landes Baden-Württemberg (2004). Bil-dungsplan 2004. Allgemeinbildendes Gymnasium. Bildungsstandards Musik. Verfüg-bar unter: http://www.bildung-staerkt-menschen.de/service/downloads/Bildungsstandards/Gym/ Gym_Mu_bs.pdf [6.1.2008].
Ministerium für Kultus, Jugend und Sport des Landes Baden-Württemberg (2004). Bil-dungsplan 2004. Realschule. Bildungsstandards Musik. Verfügbar unter: http://www.bildung-staerkt-menschen.de/service/downloads/Bildungsstandards/Rs/ Rs_Mu_bs.pdf [6.1.2008].
Berlin
Ministerium für Bildung, Jugend und Sport des Landes Brandenburg; Senatsverwaltung für Bildung, Jugend und Sport Berlin; Ministerium für Bildung, Wissenschaft und Kultur Mecklenburg-Vorpommern (2004). Rahmenlehrplan Grundschule. Musik. Ver-fügbar unter: http://www.berlin.de/imperia/md/content/sen-bildung/schulorganisation/lehrplaene/ gr_mu_1_6.pdf [6.1.2008].
Senatsverwaltung für Bildung, Jugend und Sport Berlin (2006). Rahmenlehrplan für die Sekundarstufe I. Musik. Verfügbar unter: http://www.berlin.de/imperia/md/content/sen-bildung/ schulorganisati-on/lehrplaene/sek1_musik.pdf [6.1.2008].
Senatsverwaltung für Bildung, Jugend und Sport Berlin; Ministerium für Bildung, Jugend und Sport des Landes Brandenburg; Ministerium für Bildung, Wissenschaft und Kul-tur Mecklenburg-Vorpommern (2006). Rahmenlehrplan für die gymnasiale Oberstufe. Musik. Verfügbar unter: http://www.berlin.de/imperia/md/content/sen-bildung/schulorganisation/lehrplaene/ sek2_musik.pdf [6.1.2008].
Brandenburg
Ministerium für Bildung, Jugend und Sport des Landes Brandenburg (2002). Rahmen-lehrplan Musik. Sekundarstufe I. Verfügbar unter: http://www.bildung-brandenburg.de/fileadmin/bbs/ unter-richt_und_pruefungen/rahmenlehrplaene/sekundarstufe_I/rahmenlehrplaene/S1-Musik.pdf [6.1.2008].
Bremen
Freie Hansestadt Bremen (2001). Ästhetik. Rahmenplan für die Primarstufe. Verfügbar unter: http://lehrplan.bremen.de/primarstufe/aesthetik/rahmenplan/download [6.1.2008].
Freie Hansestadt Bremen (2007). Musik – Bildungsplan für das Gymnasium. Jahrgangs-stufe 5-10. Bremen: Senatorin für Bildung und Wissenschaft.
266
Hamburg
Freie und Hansestadt Hamburg Behörde für Bildung und Sport (2003/2004). Bildungs-pläne für Hamburger Schulen. Verfügbar unter: http://lbs.hh.schule.de/bildungsplaene/ [6.1.2008].
Hessen
Hessisches Kultusministerium (o. J.). Lehrplan Musik. Gymnasialer Bildungsgang. Ver-fügbar unter: http://www.hessisches-kultusministerium.de/irj/HKM_Internet?uid=1720e9fb-a45b-901b-e592-697ccf4e69f2 [6.1.2008].
Mecklenburg Vorpommern
Ministerium für Bildung, Wissenschaft und Kultur Mecklenburg-Vorpommern (2001). Rahmenplan Orientierungsstufe. Musik. Verfügbar unter: http://www.bildung-mv.de/archiv/ rahmenplaene/rahmenplaene-musik.htm [6.1.2008].
Ministerium für Bildung, Wissenschaft und Kultur Mecklenburg-Vorpommern (2002). Rahmenplan Jahrgangsstufen 7-10. Musik. Verfügbar unter: http://www.bildung-mv.de/archiv/ rahmenplaene/rahmenplaene-musik.htm [6.1.2008].
Ministerium für Bildung, Wissenschaft und Kultur Mecklenburg-Vorpommern (1999). Rahmenplan gymnasiale Oberstufe. Musik. Verfügbar unter: http://www.bildung-mv.de/archiv/rahmenplaene/rahmenplaene-musik.htm [6.1.2008].
Niedersachsen
Niedersächsisches Kultusministerium (2006). Kerncurriculum für die Grundschule. Mu-sik. Verfügbar unter: http://db2.nibis.de/1db/cuvo/datei/kc_gs_musik_nib.pdf [6.1.2008].
Niedersächsisches Kultusministerium (2004). Curriculare Vorgaben für die Hauptschule – Schuljahrgänge 5/6. Musik. Verfügbar unter: http://www.nibis.de/nli1/gohrgs/rrl/ hs5_6/cvhsmusik.pdf [6.1.2008].
Niedersächsisches Kultusministerium (2004). Curriculare Vorgaben für das Gymnasium – Schuljahrgänge 5/6. Musik. Verfügbar unter: http://db2.nibis.de/1db/cuvo/datei/ 3_musik_gym_5.pdf [6.1.2008].
Nordrhein-Westfalen
Ministerium für Schule, Jugend und Kinder des Landes Nordrhein-Westfalen (2003). Richtlinien und Lehrpläne zur Erprobung für die Grundschule in Nordrhein-Westfalen. Verfügbar unter: http://www.schul-welt.de/lp_online_rubrik.asp?sessionid=31210-2102357-315738&rubrik=4 [6.1.2008].
Saarland
Ministerium für Bildung, Kultur und Wissenschaft des Saarlandes (2006). Lehrplan Mu-sik – Achtjähriges Gymnasium. Verfügbar unter: http://www.saarland.de/7041.htm [6.1.2008].
267
Sachsen
Sächsisches Staatsinstitut für Bildung und Forschung (2004). Lehrpläne für die Grund-schule. Musik. Verfügbar unter: http://www.sn.schule.de/~ci/download/lp_gs_musik.pdf [6.1.2008].
Sachsen-Anhalt
Kultusministerium Sachsen-Anhalt (2005). Fachlehrplan Grundschule. Musik. Verfügbar unter: http://www.rahmenrichtlinien.bildung-lsa.de/pdf/entwurf/lpgsmusik.pdf [6.1.2008].
Schleswig-Holstein
Ministerium für Bildung, Wissenschaft, Forschung und Kultur des Landes Schleswig-Holstein (1997). Lehrplan für die Sekundarstufe I der weiterführenden allgemeinbil-denden Schulen. Musik. Verfügbar unter: http://lehrplan.lernnetz.de/intranet1/ links/materials/1107161453.pdf [6.1.2008].
268
Anhang A: Itemkennwerte
In den nachfolgenden Tabellen (Tab. 56-Tab. 64) sind die statistischen Kennwerte
der selektierten Items der neun Testhefte aufgeführt.
269
Tab.
56:
Sel
ektie
rte It
ems T
esth
eft 1
Item
-ID
K
urzb
esch
reib
ung
P i /P
IK
P ZK
Item
schw
ieri
g-ke
it (R
asch
) M
NSQ
r it
SK
D3-
1b
Gra
fisch
e N
otat
ion:
Ton
höhe
nver
lauf
76
.27
68.3
6 -1
.48
1.07
0.
34
D1-
1b
Ban
dbes
etzu
ng: Q
ueen
(2. S
ongt
eil)
48.3
1 37
.97
-0.0
7 1.
03
0.40
D1-
1c
Ban
dbes
etzu
ng: Q
ueen
(3. S
ongt
eil)
47.4
6 36
.95
-0.0
3 0.
91
0.51
D1-
1d
Ban
dbes
etzu
ng: Q
ueen
(4. S
ongt
eil)
61.0
2 53
.22
-0.6
6 1.
04
0.40
D1-
11b
Kla
vier
stüc
ke (B
eeth
oven
, Son
ate
f-m
oll)
53.3
9 -
-0.3
0 0.
88
0.57
D1-
11c
Kla
vier
stüc
ke (C
age,
pre
pare
d pi
ano)
12
.71
- 2.
03
1.04
0.
32
D3-
2 H
aydn
Par
titur
lese
n 36
.44
- 0.
50
1.13
0.
36
D1-
2a-1
H
aydn
Dyn
amik
: p
45.7
6 27
.68
0.05
1.
06
0.42
D1-
2a-2
H
aydn
Dyn
amik
: pp
52.5
4 36
.72
-0.2
6 1.
03
0.40
D1-
2a-3
H
aydn
Dyn
amik
: ff
74.5
8 66
.10
-1.3
8 0.
98
0.40
D1-
2a
Hay
dn D
ynam
ik
34.7
5 -
0.58
0.
98
0.47
D1-
12ab
c A
-A-B
-A-F
orm
: Im
Mär
zen
der B
auer
34
.75
- 0.
58
1.04
0.
32
D2-
5a-
Inst
rum
ent e
rken
nen:
Kla
rinet
te
43.2
2 24
.29
0.17
1.
07
0.38
D2-
5b
Inst
rum
ente
ngru
ppe
erke
nnen
: Stre
ichi
nstru
men
t 46
.61
28.8
1 0.
01
0.93
0.
54
D2-
5c
Inst
rum
ent b
enen
nen:
Gei
ge/B
rats
che
41.5
3 -
0.25
0.
93
0.51
Glo
bale
r Mod
ellte
st: C
ress
ie-R
ead:
p =
0.2
7, �
2 : p =
0.5
5; T
estr
elia
bilit
ät: E
AP/P
V =
0.6
9, C
ronb
achs
Alp
ha =
0.6
8
P i ,
P IK
, PZK
= k
lass
isch
e Sc
hwie
rigke
itsin
dize
s; It
emsc
hwie
rigke
it (R
asch
) = It
empa
ram
eter
� (d
icho
tom
e Ite
ms)
, Thu
rsto
nian
thre
shol
ds (m
ehrk
ateg
orie
lle
Item
s); M
NSQ
= w
eigh
ted
mea
n sq
uare
(Ite
mfit
Con
Que
st); r
it = T
renn
schä
rfe;
SK
= S
elek
tions
kenn
wer
t (Tr
enns
chär
fe)
270
Tab.
57:
Sel
ektie
rte It
ems T
esth
eft 2
Item
-ID
K
urzb
esch
reib
ung
P i /P
IK
P ZK
Item
schw
ieri
g-ke
it (R
asch
) M
NSQ
r it
SK
D3-
1a
Gra
fisch
e N
otat
ion:
Ton
läng
e 86
.21
81.6
1 -1
,48
1.03
0.
30
D3-
1e
Gra
fik z
uord
nen
(Bac
h-Fu
ge)
72.4
1 63
.22
-0.4
6 1.
14
0.38
D3-
1f
Zuor
dnun
g er
klär
en
24.1
4 -
2,10
1.
09
0.43
D3-
2 H
aydn
Par
titur
lese
n 24
.14
- 2,
10
1.14
0.
32
D1-
11d
Bes
chre
ibun
g ei
nem
Kla
vier
stüc
k zu
ordn
en (J
azz)
65
.52
- -0
.07
1.08
0.
40
D1-
13a
Dur
/Mol
l (Ei
genp
rodu
ktio
n)
56.9
0 -
0.37
1.
15
0.33
D1-
13b
Dur
/Mol
l (V
ival
di)
55.1
3 -
0.47
0.
99
0.50
D3-
7a
Rhy
thm
us +
Not
en (8
8488
4)
79.4
9 72
.65
-0.9
3 0.
81
0.61
D3-
7b
Rhy
thm
us +
Not
en (8
8884
4)
76.9
2 69
.23
-0.7
5 0.
92
0.48
D3-
7c
Rhy
thm
us +
Not
en (4
8844
) 77
.56
70.0
9 -0
.79
0.92
0.
56
D3-
7e
Rhy
thm
us +
Not
ensc
hrei
ben
(888
8488
) 35
.26
- 1,
46
0.91
0.
62
D3-
7f
Rhy
thm
us +
Not
en (B
eeth
oven
: 488
44)
60.2
6 47
.01
0.21
0.
87
0.65
D3-
7g
Rhy
thm
us +
Not
en (Q
ueen
: 884
884)
87
.18
82.9
1 -1
,58
0.92
0.
46
D1-
14a-
1 R
hyth
mus
+ 4
Rhy
thm
en (P
2: 4
4884
) 93
.59
91.4
5 -2
,43
0.91
0.
32
D1-
14c
Rhy
thm
us +
4 M
usik
(P1:
488
84.)
29.4
9 5.
98
1,78
0.
93
0.48
Glo
bale
r Mod
ellte
st: C
ress
ie-R
ead:
p =
0.0
6, �
2 : p =
0.1
2; T
estr
elia
bilit
ät: E
AP/P
V =
0.8
0, C
ronb
achs
Alp
ha =
0.5
7
P i ,
P IK
, PZK
= k
lass
isch
e Sc
hwie
rigke
itsin
dize
s; It
emsc
hwie
rigke
it (R
asch
) = It
empa
ram
eter
� (d
icho
tom
e Ite
ms)
, Thu
rsto
nian
thre
shol
ds (m
ehrk
ateg
orie
lle
Item
s); M
NSQ
= w
eigh
ted
mea
n sq
uare
(Ite
mfit
Con
Que
st); r
it = T
renn
schä
rfe;
SK
= S
elek
tions
kenn
wer
t (Tr
enns
chär
fe)
271
Tab.
58:
Sel
ektie
rte It
ems T
esth
eft 3
Item
-ID
K
urzb
esch
reib
ung
P i /P
IK
P ZK
Item
schw
ieri
g-ke
it (R
asch
) M
NSQ
r it
SK
D1-
15b-
1 W
irkun
g: h
ektis
ch (L
iget
i) 95
.39
94.2
4 -2
.42
0.92
0.
30
D1-
15c-
1 W
irkun
g: fe
stlic
h (l'
Orf
eo)
94.7
4 93
.43
-2.2
8 0.
98
0.29
D1-
15e
Wirk
ung
+ M
ittel
(Dire
Stra
its)
29.6
1 -
1.91
1.
03
0.39
D1-
15e
Wirk
ung
+ M
ittel
(Phi
ll C
ollin
s)
23.6
8 -
2.25
1.
03
0.32
D1-
15g
Wirk
ung
+ M
ittel
(Car
men
) 57
.89
- 0.
54
1.10
0.
28
D3-
7d
Rhy
thm
us +
gra
fisch
e N
otat
ion
(884
884)
53
.29
- 0.
76
0.93
0.
57
D1-
11b
Bes
chre
ibun
g ei
nem
Kla
vier
stüc
k zu
ordn
en (B
row
n)
69.7
4 -
-0.0
5 1.
01
0.44
D1-
16-1
/3
Tonv
orra
t im
Kop
f abz
ähle
n 79
.61
- -0
.64
1.00
0.
41
D1-
16-2
/3
Tonv
orra
t im
Kop
f abz
ähle
n 54
.61
- 0.
70
1.08
0.
41
D1-
14a-
3 R
hyth
mus
+ 4
Rhy
tmen
(P3)
59
.87
46.4
9 0.
45
1.01
0.
47
D1-
14b
Rhy
thm
us +
4 M
elod
ien
(P2)
44
.08
25.4
4 1.
19
0.96
0.
47
D1-
14c
Rhy
thm
us +
4 M
usik
(P2)
51
.97
35.9
6 0.
82
0.88
0.
52
D1-
14c
Mel
odie
+ 4
Rhy
thm
en (P
3)
58.5
5 44
.73
0.51
0.
91
0.56
D4-
5b
Stile
: Kon
zerts
aal
92.1
1 90
.80
-1.8
2 1.
06
0.18
0.
31
D4-
5a-3
/4
Mus
ik +
Orte
(Mili
tärp
arad
e)
92.7
6 90
.95
-1.9
2 1.
03
0.23
0.
40
Glo
bale
r Mod
ellte
st: C
ress
ie-R
ead:
p =
0.0
6, �
2 : p =
0.1
2; T
estr
elia
bilit
ät: E
AP/P
V =
0.7
2, C
ronb
achs
Alp
ha =
0.6
2
P i ,
P IK
, PZK
= k
lass
isch
e Sc
hwie
rigke
itsin
dize
s; It
emsc
hwie
rigke
it (R
asch
) = It
empa
ram
eter
� (d
icho
tom
e Ite
ms)
, Thu
rsto
nian
thre
shol
ds (m
ehrk
ateg
orie
lle
Item
s); M
NSQ
= w
eigh
ted
mea
n sq
uare
(Ite
mfit
Con
Que
st); r
it = T
renn
schä
rfe;
SK
= S
elek
tions
kenn
wer
t (Tr
enns
chär
fe)
272
Tab.
59:
Sel
ektie
rte It
ems T
esth
eft 4
Item
-ID
K
urzb
esch
reib
ung
P i /P
IK
P ZK
Item
schw
ieri
g-ke
it (R
asch
) M
NSQ
r it
SK
D3-
8a-1
M
icha
el ro
w th
e bo
at –
Feh
ler s
uche
n 92
.56
- -1
.65
1.00
0.
33
D3-
8a-2
M
icha
el ro
w th
e bo
at –
Feh
ler s
uche
n 44
.63
- 1.
43
0.98
0.
43
D3-
8a-4
M
icha
el ro
w th
e bo
at –
Feh
ler s
uche
n
90.5
0 -
-1.3
6 1.
02
0.36
D3-
8b-1
M
icha
el ro
w th
e bo
at -
Fehl
er b
esch
reib
en
78.1
0 -
-0.2
9 0.
99
0.43
D3-
8b-2
M
icha
el ro
w th
e bo
at -
Fehl
er b
esch
reib
en
20.6
6 -
2.73
0.
83
0.52
D3-
8b-4
M
icha
el ro
w th
e bo
at -
Fehl
er b
esch
reib
en
69.8
3 -
0.20
1.
01
0.49
D1-
15c-
1 W
irkun
g: fe
stlic
h (l'
orfe
o)
83.0
6 78
.83
-0.6
4 1.
05
0.34
D1-
15c-
2 W
irkun
g: ru
hig
(Sat
ie)
95.4
5 94
.31
-2.2
0 1.
06
0.26
D1-
15d-
1 W
irkun
g: fr
öhlic
h (S
aint
-Sae
ns)
87.1
9 83
.99
-1.0
0 1.
01
0.34
D1-
15f-
I W
irkun
g-M
ittel
-Kom
posi
tion
71.4
9 -
0.11
1.
01
0.35
D4-
5b-1
St
ile: H
ipH
op
90.9
1 89
.4
-1.4
2 1.
11
0.19
0.
31
D4-
5b-2
St
ile: O
per
93.8
0 92
.77
-1.8
6 1.
05
0.30
D4-
5b-3
St
ile: R
ock
95.4
5 94
.69
-2.2
0 1.
09
0.14
0.
31
D4-
5b-4
St
ile: K
onze
rtsaa
l 87
.19
85.0
6 -1
.00
1.02
0.
39
D4-
5b-5
St
ile: K
irche
94
.21
93.2
5 -1
.93
1.05
0.
34
D4-
5b-6
St
ile: T
echn
o 82
.64
79.7
5 -0
.61
1.05
0.
30
D1-
18a-
1 M
otiv
isch
e V
erän
deru
ng: B
rude
r Jak
ob
49.5
9 24
.39
1.19
1.
01
0.38
D1-
18a-
2 M
otiv
isch
e V
erän
deru
ng: O
Du
liebe
r Aug
ustin
46
.28
19.4
2 1.
35
1.03
0.
44
D1-
18a-
3 M
otiv
isch
e V
erän
deru
ng: M
ende
lsso
hn
50.8
3 20
.87
1.14
0.
97
0.45
D1-
18b
Mot
ivis
che
Ver
ände
rung
: Alle
mei
ne E
ntch
en
66.9
4 41
.53
0.36
1.
02
0.38
273
Item
-ID
K
urzb
esch
reib
ung
P i /P
IK
P ZK
Item
schw
ierig
-ke
it (R
asch
) M
NSQ
rit
SK
D1-
18d
Mel
odie
wie
dere
rken
nen
(Moz
art-M
enue
tt)
25.2
1 -
2.44
0.
99
0.40
D1-
18e
Var
iatio
nen:
Kla
vier
(Moz
art)
14.8
8 -
3.18
1.
04
0.23
0.
32
D1-
18f
Var
iatio
nen:
USA
-Hym
ne (H
endr
ix)
32.6
4 -
2.02
1.
05
0.36
Glo
bale
r Mod
ellte
st: C
ress
ie-R
ead:
p =
0.0
8, �
2 : p =
0.1
0; T
estr
elia
bilit
ät: E
AP/P
V =
0.7
4, C
ronb
achs
Alp
ha =
0.6
9
P i ,
P IK
, PZK
= k
lass
isch
e Sc
hwie
rigke
itsin
dize
s; It
emsc
hwie
rigke
it (R
asch
) = It
empa
ram
eter
� (d
icho
tom
e Ite
ms)
, Thu
rsto
nian
thre
shol
ds (m
ehrk
ateg
orie
lle
Item
s); M
NSQ
= w
eigh
ted
mea
n sq
uare
(Ite
mfit
Con
Que
st); r
it = T
renn
schä
rfe;
SK
= S
elek
tions
kenn
wer
t (Tr
enns
chär
fe)
274
Tab.
60:
Sel
ektie
rte It
ems T
esth
eft 5
Item
-ID
K
urzb
esch
reib
ung
P i /P
IK
P ZK
Item
schw
ieri
g-ke
it (R
asch
) M
NSQ
r it
SK
D1-
17a
Form
erke
nnun
g: M
ozar
t-Ron
do
37.3
4 -
1.25
1.
06
0.37
D1-
10b-
1/2
Takt
+ N
oten
(MC
) 44
.81
26.4
1 0.
89
0.90
0.
56
D1-
10b-
2/2
Takt
+ N
oten
(MC
) 53
.53
38.0
4 0.
48
0.92
0.
53
D1-
10c
Takt
+ N
oten
(off
en)
35.6
8 -
1.34
0.
95
0.50
D1-
14a
Rhy
thm
us +
4 R
hyth
men
51
.45
- 0.
58
1.05
0.
40
D3-
7f
Rhy
thm
us +
Not
en (B
eeth
oven
) 52
.28
- 0.
54
0.99
0.
51
D2-
6a-1
/5
Inst
rum
ente
nbild
er: T
rom
pete
67
.63
- -0
.22
1.08
0.
33
D2-
6a-2
/5
Inst
rum
ente
nbild
er: K
ontra
bass
77
.18
- -0
.77
0.98
0.
44
D2-
6a-3
/5
Inst
rum
ente
nbild
er: Q
uerf
löte
84
.23
- -1
.29
1.00
0.
38
D2-
6a-4
/5
Inst
rum
ente
nbild
er: G
eige
84
.23
- -1
.29
1.00
0.
39
D2-
6a-5
/5
Inst
rum
ente
nbild
er: G
itarr
e 90
.04
- -1
.86
1.04
0.
22
0.37
D2-
6b-1
/3
Inst
rum
ente
ben
enne
n: K
lavi
er
88.8
-
-1.7
2 0.
92
0.43
D2-
6b-2
/3
Inst
rum
ente
ben
enne
n: O
rgel
83
.4
- -1
.22
0.90
0.
49
D2-
6b-3
/3
Inst
rum
ente
ben
enne
n: E
-Pia
no
50.2
1 -
0.63
0.
88
0.51
D1-
19b-
1/3
Inst
rum
ente
nzah
l hör
en: 2
(Jac
k Jo
hnso
n)
78.0
1 -
-0.8
3 0.
97
0.42
D1-
19b-
2/3
Inst
rum
ente
nzah
l hör
en: 3
(Sum
mer
time)
67
.63
- -0
.22
1.07
0.
34
D1-
19b-
3/3
Inst
rum
ente
nzah
l hör
en: 3
(Sch
uber
t-Trio
) 37
.76
- 1.
23
1.15
0.
26
275
Item
-ID
K
urzb
esch
reib
ung
P i /P
IK
P ZK
Item
schw
ierig
-ke
it (R
asch
) M
NSQ
r it
SK
D4-
1a
älte
r - jü
nger
: Bac
h - P
eter
son
(Jaz
z)
72.6
1 45
.22
-0.5
0 1.
03
0.37
D4-
1a
Beg
ründ
ung
42.3
2 -
1.01
0.
94
0.52
D4-
1b
älte
r - jü
nger
: G. M
icha
el (P
op) -
Mon
teve
rdi
89.2
1 78
.42
-1.7
7 1.
02
0.25
D4-
1b
Beg
ründ
ung
39.4
2 -
1.15
1.
05
0.38
D4-
1c
älte
r - jü
nger
: Fitz
gera
ld (J
azz
rem
ixed
) - B
igba
nd
93.3
6 86
.72
-2.3
4 1.
00
0.24
0.
35
D4-
1c
Beg
ründ
ung
39.4
2
1.15
0.
93
0.47
D4-
1e-2
-1/2
H
isto
risch
e A
nläs
se: k
önig
liche
s Fes
t 160
0 88
.38
85.4
8 -1
.68
0.97
0.
33
D4-
1f-2
Ep
oche
n-Ze
itstra
hl: K
lass
ik
67.6
3 61
.16
-0.2
2 1.
07
0.28
D1-
15e
Wirk
ung-
Mitt
el-Z
uord
nung
(ohn
e H
B)
47.3
0 -
0.77
1.
05
0.28
D1-
18d
Mel
odie
Wie
dere
rken
nen
(Moz
art-M
enue
tt)
52.7
0 -
0.52
1.
04
0.37
D1-
10a
Takt
erek
ennu
ng
26.5
6 -
1.83
1.
09
0.26
D4-
1d
Bac
h-Tr
ioso
nate
+ h
isto
risch
es W
isse
n (M
C)
15.7
7 -
2.57
0.
98
0.33
Glo
bale
r Mod
ellte
st: C
ress
ie-R
ead:
p =
0.2
6, �
2 : p =
0.3
7; T
estr
elia
bilit
ät: E
AP/P
V =
0.8
2, C
ronb
achs
Alp
ha =
0.8
0
P i ,
P IK
, PZK
= k
lass
isch
e Sc
hwie
rigke
itsin
dize
s; It
emsc
hwie
rigke
it (R
asch
) = It
empa
ram
eter
� (d
icho
tom
e Ite
ms)
, Thu
rsto
nian
thre
shol
ds (m
ehrk
ateg
orie
lle
Item
s); M
NSQ
= w
eigh
ted
mea
n sq
uare
(Ite
mfit
Con
Que
st); r
it = T
renn
schä
rfe;
SK
= S
elek
tions
kenn
wer
t (Tr
enns
chär
fe)
276
Tab.
61:
Sel
ektie
rte It
ems T
esth
eft 6
Item
-ID
K
urzb
esch
reib
ung
P i /P
IK
P ZK
Item
schw
ieri
g-ke
it (R
asch
) M
NSQ
r it
SK
D2-
1a
Tonl
eite
r Gra
fik z
uord
nen
83.1
1 77
.48
-1.9
5 0.
95
0.33
D2-
1c-1
Tr
iller
+ B
esch
reib
unge
n 83
.11
77.4
8 -1
.95
0.89
0.
43
D2-
1c-2
Tr
iller
+ F
acht
erm
inol
ogie
47
.11
36.5
3 -0
.12
1.08
0.
29
D2-
1b
Tonl
eite
r + H
B
50.2
2 -
-0.2
6 0.
96
0.46
D2-
1d
MC
: zut
reff
ende
Bes
chre
ibun
gen
24.0
0 -
0.99
1.
01
0.23
0.
27
D2-
1e
gena
ue B
esch
reib
ung
(off
en)
33.3
3, 9
.33
- 1.
57
1.08
0.
31
D2-
1 K
orre
ktur
aufg
abe
8.44
-
2.28
1.
01
0.23
0.
41
D2-
1 K
orre
ktur
aufg
abe
6.67
-
2.54
0.
97
0.23
0.
46
D1-
3a
Abs
chni
tte: A
u cl
aire
de
la lu
ne
59.1
1 45
.48
-0.6
5 0.
99
0.37
D1-
3a-(
2/2)
gl
eich
e A
bsch
nitte
: Au
clai
re d
e la
lune
25
.78
- 0.
89
0.96
0.
44
D1-
3b
A-A
-B-A
: Im
Mär
zen
der B
auer
41
.33
21.7
7 0.
13
1.04
0.
31
D3-
3 ko
mpl
exe
graf
isch
e Pa
rtitu
r (Sa
tie)
41.3
3 21
.77
0.13
1.
01
0.28
D1-
4a
Pass
ende
Film
mus
ik
48.4
4, 2
2.67
-
-1.0
6, 0
.84
0.94
0.
47
D1-
4b
Pass
ende
Film
mus
ik
43.1
1, 3
2.89
-
-1.2
3, 0
.38
0.97
0.
51
D4-
2-1/
5 St
ile: G
ospe
l 20
.89
11.0
0 1.
18
0.97
0.
33
D4-
2-2/
5 St
ile: O
per
88.8
9 87
.50
-2.4
6 1.
00
0.22
0.
33
D4-
2-3/
5 St
ile: N
eue
Mus
ik
36.0
0 28
.00
0.38
1.
08
0.22
0.
24
D4-
2-5/
5 St
ile: B
lues
54
.67
49.0
0 -0
.45
1.01
0.
35
277
Item
-ID
K
urzb
esch
reib
ung
P i /P
IK
P ZK
Item
schw
ierig
-ke
it (R
asch
) M
NSQ
r it
SK
D1-
5a
Hay
dn-V
aria
tione
n 28
.25
- 0.
77
1.01
0.
24
D1-
5b
Hay
dn-V
aria
tion:
Ver
ände
rung
bes
chre
iben
69
.06
- -1
.08
0.95
0.
37
D1-
5c
Anz
ahl V
aria
tione
n (M
ozar
t) 15
.53
- 1.
60
1.07
0.
14
0.19
D2-
2-1/
2 K
anon
(Bes
chre
ibun
g au
swäh
len)
78
.65
71.5
3 -1
.85
1.00
0.
27
D2-
3a
Wel
che
Bes
chre
ibun
g pa
sst a
m b
este
n 44
.44
25.9
2 -0
.04
1.07
0.
23
0.26
D2-
3b
Gen
aue
Bes
chre
ibun
g m
it ei
gene
n W
orte
n 29
.11,
29
.11,
24.
05
- -1
.34,
-0.3
0,
0.63
1.
01
0.61
Glo
bale
r Mod
ellte
st: C
ress
ie-R
ead:
p =
0.1
0, �
2 : p =
0.1
2; T
estr
elia
bilit
ät: E
AP/P
V =
0.7
2, C
ronb
achs
Alp
ha =
0.6
0
P i ,
P IK
, PZK
= k
lass
isch
e Sc
hwie
rigke
itsin
dize
s; It
emsc
hwie
rigke
it (R
asch
) = It
empa
ram
eter
� (d
icho
tom
e Ite
ms)
, Thu
rsto
nian
thre
shol
ds (m
ehrk
ateg
orie
lle
Item
s); M
NSQ
= w
eigh
ted
mea
n sq
uare
(Ite
mfit
Con
Que
st); r
it = T
renn
schä
rfe;
SK
= S
elek
tions
kenn
wer
t (Tr
enns
chär
fe)
278
Tab.
62:
Sel
ektie
rte It
ems T
esth
eft 7
Item
-ID
K
urzb
esch
reib
ung
P i /P
IK
P ZK
Item
schw
ieri
g-ke
it (R
asch
) M
NSQ
r it
SK
D1-
6 M
otiv
isch
e V
erän
deru
ng: f
ranz
. Hym
ne –
Tch
ai-
kovs
ky
45.9
9 -
-0.4
7 0.
96
0.47
-
D4-
3a-2
/3
Kul
ture
ller K
onte
xt: b
ayer
isch
e B
lasm
usik
60
.63
- -1
.11
1.00
0.
29
-
D4-
3b-1
/5
Kul
ture
ller K
onte
xt: S
üdam
erik
a 11
.15
-6.6
2 1.
58
0.99
0.
30
-
D4-
3b-2
/5
Kul
ture
ller K
onte
xt: A
ustra
lien
39.7
2 27
.66
-0.1
9 0.
98
0.38
-
D4-
3b-3
/5
Kul
ture
ller K
onte
xt: E
urop
a 52
.26
42.7
1 -0
.74
1.03
0.
28
-
D4-
3b-4
/5
Kul
ture
ller K
onte
xt: A
sien
70
.73
64.8
8 -1
.60
0.95
0.
42
-
D4-
3b-5
/5
Kul
ture
ller K
onte
xt: A
frik
a 72
.13
66.5
6 -1
.67
0.97
0.
32
-
D3-
4a
Cho
rpar
titur
lese
n 5.
23
- 2.
42
0.99
0.
23
0.52
D3-
4b
Cho
rpar
titur
lese
n (m
it H
B)
39.0
2 18
.69
-0.1
6 1.
02
0.40
-
D3-
9a
Kla
vier
schü
ler T
ipps
geb
en: f
orte
- pi
ano
11.5
4, 1
9.23
-
-0.0
2, 0
.34
1.03
0.
52
-
D3-
9c
Kla
vier
schü
ler 3
Tip
ps g
eben
: Alle
gro,
acc
., cr
esc.
36
.59,
6.9
7 -
-0.3
7, 1
.51
1.08
0.
35
-
D2-
7b
2 K
lavi
ersc
hüle
r: B
eeth
oven
(Beg
ründ
ung
Urte
il)
13.2
4 -
1.37
1.
00
0.29
-
D2-
7b
2 K
lavi
ersc
hüle
r: B
ach
(Beg
ründ
ung
Urte
il)
30.6
6 -
0.24
0.
97
0.45
-
D2-
7c
Schü
lerz
eitu
ng -
Ban
dwet
tbew
erb
28.9
2, 3
5.89
, 7.
32
- -1
.36,
-0.4
4,
1.44
1.
08
0.53
-
D1-
7 Fo
rm: C
hopi
n, A
- A
- B
- A
47
.31
29.7
5 -0
.33
1.00
0.
39
-
Glo
bale
r Mod
ellte
st: C
ress
ie-R
ead:
p =
0.0
6, �
2 : p =
0.1
8; T
estre
liabi
lität
: EAP
/PV
= 0
.57,
Cro
nbac
hs A
lpha
= 0
.56
P i ,
P IK
, PZK
= k
lass
isch
e Sc
hwie
rigke
itsin
dize
s; It
emsc
hwie
rigke
it (R
asch
) = It
empa
ram
eter
� (d
icho
tom
e Ite
ms)
, Thu
rsto
nian
thre
shol
ds (m
ehrk
ateg
orie
lle
Item
s); M
NSQ
= w
eigh
ted
mea
n sq
uare
(Ite
mfit
Con
Que
st); r
it = T
renn
schä
rfe;
SK
= S
elek
tions
kenn
wer
t (Tr
enns
chär
fe)
279
Tab.
63:
Sel
ektie
rte It
ems T
esth
eft 8
Item
-ID
K
urzb
esch
reib
ung
P i /P
IK
P ZK
Item
schw
ieri
g-ke
it (R
asch
) M
NSQ
r it
SK
D1-
20-2
/2
Wirk
ung:
„au
tum
n le
aves
“ B
andv
ersi
onen
73
.14
- -1
.79
0.90
0.
50
D1-
8 Fo
rm: 3
Abs
chni
tte (H
albe
Tre
ppe)
88
.84
85.1
2 -3
.05
0.81
0.
50
D2-
1-2
Kor
rekt
urau
fgab
e (H
albe
Tre
ppe)
30
.99
- 0.
37
1.01
0.
41
D2-
1-3
Kor
rekt
urau
fgab
e (H
albe
Tre
ppe)
6.
20
- 2.
49
1.07
0.
20
0.41
D2-
1-4
Kor
rekt
urau
fgab
e (H
albe
Tre
ppe)
26
.03
- 0.
65
0.90
0.
53
D2-
1-5
Kor
rekt
urau
fgab
e (H
albe
Tre
ppe)
23
.97
- 0.
78
1.00
0.
45
D2-
1-6
Kor
rekt
urau
fgab
e (H
albe
Tre
ppe)
9.
50
- 2.
00
1.01
0.
34
D2-
8a
Ges
angs
schü
ler T
ipps
geb
en ("
Kei
n sc
höne
r La
nd")
49
.37,
32
.07,
6.7
5
-2.6
9,
-0.0
9, 1
.84
1.08
0.
50
D2-
8b
Ges
angs
schü
ler T
ipps
geb
en ("
Der
Mon
d is
t auf
-ge
gang
en")
49
.59,
32
.64,
7.0
2
-2.8
3,
-0.1
3, 1
.81
1.02
0.
55
D2-
4a
Dyn
amik
: seh
r lau
t. se
hr le
ise
92.5
6 90
.08
-3.5
5 0.
85
0.35
D2-
4b
Dyn
amik
+ F
acht
erm
inol
ogie
ff. p
p 32
.23
18.6
8 0.
30
1.09
0.
38
D2-
4c
Tem
po: s
chne
ll 61
.16
48.2
1 -1
.14
1.08
0.
35
D2-
4d
Tem
po +
Fac
hter
min
olog
ie: A
llegr
o 15
.70
-1.1
6 1.
37
1.01
0.
34
D2-
4e
Ron
do (n
ur E
rklä
rung
, ohn
e Fa
chte
rm.)
59.0
9 45
.45
-1.0
3 0.
92
0.53
D2-
4f
Ron
do (M
C: n
ur F
acht
erm
.) 26
.86
9.83
0.
60
0.95
0.
46
D3-
5 V
iolin
- und
Bas
ssch
lüss
el in
Par
titur
42
.98
- -0
.25
0.95
0.
50
D2-
4j
Vio
lin- u
nd B
asss
chlü
ssel
erk
läre
n 39
.26
- -0
.06
1.02
0.
46
280
Item
-ID
K
urzb
esch
reib
ung
P i /P
IK
P ZK
Item
schw
ierig
-ke
it (R
asch
) M
NSQ
r it
SK
D2-
4g
Term
inol
ogie
: for
tissi
mo/
pian
issi
mo
erkl
ären
14
.05
- 1.
52
1.02
0.
39
D2-
4h
Term
inol
ogie
: Alle
gro
erkl
ären
7.
85
- 2.
23
1.07
0.
17
0.32
D2-
4i
Term
inol
ogie
: Ron
do e
rklä
ren
34.3
0 -
0.19
0.
91
0.54
D1-
18d
Mel
odie
Wie
dere
rken
nen
(Moz
art-M
enue
tt)
49.1
7 -
-0.5
4 1.
00
0.46
D3-
6a
Alle
mei
ne E
ntch
en z
u N
oten
bild
zuo
rdne
n 53
.31
37.7
5 -0
.74
1.08
0.
38
D3-
6b
Bac
h Pr
älud
ium
zu
Not
enbi
ld z
uord
nen
39.6
7 19
.56
-0.0
8 1.
19
0.26
D1-
9 Fo
rm: E
inle
itung
en e
rken
nen
29.7
5 -
0.44
1.
10
0.34
Glo
bale
r Mod
ellte
st: C
ress
ie-R
ead:
p =
0.1
4, �
2 : p =
0.1
8; T
estr
elia
bilit
ät: E
AP/P
V =
0.8
2, C
ronb
achs
Alp
ha =
0.7
9
P i ,
P IK
, PZK
= k
lass
isch
e Sc
hwie
rigke
itsin
dize
s; It
emsc
hwie
rigke
it (R
asch
) = It
empa
ram
eter
� (d
icho
tom
e Ite
ms)
, Thu
rsto
nian
thre
shol
ds (m
ehrk
ateg
orie
lle
Item
s); M
NSQ
= w
eigh
ted
mea
n sq
uare
(Ite
mfit
Con
Que
st); r
it = T
renn
schä
rfe;
SK
= S
elek
tions
kenn
wer
t (Tr
enns
chär
fe)
281
Tab.
64:
Sel
ektie
rte It
ems T
esth
eft 9
Item
-ID
K
urzb
esch
reib
ung
P i /P
IK
P ZK
Item
schw
ieri
g-ke
it (R
asch
) M
NSQ
r it
SK
D1-
17a
Form
erke
nnun
g: M
ozar
t-Ron
do (A
-B-A
-C-A
) 49
.40
- -0
.37
1.04
0.
35
D4-
5a-1
/4
Ver
wen
dung
: Kau
fhau
s 63
.75
56.5
0 -1
.02
1.07
0.
30
D4-
5a-2
/4
Ver
wen
dung
: Beg
ründ
ung
Kau
fhau
s 24
.70
- 0.
83
1.03
0.
28
D1-
13
Dur
/Mol
l – W
isse
nsfr
age
13.1
5, 7
.97
0.
72, 1
.35
1.06
0.
44
D1-
11-1
/2
Ges
talt,
Kla
vier
aufg
abe:
Sat
ie
29.0
8 -
0.58
1.
03
0.36
D1-
11-2
/2
Ges
talt,
Kla
vier
aufg
abe:
Bro
wn
52.9
9 -
-0.5
3 1.
04
0.32
D1-
19a
Inst
rum
ente
erk
enne
n: B
ands
37
.85
25.4
2 0.
15
0.97
0.
47
D4-
1c-2
äl
ter -
jüng
er: M
ozar
t – G
rego
riani
k 36
.25
- 0.
23
1.00
0.
32
D4-
1e-2
-1
Anl
ässe
: kön
iglic
hes F
est 1
600
90.4
4 88
.05
-2.8
3 0.
99
0.22
0.
34
D4-
4a-1
/4
Gen
re: H
ip-H
op
89.6
4 87
.91
-2.7
4 0.
99
0.30
D4-
4a-2
/4
Gen
re: H
ard
Roc
k 27
.09
14.9
4 0.
69
1.03
0.
33
D4-
4a-3
/4
Gen
re: D
ance
54
.58
47.0
1 -0
.60
0.97
0.
42
D4-
4a-4
/4
Gen
re: J
azz
58.5
7 51
.67
-0.7
8 0.
94
0.51
D4-
4b-1
/3
Eher
Hip
-Hop
ode
r Hea
vy-M
etal
? 19
.52
- 1.
15
0.99
0.
32
D4-
4b-2
/3
Eher
Jazz
ode
r Roc
k?
31.8
7 -
0.44
0.
86
0.49
D4-
4b-3
/3
Eher
Hip
-Hop
ode
r (in
disc
he) B
hang
ra?
15.1
4 -
1.48
1.
01
0.19
0.
27
D1-
10a
Takt
erke
nnun
g: 1
= 3
/4. 2
= 4
/4
11.9
5, 2
2.31
0.12
, 0.4
9 0.
99
0.53
282
Item
-ID
K
urzb
esch
reib
ung
P i /P
IK
P ZK
Item
schw
ierig
-ke
it (R
asch
) M
NSQ
r it
SK
D1-
13a
Dur
/Mol
l – B
and
17.5
3 -
1.29
0.
95
0.44
D1-
13b
Dur
/Mol
l – M
ozar
t 27
.09
- 0.
69
1.06
0.
27
Glo
bale
r Mod
ellte
st: C
ress
ie-R
ead:
p =
0.1
0, �
2 : p =
0.0
9; T
estr
elia
bilit
ät: E
AP/P
V =
0.6
3, C
ronb
achs
Alp
ha =
0.6
4
P i ,
P IK
, PZK
= k
lass
isch
e Sc
hwie
rigke
itsin
dize
s; It
emsc
hwie
rigke
it (R
asch
) = It
empa
ram
eter
� (d
icho
tom
e Ite
ms)
, Thu
rsto
nian
thre
shol
ds (m
ehrk
ateg
orie
lle
Item
s); M
NSQ
= w
eigh
ted
mea
n sq
uare
(Ite
mfit
Con
Que
st); r
it = T
renn
schä
rfe;
SK
= S
elek
tions
kenn
wer
t (Tr
enns
chär
fe)
284
KOMUS-Aufgabenentwicklung: Dokumentationsbogen Testheft Nr. ___
Datum
Schule
Klasse Besonderheit (z. B. Bläserklasse):
Lehrer
Aufgabe Bearbeitungszeit Bemerkungen
------------- Gesamtbearbeitungszeit
Allgemeine Bemerkungen/Sonstiges
285
Anhang C: Schülerrückmeldebogen
Es handelt sich bei dem im Folgenden dargestellten Rückmeldebogen um die Endfassung des
Schülerrückmeldebogens. Die Items zur Erfassung der musikpraktischen Tätigkeiten und der
nationalen Herkunft der Schüler wurden dabei über die neun Testhefte hinweg mehrfach ü-
berarbeitet und ergänzt. Der Rückmeldeteil zu den Testaufgaben war hingegen in allen Test-
heften von Anfang an gleich.
286
Zum Schluss noch ein paar kurze Fragen:
Spielst Du zurzeit ein Instrument oder singst (z. B. im Chor oder in einer Band)?
� Nein
� Ja, und zwar: �__________________________________________________
Seit wie vielen Jahren spielst du diese(s) Instrument(e) bzw. singst du?
Ich spiele/singe seit ungefähr Jahren.
Hast Du früher gesungen oder ein Instrument gespielt, das Du inzwischen aber aufgehört hast?
� Nein
� Ja, und zwar:�__________________________________________________
Wie viele Jahre hattest du dieses Instrument gespielt bzw. hast du gesungen?
Ich habe ungefähr Jahre gespielt/gesungen.
Bist Du ein Junge oder ein Mädchen?
� Junge � Mädchen
Wer aus Deiner Familie ist in Deutschland geboren? Mache bitte in jeder Zeile ein Kreuz! Ja Nein
Mein Vater ist in Deutschland geboren. ……………………………� �
Meine Mutter ist in Deutschland geboren. …………………………� �
Ich bin in Deutschland geboren. …………………………………….� �
287
Nun möchten wir noch gern Deine Meinung zu den Aufgaben wissen:
Gab es Fragen, die zu schwer für Dich waren? Wenn ja, welche?
Nein �
Ja � und zwar: �______________________________________________
Gibt es weitere Sachen, die Dir aufgefallen sind? Bitte notiere diese kurz.
�____________________________________________________________
_______________________________________________________________
_______________________________________________________________
_______________________________________________________________
_______________________________________________________________
Vielen Dank für deine Unterstützung!
�
288
Erklärung
Hiermit erkläre ich, dass die vorliegende Arbeit ohne unerlaubte Hilfe angefertigt wur-
de. Es wurden keine anderen als die angegebenen Quellen und Hilfsmittel benutzt. Au-
ßerdem wurden die den benutzten Werken wörtlich oder inhaltlich entnommenen Stel-
len als solche kenntlich gemacht.
(Jens Knigge)
15. März 2010