32
Psychologische Diagnostik Teilgebiet der Psychologie, beschäftigt sich mit Theorie, Konstruktion, Einsatz (Fallbehandlung in Praxis!) und Analyse von Diagnostikverfahren. Es geht um die Beschreibung und Erklärung von Unterschieden, aber auch um das Feststellen absoluter Größen (v.a. Ressourcen) und das konkrete "Messen" psychischer und psychologischer Phänomene. Gebrauch von P.D. machen Differentielle Psy, Allgemeine Psy, Persönlichkeitsforschung, Entwicklungspsy, Klinische Psy, Arbeits- und Organisationspsy, Pädagogischepsy, GesundheitspSy und die Forensische Psy. (1,2) "Psychologische Diagnostik ist die wissenschaftliche Disziplin ("Lehrfach"), die psychologisches Diagnostizieren für die Praxis vorbereitet" (Kubinger) (3) -> Distanzierung von reiner Klassifikation wie ICD 10 und DSM4, die nicht primär Interventionen anstreben (4) Diagnose "Die Feststellung des Vorhandenseins oder Ausprägungsgrades psychologischer Merkmale (Eigenschaften, Fähigkeiten, Verhaltensweisen usw.) unter Beachtung bestimmter Kriterien bezeichnet man in der Psychologie als Diagnose. Diagnosen sind häufig mit Prognosen verknüpft" (zimbardo, gerrig) (2) Merkmal = Oberbegriff von Eigenschaften (traits) sowie Erlebens- und Verhaltensweisen Eigenschaft = beinhaltet auch spezifische Fähigkeiten Psychologisches Diagnostizieren impliziert Bezug zur Intervention – daher: keine Diagnose ohne einen der Fragestellung entsprechenden Maßnahmenvorschlag! (3) Psychologisches Diagnostizieren ist ein Prozess, der unter Zuhilfenahme verschiedener Verfahren zielgerichtete Informationen über psychische Eigenschaften des in Betracht stehenden Menschens gewinnen will; Prozess: Klärung der Fragestellung, Auswahl diagnostischer Verfahren, Anwendung und Auswertung derselbigen, Interpretation und Gutachtenerstellung, Festsetzen der Intervention (des Maßnahmenvorschlags) (Kubinger) (3) Gibt auch Meinung, dass auch noch die Evaluation der Intervention/ Nachuntersuchung an das Ende des diagnostischen Prozesses zu setzen sei (4) "Diagnostizieren in der Psychologie kann...als das Aufstellen und Prüfen "idiographischer" Hypothesen verstanden werden, wobei sich diese auf konkrete Einzelfälle beziehen (einzelne Personen, spezifische Gruppen von Personen und ganze Organisationen)" (Westermayer) (2,3) auch Institutionen, Situationen, Gegenstände etc können "in Betracht stehen" (3) Anamneseerhebung ist ein psychologisch-diagnostisches Verfahren; bezieht sich auf Erfragen der Kranken- bzw. Vorgeschichte der untersuchten Person (6) Exploration ist ein psychologisch-diagnostisches Verfahren; Erkunden bestimmter Sachverhalte und Stimmungen mittels qualifizierter Gesprächsführung (6) Verhaltensbeobachtung (systematische) ist ein psychologisch-diagnostisches Verfahren; zielt auf persönlichkeitsbezogenen Informationsgewinn über die untersuchte Person durch das Wahrnehmen ihrer Aktionen oder Reaktionen ab. (6) bemüht sich um Beschreibung und Funktionsanalyse des Menschen unter Alltagsbedingungen, daher meist auch inhaltliche Gültigkeit (52,53) Biographisches Inventar ist ein psychologisch-diagnostisches Verfahren; fragt nach grundsätzlich überprüfbaren Informationen aus der Lebensgeschichte der untersuchten Person, die einen Einblick in deren (leistungsbezogene) Zukunft versprechen (6) Assessment-Center ist ein psychologisch-diagnostisches Verfahren; "ist eine Seminarveranstaltung, in der eine TeilnehmerInnengruppe hinsichtlich einer Vielzahl von Dimensionen von mehreren trainierten BeobachterInnen gleichzeitig beurteilt wird. Dabei durchlaufen die TeilnehmerInnen multimethodal angelegte Verfahren sowie unterschiedliche Übungen, die Arbeits- und Entscheidungssituationen aus der beruflichen Realität simulieren. Abschließend werden die Einschätzungen des BeobachterInnengremiums mit dem Ziel gebündelt, Eignungsvoraussetzungen für bestimmte Aufgaben zu diagnostizieren und persönlichen Entwicklungsbedarf der TeilnehmerInnen zu erkennen" (39) - erfasst die Qualität der Bewältigungsversuche einer Person bei vorgegebenen berufsrelevanten Anforderungen (6) - sehr problematisch was Durchführungsobjektivität betrifft (39) Arbeitsplatzanalyse ist ein psychologisch-diagnostisches Verfahren; untersucht psychologische Bedingungen und psychische Voraussetzungen, die eine bestimmte berufsbezogene Tätigkeit an den Menschen stellt (6) Psychologisch-Diagnostische Verfahren Tests, Anamneseerhebung, Exploration, Verhaltensbeobachtung, Biographisches Inventar, Assessment-Center, Arbeitsplatzanalyse (6) Psychodiagnostik aus der Tradition der ehemaligen DDR (in BRD war psychologisches Diagnostizieren fast verpönt); in DDR gab es intensive Bemühungen zur Kultivierung des Faches Abkürzung "Psycho" erinnert aber auch an "Psychotests" – verliert wissenschaftlichen Gehalt (4)

Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

Embed Size (px)

Citation preview

Page 1: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

Psychologische Diagnostik Teilgebiet der Psychologie, beschäftigt sich mit Theorie, Konstruktion, Einsatz(Fallbehandlung in Praxis!) und Analyse von Diagnostikverfahren.Es geht um die Beschreibung und Erklärung von Unterschieden, aber auch um das Feststellenabsoluter Größen (v.a. Ressourcen) und das konkrete "Messen" psychischer undpsychologischer Phänomene.Gebrauch von P.D. machen Differentielle Psy, Allgemeine Psy, Persönlichkeitsforschung,Entwicklungspsy, Klinische Psy, Arbeits- und Organisationspsy, Pädagogischepsy,GesundheitspSy und die Forensische Psy. (1,2)"Psychologische Diagnostik ist die wissenschaftliche Disziplin ("Lehrfach"), diepsychologisches Diagnostizieren für die Praxis vorbereitet" (Kubinger) (3)-> Distanzierung von reiner Klassifikation wie ICD 10 und DSM4, die nicht primärInterventionen anstreben (4)

Diagnose "Die Feststellung des Vorhandenseins oder Ausprägungsgrades psychologischer Merkmale(Eigenschaften, Fähigkeiten, Verhaltensweisen usw.) unter Beachtung bestimmter Kriterienbezeichnet man in der Psychologie als Diagnose. Diagnosen sind häufig mit Prognosenverknüpft" (zimbardo, gerrig) (2)Merkmal = Oberbegriff von Eigenschaften (traits) sowie Erlebens- und VerhaltensweisenEigenschaft = beinhaltet auch spezifische FähigkeitenPsychologisches Diagnostizieren impliziert Bezug zur Intervention – daher: keine Diagnoseohne einen der Fragestellung entsprechenden Maßnahmenvorschlag! (3)

PsychologischesDiagnostizieren

ist ein Prozess, der unter Zuhilfenahme verschiedener Verfahren zielgerichtete Informationenüber psychische Eigenschaften des in Betracht stehenden Menschens gewinnen will;Prozess: Klärung der Fragestellung, Auswahl diagnostischer Verfahren, Anwendung undAuswertung derselbigen, Interpretation und Gutachtenerstellung, Festsetzen der Intervention(des Maßnahmenvorschlags) (Kubinger) (3)Gibt auch Meinung, dass auch noch die Evaluation der Intervention/ Nachuntersuchung an dasEnde des diagnostischen Prozesses zu setzen sei (4)"Diagnostizieren in der Psychologie kann...als das Aufstellen und Prüfen "idiographischer"Hypothesen verstanden werden, wobei sich diese auf konkrete Einzelfälle beziehen (einzelnePersonen, spezifische Gruppen von Personen und ganze Organisationen)" (Westermayer) (2,3)auch Institutionen, Situationen, Gegenstände etc können "in Betracht stehen" (3)

Anamneseerhebung ist ein psychologisch-diagnostisches Verfahren;bezieht sich auf Erfragen der Kranken- bzw. Vorgeschichte der untersuchten Person (6)

Exploration ist ein psychologisch-diagnostisches Verfahren;Erkunden bestimmter Sachverhalte und Stimmungen mittels qualifizierter Gesprächsführung(6)

Verhaltensbeobachtung(systematische)

ist ein psychologisch-diagnostisches Verfahren;zielt auf persönlichkeitsbezogenen Informationsgewinn über die untersuchte Person durch dasWahrnehmen ihrer Aktionen oder Reaktionen ab. (6)

bemüht sich um Beschreibung und Funktionsanalyse des Menschen unter Alltagsbedingungen,daher meist auch inhaltliche Gültigkeit (52,53)

Biographisches Inventar ist ein psychologisch-diagnostisches Verfahren;fragt nach grundsätzlich überprüfbaren Informationen aus der Lebensgeschichte deruntersuchten Person, die einen Einblick in deren (leistungsbezogene) Zukunft versprechen (6)

Assessment-Center ist ein psychologisch-diagnostisches Verfahren;"ist eine Seminarveranstaltung, in der eine TeilnehmerInnengruppe hinsichtlich einer Vielzahlvon Dimensionen von mehreren trainierten BeobachterInnen gleichzeitig beurteilt wird. Dabeidurchlaufen die TeilnehmerInnen multimethodal angelegte Verfahren sowie unterschiedlicheÜbungen, die Arbeits- und Entscheidungssituationen aus der beruflichen Realität simulieren.Abschließend werden die Einschätzungen des BeobachterInnengremiums mit dem Zielgebündelt, Eignungsvoraussetzungen für bestimmte Aufgaben zu diagnostizieren undpersönlichen Entwicklungsbedarf der TeilnehmerInnen zu erkennen" (39)- erfasst die Qualität der Bewältigungsversuche einer Person bei vorgegebenenberufsrelevanten Anforderungen (6)- sehr problematisch was Durchführungsobjektivität betrifft (39)

Arbeitsplatzanalyse ist ein psychologisch-diagnostisches Verfahren;untersucht psychologische Bedingungen und psychische Voraussetzungen, die eine bestimmteberufsbezogene Tätigkeit an den Menschen stellt (6)

Psychologisch-DiagnostischeVerfahren

Tests, Anamneseerhebung, Exploration, Verhaltensbeobachtung, Biographisches Inventar,Assessment-Center, Arbeitsplatzanalyse (6)

Psychodiagnostik aus der Tradition der ehemaligen DDR (in BRD war psychologisches Diagnostizieren fastverpönt); in DDR gab es intensive Bemühungen zur Kultivierung des FachesAbkürzung "Psycho" erinnert aber auch an "Psychotests" – verliert wissenschaftlichen Gehalt(4)

Page 2: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

Test Ein Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrererempirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativenAussage über den relativen Grad der individuellen Merkmalsausprägung." (Lienert) (5)Merkmal = Oberbegriff von Eigenschaften (traits) sowie Erlebens- und VerhaltensweisenEigenschaft = beinhaltet auch spezifische FähigkeitenPersönlichkeit = Menge aller psychischen Merkmale eines Menschen (Lienert)

Ein psychologischer Test erhebt unter standardisierten Bedingungen eineInformationsstichprobe über die Testperson, wobei die Idee der dem Experiment inhärentenManipulationen insofern Platz greift, als durch systematisch erstellte Fragen/Aufgabeninteressierende Verhaltensweisen oder psychische Vorgänge ausgelöst werden. (Kubinger) (5)

Geschichte Leistungsdiagnostik:Anfänge orientierten sich an experimenteller Psychologie – anfangs Sinnesfunktionen

untersucht oder Reaktionszeitmessungen; wichtige Namen: Galton, Cattell, später Kraepelinund komplexere Aufgaben (Problemlöseaufgaben, Gedächtnis, Psychomotorische Aufgaben)Später Intelligenzdiagnostik (Binet, Simon) Test für Kinder (6,7)Thurstone 1931 "Primary Mental Abilities" (7)Wechsler (mit Hilfe eigens entwickelter statistischer Methoden empirisch begründeteErkenntnisse) wollte viele spezifische Fähigkeiten erfassen (7)Persönlichkeitsdiagnostik:Galton (wollte Emotionen mittels Herzschlag messen; Verhaltensbeobachtung von Personen inbestimmten Situationen, Assoziationstechnik) (7)Kraepelin (seine Beobachtungen und Beschreibungen psychopathologisch erkrankter warenGrundlage für MMPI)Binet (erforschte berühmte Persönlichkeiten) (8)Cattell (mittels faktorenanalytischer Methoden versuchte er voneinander unabhängigeEigenschaften zu entdecken -> Persönlichkeit entsteht durch Kombination undAusprägungsgrad dieser) (8)Gegenwart:1. Nutzung des Computer2. gesellschaftspolitische Trendwende, Menschen in seiner Rolle als begutachtende Personsamt seinen Bedürfnissen angemessen zu berücksichtigen, in gewisser Weise partnerschaftlich,grundsätzlich förderungsorientiert zu begegnen3. dass bisher nicht gesehene oder unkritisch bewertete Probleme psycho. Diagnostizierens zuihrer Lösung einer systematischen Grundlagenforschung bedürfen (Verfälschbarkeit beiFragebögen, Rateeffekt bei vorgegebenen Antworten) (8)

Voraussetzungen derDiagnostik

strikt zwischen tatsächlichem Verhalten und Verhaltensdisposition zu unterschieden;angelehnt an experimentelle Idee des systematischen Manipulierens, soll bei der PersonVerhalten (Reaktionen, Aktionen) provoziert werden. Dieses Verhalten stellt eineVerhaltensstichprobe der "Population" aller gegenwärtig möglichen Verhaltensweisen derPerson dar und wird als Produkt der eigentlich interessierenden, aber latenten Eigenschaft(Verhaltensdisposition) aufgefasst, bzw als Ergebnis, das durch diese Eigenschaftmitverursacht wurde, dh. die Person muss die interessierende Eigenschaft zu einembestimmten Ausprägungsgrad haben. Mit unterschiedlicher Sicherheit kann eine Prognoseüber zukünftiges typisches Verhalten gegeben werden (10)Eigenschaften müssen nicht stabil sein, solche die sich nur durch gravierende Live-Eventsändern (Intelligenz) und solche die sich öfters ändern (Interessen) (9)mittels biographischem Inventar wird durch Erfassen frühester Fakten ebenfalls versuchtzukünftiges Verhalten zu prognostizieren (10)weitere Voraussetzungen: Grenzen der Diagnostik (Laien-Gläubigkeit, unsachliche Skepsis);Zuerkennen der Brauchbarkeit, Transparenz im Einzelfall- Verfahren muss auch tatsächlich zwischen Menschen unterscheiden, Fragen ob Ergebniswirklich nur durch intendierte Eigenschaft zustande kommt oder es andere einflussreicheEigenschaften geben könnte (Lernfähigkeit, Leistungsmotivation, Belastbarkeit,Frustrationstoleranz, Konzentrationsfähigkeit, Selbstkonzept, Agressionspotential); schaun obTestverhalten weniger variiert, als im Vergleich zu anderen Personen (intra stattinterindividuell) (21)

Eigenschaft bestimmte Verhaltensdisposition; sind nicht direkt beobachtbar, "latent", machen bestimmteVerhaltensweisen wahrscheinlicher, andere unwahrscheinlicher; stabile (Intelligenz) undinstabile (Interessen) (9)

Orientierungenpsychologischer Diagnostik

Eigenschaftsansatz: will relativ stabile Eigenschaften erfassenSimulationsansatz: konzentriert sich auf Verhalten als solchesBiographischer Ansatz: interessiert sich für lebensgeschichtliche Fakten (10)

Verhalten voraussagen Selten genügt es, Verhalten stichprobenartig zu beobachten, um Verhalten in der gleichenSituation vorherzusagen; am ehesten mit systematischer Verhaltensbeobachtung und

Page 3: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

Assessmentcenter möglich (10)Grenzen der Diagnostik laienhafte "Gläubigkeit": einerseits Glaube an Verbindlichkeit von Prognosen – immer

kritisch, aber erst recht für lange Zeiträume; andererseits "Ehrfurcht", dass PsychologischeDiagnostik alles zu durchschauen und zu messen vermagunsachliche Skepsis: Tests seien zu subjektiv, Tests sagen nicht aus, sind Interpretationssache,nicht ernst nehmen; (11)-> wichtige Voraussetzung; alle in Fallbegutachtung involvierten Personen müssen denwissenschaft. Methoden angemessene Brauchbarkeit zuerkennen (11)-> im Umgang mit Testpersonen aufklärerisch begegnen: durch Transparentmachung imEinzelfall (12)

Kritik v.a. in 70er Jahren herrschte Verunsicherung über Wert der psychologischen DiagnostikKritik gegen ursprüngliche Intention:- Galton meinte, die geistige Leistung sei erbbestimmt und sozialer Rang stelle sich nachgenetischem Potential ein; half als erster Testkonstrukteur damit die Herrschaft Englandsbetreffend der Kolonialpolitik zu legitimieren (12)- Binet "sonderte" mit seinen Tests "schwachsinnige" Kinder aus, Ziel war optimierung undintensivierung der schulischen ausbildung, da akuter Mangel an qualifizierten Arbeitskräftenvorlag; dadurch wurde legitimiert, dass nicht alle den gleichen Zugang zu allenBildungsinstitutionen hatten (13)- Münsterbergs Versuche Eignungen für bestimmte Tätigkeiten in Schule und Beruffestzustellen, um "Mann und Werk" anzugleichen (würg...); bedeutet Pragmatismus derNützlichkeit menschlicher Tätigkeiten in Verbindung zu Gewinnerbringung sieht (13)Kritik gegen Selektion:Zweck wird oft von außen bestimmt, von AuftraggeberIn und nicht von TesterIn oderGetesteter-> damit dienen Tests der Stabilität der Gesellschaft, definiert was "normal " ist und wasbehandlungsbedürftig (13)Kritik an Beschränkung der Autonomie:da oft im Auftrag dritter, ist es nicht getestete Person selbst die Schlussfolgerungen ausErgebnissen zieht -> diese Einschränkung der Autonomie in überindividuellem Interessebedarf der Rechtfertigung durch interindividuellen Konsens (13)Laut Wottawa angeblich Trend von Gleichheit hin zu Leistung, wechselnd alle 60 JahreDiagnostik wichtig bei Sorgerecht, Arbeitsrecht, Verkehrsrecht, forensische Begutachtung,Versicherungsfragen, neurologische Funktionsbeeinträchtigungen (14)

Rechtfertigung Nachfrage allein nach Diagnostik kann bestimmte Arten des Diagnostizierens nichtrechtfertigen; letztlich entscheidet eigene ideologische Positionierung darüber, ob ich einenAuftrag zur Bearbeitung einer gegebenen Fragestellung annehme- Selektion: ist zwar ein wesentlicher Punkt, aber immer mehr Konzepte stellen Interesse derPerson selbst in den Mittelpunkt (Personalentwicklung, förderungsorientierte Diagnostik)-> manche sozioökonomischen Bestrebungen erst durch förderungsorientierte Diagnostikmöglich geworden (kognitive Frühförderung mit Bemühen um Chancengleicheit der Kinderaus unteren Sozialschichten) -> Autonomie wird in Vordergrund gerückt, das Diagnosti. inssubjektbezogene Interesse gesetztzB bei Schule: Gefahr der Ausgrenzung durch Diagnostik gegeben, Aufgabe derDiagnostikerin, das zu verhindern; Anwendung guter Verfahren, um sowohl gegenwärtigenGrad an Fähigkiten, aber auch Potential bei optimaler Förderung festzustellen (16)

Personalentwicklung MitarbeiterInnen mittels fundierter Diagnose, die Chance zur Weiterbildung und zurPersönlichkeitsentwicklung zu geben (15)praktische Zielsetzung ist oft die Verbesserung der aufgaben- und tätigkeitsbezogenenfachlichen Qualifikation des Personals, aber auch andere Kompetenzen darüber hinaus wieKreativität, soziale Kompetenzen und Teamentwicklung (15)-> Verweigerung an Teilnahme führt oft zu Verringerung der KandidatInnen, daher sollteBeratung auch bei letztlich nicht ausgewählten TeilnehmerInnen erfolgen um, das Image zuverbessern (nicht Selektion, sondern "Personalentwicklung")

förderungsorientierteDiagnostik

Pädagogische Psychologie, ist so angelegt, dass mit der Diagnose mögliche Fördermaßnahmenunmittelbar aufgezeigt werden (15)

Unter/Überforderung auch Unterforderung kann sich negativ auf Entwicklung auswirken; Lernfähigkeit testen, aberauch das Ausmaß der bisherigen Förderung, Ergebnisse wenn nötig schichtspezifischrelativieren (16)

Selektionsdiagnostik in derArbeitswelt

spielt große Rolle, da eben Unterschiede zwischen Menschen bestehen, die Einschätzungendieser Kompetenzunterschiede oft ausschlaggebend für personelle Wahlentscheidungen sind;diese so oder so getroffen werden müssen, PsychologInnen können also diese ohnehinnotwendigen Entscheidungen sachgerechter vornehmen, und Subjektivität und Willkürreduzieren (17)

Teilleistungsstörungen Theorie von Alexander R.Luria, dass zur Bewerkstelligung komplexer psychischer Funktionen

Page 4: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

wie Gedächtnis, Wahrnehmung, Lernen, Intelligenz, Sprache oder Willkürbewegung eines gutkoordiniertes Systems von Teilleistungsfähigkeiten bedarf; diese beruhen auf basalenneurologischen Funktionstüchtigkeit-> auch eine einzelne herausgelöste Funktionstüchtigkeitsstörung kann die komplexeFunktionen beeinträchtigen oder unmöglich machen; häufig Probleme bei Lesen, Schreibenund Rechnen-> beeinflussen Leistungsmotivation des Kindes negativ, kann zu Konzentrationsstörungenund Verhaltensauffälligkeiten führen (18)-> spezielle Tests notwendig, herkömmliche Intelligenztests gehen meist von komplexenAnforderungen aus und stellen nur allgemeines Fähigkeitsniveau fest-> diagnostizierte Schwäche kann bei ausreichender Intelligenz relativ schnell durchFörderung egalisiert werden (19)es lässt sich grob zwischen den Teilleistungsbereichen Motorik, Wahrnehmung und Spracheunterschieden; jede dieser sog. "Modalitäten" interessiert in Bezug auf Diffenzierungs- undGliederungsfähigkeit, Speicherfähigkeit, Serialität und der intermodale Transfer (19)Wahrnehmung und Sprache sind sowohl auf visuelle als auch akustische Info-Verarbeitunggerichtet, Motorik und Wahrnehmung sowohl auf visuelle als auch taktil-kinästhetische

im Zuge einer förderungsorientierten Diagnostik sind Teilleistungsstörungen nur mit geeichterTestbatterie zu entdecken; erkennen wir für ein Kind, dass es im Vergleich zurReferenzpopulation in einem Untertest ein Tief hat und in allen anderen durchschnittliche oderüberdurchschnittliche Leistungen, dann ist damit eine unmittelbar verwertbare Diagnosegewonnen (und nur dann!); zB AID 2

Schnelligkeit Laut Sternberg ist der beste Prädikator für Intelligenzleistungen die Zeit, die für Vorbereitung,Kontrolle und Ausführung der erkannten Lösung verwendet wird (20)

Psychotest Kritik an Psychotests:oft nicht reflektiert, was gemessen wird, ob von einer Eigenschaft gesprochen werden kann;Relevanz oft nicht reflektiert;polemische Antwortvorgaben, mangelnde Ausschließlichkeit der Antwortvorgaben;Punktwerte bei Antworten nicht vergleichbar, willkürlich verteilt; (21,22)

Gruppenverfahren können von einer einzigen Testleiterin (ev mit Hilfspersonal) mehreren Personen gleichzeitigvorgegeben werden (22); Einzelvorgabe ist natürlich auch möglich- erlauben weit weniger Interaktion, daher weniger anfällig für Tl-Effekte => bessereTestleiterInnenunabhängigkeit- meist im Multiple-Choice-Format vorgegeben, daher gelten sie als verrechnungssicher (42)

Individualverfahren erfordern pro Testperson eine eigene Testleiterin (22)gerade Individualverfahren sind anfällig für Tl-Effekte; situationsabhängiges Eingehen auf dieTp ist unumgänglich, aber oft auch gewünscht (siehe AID2) (37)- oft freie Beantwortung (Problem mit Verrechnung bei teilrichtigen Antworten) (40)- insgesamt weniger verrechnungssicher als zb MC-Format, dafür viel aufschlussreicher (42)

Papier-Bleistift-Tests werden ohne jede technische Unterstützung vorgegeben (22)Computerverfahren Computer zur Testvorgabe verwendet, begründen teilweise neues Genre psychologisch-

diagnostischer Verfahren (23)- geringer Tl-Effekt, ev. möglich, je nachdem mit welchen Worten eingewiesen und an PCgesetzt (39)- muss nicht objektiv im Sinne von fair sein, da manche Tpn das Medium PC manche mehrbeeindruckt als andere (pos wie neg) (39)- Auswertungsfehler werden vermieden, sind definitionsgemäß immer verrechnungssicher (42)

Personengruppen wichtig zwischen Kindern und Erwachsenen zu unterscheidenbei Kindern ist Testverhalten oft unbeeinflusst von Konsequenzen, kann zB hohe Neigung zurNeugier genutzt werden;Erwachsene haben wesentlich andere Leistung, wenn sie sich einen Vorteil erwarten;zB. fehlt es Klein- und Vorschulkindern am objektiven Aufgabenbewusstsein, dh. ihrVerhalten bei Leistungsanforderung hängt stark von emotionalen Bezügen ab;Aber auch Alte, Jugendliche, PatientInnen neurologischer bzw psychiatrischer Institutionenliefern verschiedene Themen und erfordern besondere Verfahren, gegebenenfalls extrageschulte Interaktionsstrategien seitens der UntersucherinPersonen mit anderer Muttersprache als DeutschManagerInnen wollen sich oft nicht herkömmlich testen lassenunterscheiden, ob Personen freiwillig kommen, oder unter emotionalem Druck oder gesetzlichverpflichtetPersonen die herkömmlich getestet wurden gegenüber solchen die sich selbst übers Internetgetestet haben (Self-Assessment) (23)

Self-Assessment Person testet sich selbst (oft übers Internet) und absolviert den diagnostischen Prozesseigenverantwortlich und fachpsychologisch unkontrolliert, was Maßnahmen betrifft nicht

Page 5: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

individuell beraten (23)Grundsätze ähnlich hippokratischem Eid könnte subjektbezogenes Interesse als Maxime gelten, manchmal

sprechen aber Gründe dagegen (PilotInnen, VerbrecherInnen); außerdem ist psychologischesDiagnostizieren nicht nur einer Berufsgruppe vorbehalten (wie bei der Medizin)-> daher Reglementierungen zum KonsumentInnenschutz nötig (Garantie fachgemäßpsychologisch begutachtet zu werden) (24)- grundgesetzlich verankerte Rechte, die "Würde des Menschen" betreffend- gesetzliche Einzelregelungen (thematischer oder "hoheitsgebitlicher" Art- berufsordnungsmäßig festgelegte ethische Verpflichtungen im Rang von Vereinssatzungenbzw. Qualitätsstandards von Normungsinstituten- fachautorisierte Appelleaber: je konkreter und strenger die Anforderungen seitens der 4 Quellen sind, umso wenigerverbindlich=> trotzdem nicht zu unterschätzen, berufsethische Grundsätze können Ausdruck einerStandesüberzeugung sein, die auch von der Allgemeinheit geteilt wird und deren Verletzungallgemein als Verstoß gegen das Anstandsgefühl gesehen wird (25)

3 Reglementierungen:österreichisches PsychologInnengesetz, Berufsordnung des BDP und DIN 33430 (25)

DIN 33430 DIN 33430 regelt konkret die Anforderungen an Verfahren und deren Einsatz beiberufsbezogenen Eignungsbeurteilung, wobei sie sich in wesentlichen Teilen auf die bereitsangesprochenen Gütekriterien bezieht (25)DIN-Normen haben eine besondere Bedeutung, weil die/der GesetzgeberIn im gegebenen Fallexplizit darauf hinweist (25)sie repräsentiert die Minimalerfordernisse an die Qualifikation zum psychologischenDiagnostizieren (30)Die DIN 33430 ist Teil der ÖNORM D 4000 (25)bzgl Ziele, Qualitätskriterien und rechtlicher Verbindlichkeit siehe 28,29Auszug: Gültigkeit der eingesetzten Verfahren muss empirisch nachgewiesen sein; passendeNormwerte; alle 8 Jahre überprüft die Normwerte; (28)

=> Din 33430 hat für deutschsprachigen Raum endgültig geklärt, dass eine Beschränkungpsycholog. Diagnostizierens auf eine bestimmte (oder mehrere bestimmte) Berufsgruppe (n)nicht bei allen Fragestellungen realistisch/vertretbar ist. Es geht eher um die Garantie derfachlichen Qualifikation der BegutachterIn (kann weniger, genau oder mehr als einPsychologiestudium sein)

ÖNORM D 4000 regelt Anforderungen an Prozesse und Methoden in der Personalauswahl undPersonalentwicklung.Im entsprechenden Entwurf lautet der Abschnitt "Analyse und Eignungsbeurteilung": "Esgelten die Anforderungen der DIN 33430 sowie die ergänzenden Anforderungen des AnhangsA.", damit wird DIN 33430 Teil einer Norm des Österreichischen Normungsinstituts (25)

PsychologInnengesetz setzt berufsständische ethische Richtlinien fest (25)für Klinische und GesundheitspsychologInnensiehe Seite 26

Berufsordnung des BDP setzt berufsständische ethische Richtlinien fest (25)siehe Seite 26,27

Schweigepflicht laut Berufsordnung des BDP:bei Begründung eines Dienstverhältnisses darauf hinweisenbesteht gegenüber Familienangehörigen, KollegInnen, Vorgesetzten (27)jedoch: gesetzlich ist ein Zeugnisverweigerungsrecht auf Grund des Berufsgeheimnisses fürPsychologInnen nicht vorgesehen! wird zwar als auslegbar/ableitbar angesehen, aber daraufkann sich PsychologIn nicht verlassen (28)

Fachautorisierte Appelle zb von Haubl "PsychologIn soll nur dann Untersuchung durchführen, wenn sie an Stelle derKlientIn ebenfalls zustimmen würde"weitere siehe 30,31

Gütekriterien Hauptgütekriterien: Objektivität, Reliabilität, ValiditätNebengütekriterien: Normierung, Ökonomie, Nützlichkeitvom Testkuratorium der Föderation Deutscher PsychologInnenvereinigungen: Zumutbarkeit,(Un-) Verfälschbarkeit, FairnessKubinger: Skalierung=> beziehen sich nicht nur auf Tests, sondern eig auf alle psychologisch-diagnostischenVerfahren (exklusiv auf Tests sind nur Normierung und Skalierung bezogen)(33)

Akzeptanz (114) vom Testkuratorium als Gütekriterium bezeichnetTestkennwert ist diejenige vorschriftsmäßig zu verrechnende Größe, welche die mit dem Test zu messen

Page 6: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

beabsichtigte Eigenschaft operationalisiert (im statistischen Sinn: eine Variable) (34)Bsp wäre der IQ

Testwert ist das ganz bestimmte numerisches Ergebnis des Testkennwerts (konkrete Realisation einerVariable) (34)auch (Roh-) Score oder Rohwert; Gleichsetzung von Testwert (Bezeichnung trifft aufnormierte und nicht normierte Testergebnisse zu) und Score nur angebracht, wenn es sich beimgegebenen Testergebnis um die Anzahl gelöster Aufgaben handelt"Rohwert" ist allgemeiner zu fassen, nicht auf normierte Ergebnisse beschränkt (34)

(Test-) Handbuch auch Manual, Handanweisung; ist die TestleiterInnenanweisung samt Darstellung der (test-)theoretischen Fundierung des Verfahrens (34)

Item Name für die einzelnen Aufgaben, Fragen bzw Statements (34)Testbatterie besteht aus mehreren Untertests bzw Subtests; "Fragebogenbatterie" als Bezeichnung ist

unüblich (34)Objektivität Unter Objektivität eines Tests ist zu verstehen, dass die mit ihm gewonnenen Ergebnisse

unabhängig von der UntersucherIn sind. (34)=> Test kann mehr oder weniger obj. sein, also Grad der Objektivität wichtigobjektiv, wenn mehrere UntersucherInnen, TestleiterInnen bei der selben Testperson zumselben Ergebnis kommen=> rein theoretische Überlegung, da meist Testwiederholungen nicht unter denselbenBedingungen erfolgen können (zB Übungseffekt)Es geht nicht nur um numerische Ergebnisse, sondern auch um Objektivität der Interpretationeines Testwerts: Durchführungs (TestleiterInnenunabhängigkeit)-, Auswertungs(Verrechnungssicherheit)- und Interpretationsobjektivität (Interpretationseindeutigkeit)=> Testung, Auswertung und Interpretation können von jeweils anderen Personen geleistetwerden! (35)

TestleiterInnenunabhängigkeit auch Durchführungsobjektivität (ist weiter gefasst, da auch auf die räumlichen,zeitlichenergonomischen Bedingungen abzielt)aber: es geht darum, dass Testverhalten der Tp (und damit das Ergebnis) vonVerhaltensvariationen der Tl während der Testdurchführung unabhängig ist=> dafür muss Instruktion an UntersucherIn so genau wie möglich festgelegt werden,Untersuchungssituation möglichst standardisiert werden (meist heißt das, die sozialeInteraktion auf ein unumgängliches Minimum reduzieren)-> Problem: Erwartungen von seiten der UntersucherIn, "Halo"-Effekt; es kommt zuunwissentlichen Verstärkungen (meist durch nonverbale Kommunkation) (35)- besonders während Instruktionsphase, aber auch als Reaktion auf Verhalten der Tp ist alsomit Tl-Effekten zu rechnen (37)- gerade Individualverfahren sind anfällig; situationsabhängiges Eingehen auf die Tp istunumgänglich, aber oft auch gewünscht (siehe AID2)- Gruppenverfahren erlauben weit weniger Interaktion;- ganz ausschalten geht nur bei Computerdiagnostik, aber auch hier Tl-Effekt möglich, jenachdem mit welchen Worten eingewiesen und an PC gesetzt- besonders problematisch: Assessmentcenter (39)

"Halo"-Effekt Beurteilende Person hat die Tendenz sich bei Beurteilung einer Persönlichkeitseigenschaftvom Gesamteindruck oder einer hervorstechenden Eigenschaft leiten zu lassen (36)

Nonverbale Kommunikation Körperbewegungen bzw kinästetisches Verhalten (Gestik usw.), Paralinguistische Qualitäten(Töne, Laute), Proxemics (Abstand gegenüber anderen) (36)

Verrechnungssicherheit (auch Auswertungsobjektivität) die Reglementierung im Manual, wie die einzelnenTestleistungen bzw. Reaktionen auf Items zu numerischen oder kategorialen Testwerten zuverrechnen sind, soll derart exakt festgelegt sein, dass jede AuswerterIn zu denselbenErgebnissen kommt (39)- am ehesten gegeben, wenn nur richtig oder falsch, doch auch hier nicht immer eindeutig (wieviele beine hat ein hund? aus aid2)- doch bei freier Beantwortung (wie bei meisten Individualverfahren) oft teilrichtigeAntworten -> muss dann trotzdem oft als falsch oder richtig kategorisiert werden (in dem Falldann besser nachfragen zb beim Aid2)- wenn auch Verrechnung für teilrichtige Antworten vorgesehen ist, dann ist oft dieAuswerterIn noch unsicherer bezgl der vergebenden Testwerte

=> weiteres Problem: sprachliche Inkompetenz der TestautorInnen: warum – aus welchemgrund, wozu zu welchem zweck; "Warum muss man Steuern zahlen" -> wegen gesetz wärefalsche antwort, Test will wissen "wozu" (41)

Multiple-Choice: Verrechnungssicherheit ist gegeben, unterschiedliche Ergebnisse wären nurauf Auswertungsfehler zurückzuführen (41)-> viele Gruppenverfahren in MC-Format und daher verrechnungssicher

Page 7: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

-> Individualverfahren oft mit aufschlussreicherem freien Antwortformat, folglich wenigerverrechnugnssicher (42)

Projektive Verfahren Gruppe von psychologische Techniken und Vorgehensweisen, die für sich in Anspruchnehmen, die zugrundeliegende, verborgene Persönlichkeitsstruktur und die Motive einesIndividuums aufzudecken, indem sie es auffordern, sich mit Material oder Stimuli auseinanderzusetzen oder auf sie zu reagieren in einer freien, nicht festgelegten Weise (39)Projektion um 1900: wurde als die Tendenz betrachtet, einer anderen Person eigene Gefühle,Gedanken und Einstellungen zuzuschreiben oder in gewisser Weise die äußere Wirklichkeitals Repräsentanz solcher Gefühle zu betrachten (39)

sind nicht interpretationseindeutig; da regelmäßig an tiefenpsychologischen Theorienorientiert, obliegt es der theoriegeleiteten, dennoch subjektiven Deutung und Bewertung derTestreaktionen in Bezug auf den gesamten Kontext der Tp-Umwelt, zu welcher Interpretationdie Tl schließlich gelangt. (44)

frage der Zumutbarkeit wegen fehlender Augenscheinvalidität (113)

ihnen kann Undurchschaubarkeit der Messintention attestiert werden, im Sinne derUnverfälschbarkeit (118)

Multiple Choice Verfahren "Mehrfachwahlantwort"; der Person werden pro Item mehrere verschiedenAntwortmöglichkeiten angeboten, aus denen sie die passende auswählen soll.- im Gegensatz zu Leistungstests gibt es bei Persönlichkeitsfragebogen keine richtigen undfalschen Antworten, sondern nur solche die der Tp am ehesten entsprechen (41)Verrechnungssicherheit ist gegeben, unterschiedliche Ergebnisse wären nur aufAuswertungsfehler zurückzuführen (41)

Berücksichtigung des bloßen Ratens siehe 3-PL Modell gemäße Birnbaummodelle (101)bzw. "Rasch-Modell" mit Rateparameter (101)

tiefgelerntes Prüfen ist nicht abprüfbar (mtischrift)Auswertungsfehler Untersuchung von Hebenstreit (2000) siehe S. 41

AID – 184 Bögen kontrolliert, nur 2 fehlerfrei, ohne Interpolationsfehler und Folgefehler nurca. 18 % richtigd2 – 107, nur 30% fehlerfreiZVT – 73, sehr einfache AUswertung, trotzdem nur 84% komplett richtig ausgewertet

=> für die Praxis bedeutet das, dass auf jeden Fall der computerisierten Auswertung derVorzug zu geben ist

Interpretationseindeutigkeit auch "Interpretationsobjektivität"; ist gegeben, wenn aus denselben Auswertungsergebnissenverschieden "InterpretInnen" zum selben Schluss gelangen;bei normierten Tests über die Prozentränge jedes Mal gegeben: zB ein erreichter Prozentrangvon 95% in einem Leistungstest ist dahingehend zu interpretieren, dass nur 5% derReferenzpopulation bessere Leistungen erzielen (43)Klassifikation ist eindeutig (siehe ICD 10), aber bringt nichts für Maßnahmenvorschläge (43)

Projektive Verfahren sind nicht interpretationseindeutig; obliegt der theoriegeleiteten, dennochsubjektiven Deutung und Bewertung der Testreaktionen (44)

- gegebene Interpretationseindeutigkeit gewährleistet allerdings nicht zwingend Objektivitätder diagnostischen Konsequenzen, wäre psychologisch selten verantwortbar (zB früher mit IQunter 85 auf jeden Fall in Sonderschule)

mit Hilfe computerisierter diagnostischer ExpertInnensysteme kannKonsequenzverbindlichkeit erreicht werden (44,45)

Kriteriumsorientierte Diagnostik: ist interpretationseindeutig und konsequenzverbindlich (45)Klassifikation zB mit ICD-10 oder DSM4; Klassifikationen dienen dazu, durch einheitlich geregelten

Sprachgebrauch zu garantieren, dass bestimmte relevant erscheinende Informationen eindeutigkommunizierbar sind. (43)

Beispiel Intelligenzminderung: Umsetzung des Auswertungsergebnisses (IQ) in eine fachlichallgemein bekannte Begrifflichkeit ist vollkommen gegeben, allerdings ist mit einem solchenÜbersetzungswerk allein nichts für die Fallbehandlung gewonnen (43)Psychologisches Diagnostizieren verlangt immer nach dem Festsetzen einer Intervention,zumindest Maßnahmenvorschlag

Page 8: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

ICD 10 zur KlassifikationKonsequenzverbindlichkeit "Objektivität der diagnostischen Konsequenzen"; ist selten psychologisch verantwortbar; zB

fürher Kinder mit IQ unter 85 auf jeden Fall in die Sonderschule; heute wird so eineEntscheidung von den besonderen Umständen abhängig gemacht (44)

kann mit Hilfe computerisierter diagnostischer ExpertInnensysteme erreicht werden:Begutachtung wird durch die Testergebnisse determiniert, erfolgt automatisiert (44,45)

KriteriumsorientierteDiagnostik

sie gestaltet Tests interpretationseindeutig und konsequenzverbindlich: wer eine bestimmteLeistungsanforderung erfüllt, wird in wohl definierter Weise als qualifiziert bezeichnet (45)

Reliabilität Die Reliabilität eines Tests beschreibt den Grad der Genauigkeit, mit dem er ein bestimmtesPersönlichkeitsmerkmal misst, gleichgültig, ob er dieses Merkmal auch zu messenbeansprucht; (45)es geht nur um die formale Exaktheit der Merkmalserfassung, Zuverlässigkeit mit der dasErgebnis richtig ist;=> "Messgenauigkeit" eines Tests: unabhängig davon was gemessen wird, sollten die untergleichen Bedingungen gewonnenen Testwerte derselben Tp übereinstimmen; (46)- schwer haltbar für Psychologische Diagnostik wegen Übungs- und Erinnerungseffekten;Testwiederholung ist psychologisch zumeist nicht vertretbar- bei physikalischen Messungen sind Wiederholungen unproblematisch (zB Fieber) (46)

Klassische Testtheorie hat daher folgende Auswege gesucht:Paralleltest-Reliabilität, Retest-Reliabilität und innere Konsistenz (46)

die Reliabilitäts-Maße haben sich als Gütekriterien per se etabliert: "Ein für die Praxisgeeignetes Verfahren weit Werte um 0,9 oder darüber auf. Falls die angegebenen Werteniedriger sind oder ganz fehlen, sollte auf den Einsatz des Verfahrens verzichtet werden" (49)

- eine ansprechende Reliabilität ist eine notwendige aber nicht hinreichende Bedingung füreinen brauchbaren Test (Validität ist das wichtigste) (50)

außerdem kann mit der Reliabilität der Standardmessfehler berechnet werden und mit ihm dasKonfidenzintervall, in dem der wahre Wert der Person liegen wird (49)

Probabilistische Testtheorie:Die probabilistische Testtheorie kommt grundsätzlich ohne das Konzept der Reliabilität aus,

der Begriff "reliablility" wird verwendet für die Korrelation zwischen ξv (im Zuge vonSimulationsstudien als bekannt vorausgesetzten) Parametern und deren (anhand desinteressierenden Tests gewonnenen) Schätzungen (92)

Insbesondere nicht notwendig die innere Konsistenz zu berechnen: indem sich die Items aufGrund des entsprechenden Modelltests als modellkonform erweisen, sind sie als "homogen" zuqualifizieren, dh. sie messen alle dasselbe, und zwar eindimensional=> es genügt also bei dementsprechend konstruierten Tests die Angabe, dass die Reliabilitätim Sinn von innerer Konsistenz infolge der Modellkonformität gegeben ist (Stabilität kannjedoch trotzdem bestimmt werden) (92)

höhere Messgenauigkeit bei klass. Testtheorie nur durch Verlängerung des Tests zu erzielen(siehe Formel s.96)

Paralleltest-Reliabilität Grundidee: Testwiederholung des ursprünglichen Tests zwar nicht möglich, aber jedoch einemit einer völlig gleichwertigen Nachahmung (sog. Paralleltest)- Korrelation zwischen Test und Paralleltest beschreibt das Ausmaß in dem die Relationen derTestwerte der einzelnen Tpn zueinander konstant bleiben;=> im besten Fall wird aber nur Konstanz der Ergebnisrelationen überprüft, nicht aber dieKonstanz der Messung an sich;Haupteinwand gegen diese Methode ist das Problem der Erstellung solcher Paralleltests;Korrelation ist eig nur ein Kriterium für die Qualität des Paralleltests, aber nicht für dieExaktheit der Messungen;=> soll daher die Korrelation als Gütekriterium herangezogen werden, muss an dieBrauchbarkeit des Paralleltests einfach geglaubt werden... (46)Ausnahme: die einzelnen Items werden nur hinsichtlich lösungsirrelevanterGestaltungsmöglichkeiten variiert (zB Matrizentests), da ist es dann allerdings sehrwahrscheinlich, dass individuell verschieden Übungseffekte greifen (47)

(mitschrift) für praxis unbrauchbarParalleltest wird herangezogen um die Paralleltest-Reliabilität zu bestimmen; Konstruktion nach

Page 9: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

klassischer Testtheorie eher schwierig (Ausnahme Matrizenaufgaben), nach probabilistischerTesttheorie jedoch wesentlich einfacher und methodisch eindeutig kontrollierbar (47)

Retest-Reliabilität Idee der kurzfristigen Wiederholung desselben Tests ist unrealistisch; trotzdem regelmäßig zurReliabilitätsbestimmung angeführt;über längeren Zeitraum hinweg liefert die Korrelation zwischen Test und Retest sehr wohlrelevante Informationen; besser: Stabilität (47)Frage, ob es überhaupt situationsüberdauernde Merkmale gibt – Längsschnittsstudien zeigen,dass kognitive Leistungsfähigkeit etwa im Erwachsenenalter über lange Zeit nahezu konstantbleibt, ähnliches gilt für Persönlichkeitseigenschaften und ansatzweise für politischeEinstellungen (48)Bsp AID: Subtest 6 nach einem Monat 0,85 und nach einem Jahr 0,76 -> ist relativ hoch, aberferne Zukunftsschlussfolgerungen mit Vorsicht zu genießen (48)

(mitschrift) ist auch nicht so einfach Personen zu finden, die sich zweimal testen lassenInnere Konsistenz Idee: wie sehr messen einzelne Testteile (Items) das selbe; Items müssen immer innere

Konsistenz zeigen, wenn sie die gleiche Eigenschaft messen sollen (daher auch"Homogenität"); passen die Items nicht zueinander, wird das Testergebnis (v.a. beiiParalleltest und Retest) von Zufälligkeiten besonders stark abhängen, was die Exaktheit derMessung reduziert; (48)bekannteste Methode:Split-half; Test wird in 2 Teile geteilt, korreliert und nach Spearman-Brown aufgewertet (48)weitere Methoden: Cronbach-alpha, Konsistenzanalyse

(mitschrift) ein test misst exakt, wenn alle teile dasselbe messenSplit-Half-Methode zum Feststellen der inneren Konsistenz (Reliabilität);

Items eines Test werden in 2 Teile geteilt, zumeist in solche mit gerade und mit ungeradeItemnummer und die resultierenden Testwerte beider Testteile korreliert;da dieses Ergebnis nur einem Test mit halber Länge entspricht nach Spearman und Brownaufgewertet (Voraussetzung sind gleich große Varianzen) (48,49)

Spearman und Brown Formel zur Aufwertung nach der Split-Half-Methode

Voraussetzung ist die Gleichheit der Varianzen in den Testteilen- wenn in einem Manual von Split-Half-Reliabilität gesprochen wird, kann ich davonausgehen, dass nach Spearman/Brown korrigiert wurde (48,49)

Cronbach-Alpha zum feststellen der inneren Konsistenz (Reliabilität); stellt bloß eine Abschätzung der unterenGrenze der Reliabilität dar; keine Voraussetzungen im Sinne gleicher Varianzen

s2 ist die Varianz des Gesamttests, s1^2 und s2^2 ie Varianzen der beiden Testteile (49)Konsistenzanalyse zur Feststellung der inneren Konsistenz (Reliabilität); Test wird in so viele Teile zerlegt, wie

er Items hat;bekannteste Formal dazu ist die Kuder-Richardson-Formel 20

pi ist die geschätzte Lösungswahrscheinlichkeit von Item i, i = 1,2,...,k (49)- gilt nur für dichotom zu verrechnende Items (ja/nein, richtig/falsch) und setzt (unrealistischerWeise) voraus, dass sämtliche Interkorrelationen gleich sind; ist diese letzte Voraussetzungnicht erfüllt, liegt wieder bloß eine Abschätzung der Reliabilität vor (49)

Kuder-Richardson-Formel 20 siehe Konsistenzanalyse (49)Standardmessfehler SMF ergibt sich aus der jeweiligen Reliabilität, mit ihm kann pro Tp v mit Testwert xv das

Konfidenzintervall berechnet werden, innerhalb dessen ihr wahrer, dh. messfehlerbereinigterTestwert Tv liegen wird (und zwar bei festgelegter Irrtumswahrscheinlichkeit ) (49)

Page 10: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

Achtung: falls der SMF in einem Manual überhaupt publiziert wird, verleitet er dazu ihnunmittelbar als (halbe) Messungenauigkeit zu interpretieren, ist natürlich falsch und würdebedeuten, dass z gleich 1 gesetzt würde, was eine Irrtumswahrscheinlichkeit von ca. 0,33ausmachen würde (50)

zeigt auch, dass bei hochreliablen Tests ebenfalls mit relativ großer Messungenauigkeitgerechnet werden muss (50)

bei = 0,05 % wäre z = 1,96 (NACHPRÜFEN)

Zu bemängeln an der klassischen Testtheorie: für den aus der Reliabiliät ableitbarenStandardmessfehler wie er an einer (vielleicht sogar repräsentativen) Stichprobe gewonnenwurde, ist schwerlich zu argumentieren, dass er für jede beliebige, zum Beispiel geistigbehinderte Tp, gelten soll (84)

Konfidenzintervall innerhalb dessen liegt der wahre, dh. messfehlerbereinigte Testwert Tv einer Tp v (und zwarbei festgelegter Irrtumswahrscheinlichkeit ) (49)

Standardmessfehler, ergibt sich aus Reliabilität

Konfidenzintervall

Rechenbeispiel Buch Seite 50

Unterschiede zwischen Testwerten sind signifikant, wenn sich die Konfidenzintervalle nichtüberschneiden (70,71)- gar nicht, also zB "Unterschied" zwischen IQ=100 und IQ=101 erst gerechtfertigt, wenn KIvon 100 höchstens bis 100,5 (aber nicht ganz!!) und das von 101 den Minimalwert von 100,5nicht erreicht/unterschreitet, die dafür notwendige Reliabilität laut SMF wäre rtt = 0,9996 weil

z SMF = 0,49 sein muss bzw.bei s = 15 laut IQ-Eichmaßstab und z ist 1,64 bei = 5% (70,71)=> sehr unwahrscheinlich so eine Reliabilität, dh. kein Unterschied zwischen 101 und 100

Validität Unter Validität eines Tests ist zu verstehen, dass er tatsächlich jenes Persönlichkeitsmerkmalmisst, welches er zu messen behauptet.- ein Test kann mehr oder weniger valide sein, daher interessiert das Ausmaß;Validität ("Gültigkeit") stellt das wichtigste Gütekriterium dar, gleichzeitig ist es amschwierigsten zu überprüfen;(eine ansprechende Reliabilität ist eine notwendige aber nicht hinreichende Bedingung füreinen brauchbaren Test) (50)es gibt verschiedene Konzepte bzw. Begriffe der Validität:inhaltliche Gültigkeit, Konstruktvalidität, Kriteriumsvalidität und ein neuesValidierungskonzept (50)der Nachweis der Kriteriumsvalidität ist der lediglich argumentierten inhaltlichen Gültigkeitbzw. Konstruktvalidität überlegen – sie liefert eine statistische Kennzahl, die das Ausmaß derValidität absolut zu bestimmen erlaubt (61)

Inhaltliche Gültigkeit Gehört zur Validität; Von inhaltlicher Gültigkeit ist zu sprechen, wenn der Test selbst, quasidefinitionsgemäß, das optimale Kriterium des interessierenden Merkmals darstellt;Beispiel: Schultest – "logische Validität" oder "Arbeitsprobe" – "triviale Validität"-> sind beides Spezialfälle inhaltlicher Gültigkeit- logische Validität kann zB dadurch erreicht werden, dass Items so konstruiert sind, dass nurfestgelegte Regeln zur Lösung führen, diese also beherrscht werden müssen (siehe WMT) (51)

inhaltliche Gültigkeit am besten durch ExpertInnenrating zu erreichen; jedes Item wirdgeprüft, ob es in Bezug auf die gegebene operationale Definition dessen, was der Test messensoll, passt. (Problem: wie erfolgt Qualifikation der ExpertInnen, Tradierung bisherigerAuffassungen) (51)

nicht mit Augenscheinvalidität verwechseln!

kann auch durch "ökologische" Validität erreicht werden; wird der natürlichen Umgebung desMenschen gerecht, daher wohl auch inhaltliche Gültigkeit

Arbeitsprobe zielt auf ein Arbeitsresultat ab, das auf Grundlage einer Arbeitsanweisung oderAufgabenstellung gefordert wird;sind sehr nahe an der späteren Tätigkeit orientiert;Im Vergleich zur "Probearbeit" ist die Auswirkung von Arbeitserfahrung auf das Resultat eher

Page 11: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

gering."Probe" deutet an, dass einerseits Probehandeln verlangt wird, andererseits von den möglichenVerhaltensweisen einer späteren Tätigkeit nur ein stichprobenartig beschriebener Ausschnittgeprüft wird; (51)

ExpertInnen-Rating zum Erreichen inhaltlicher Validität: jedes Item wird geprüft, ob es in Bezug auf die gegebeneoperationale Definition dessen, was der Test messen soll, passt. (Problem: wie erfolgtQualifikation der ExpertInnen, Tradierung bisheriger Auffassungen) (51)

Augenscheinvalidität meint, dass der Tp klar ist, was mit dem Test zu erfassen beabsichtigt ist; sie durchschaut dieMessintention (52)

manchmal günstig: zB bei skeptischen Personen, lassen sich eher testen, wenn sie wissenworums gehtManagerInnen lassen sich ungern testen, es sei denn, es geht um eine Computersimulation, inder Geschicklichkeit im Organisieren verlangt ist (52)

manchmal nachteilig: führt zu Verfälschbarkeit von Persönlichkeitsfragebögen (52)

(mitschrift) hat mit Validität nichts zu tun!! ist kein Gütekriterium, betrifft eher dieZumutbarkeit

ökologische Validität (selten auch "ökologische Repräsentativität"); zielt auf Entsprechung psychologischenDiagnostizierens mit den Anforderungen der "natürlichen" Lebensbedingungen ab;Kritik, dass die übliche Datenerhebung nur labormäßige Ergebnisse liefert-> sollte sich um Beschreibung und Funktionsanalyse des Menschen unter Alltagsbedingungenbemühen, dann hätte das eingesetzte Verfahren wohl auch inhaltliche GültigkeitBsp: systematische Verhaltensbeobachtung, die reales Verhalten erfasst und nicht nur perFragebogen verbal berichten lässt (52,53)

(mitschrift) fraglich zB ob das was beim d2 getestet wird in der praxis irgendwo relevant ist...

(mitschrift) ökologische Validität ist kein GütekriteriumKonstruktvalidität Erfüllt ein Test nicht nur einen pragmatischen Anspruch, sondern gewisse theoretische bzw.

theoriegeleitete Vorstellungen in Bezug auf irgendein sog. "Konstrukt", dann ist ihmKonstruktvalidität zuzusprechen (53)Konstrukte sind allgemein anerkannte, aber nicht direkt beobachtbare Phänomene, wie Angst,Intelligenz, Stress (53)

Zur Konstruktvalidierung eines Tests gibt es mehrere Ansätze:- klassischer Ansatz über die Faktorenanalyse- Ansatz von Campell und Fiske- nicht-korrelative Ansätze (53)

Konstrukt allgemein anerkannte, aber nicht direkt "beobachtbare" Phänomene zB Intelligenz, Angst,Stress...(53)präziser: unter hypothetischen Konstrukten versteht frau "Merkmale, Zustände oder Instanzen,die nicht direkt beobachtbar sind, sondern aufgrund von (Verhaltens-)Beobachtungenerschlossen werden"; (53)

klassischer Ansatz überFaktorenanalyse

zur Konstruktvalidierung eines Tests; (53)

Beispiel: das theoretische Intelligenztestkonzept von Wechsler;obwohl viele widersprüchliche Ausführungen, ist doch verbindlich abzuleiten, dass er mitseinen Testbatterien 2 voneinander unabhängige Intelligenzaspekte erfassen will: verbaleIntelligenz und praktische (Handlungs-) Intelligenz;

Definition nach Wechsler: Intelligenz ist die zusammengesetzte oder globale Fähigkeit desIndividuums, zweckvoll zu handeln, vernünftig zu denken und sich mit seiner Umgebungwirkungsvoll auseinander zu setzen“.Er zielt nur auf die Messung des Produkts der Intelligenz ab.=> Auch Einflüsse nicht unmittelbar intellektueller Natur haben Einfluss: Trieb, Anreiz,Gedächtnis, Fähigkeit zur sozialen Anpassung (details siehe seite 55,56)

mittels Hauptkomponentenanalyse 2 Faktoren mit deutlich größerem Eigenwert als 1, erklären53% der Varianz und separieren ladungsmäßig die Untertests in Handlungs- und Verbalteil(56)

Mittlerweile wird regelmäßig versucht, bei einer Konstruktvalidierung zusätzlich zukonstruktnahen Tests ("konvergente Validität") auch noch konstruktferne Tests

Page 12: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

("diskriminante Validität") in die Faktorenanalyse miteinzubeziehen: lädt der Test im selbenFaktor wie die ihm konstruktnahen Tests und gleichzeitig nicht in Faktoren, welche durch ihmkonstruktferne Tests bestimmt sind, ist die Konstruktvalidierung gelungen (56)

Faktorenanalyse ist eine Methode der multivariaten Statistik zur Identifizierung derjenigen Anzahl und Artunabhängiger Dimensionen (Eigenschaften, traits), sog. Faktoren (Supra-Variablen), die zurErklärung (im statistischen Sinn) einer größeren Anzahl korrelierender Variablen ausreichen;Jede Variable wird als Linearkombination dieser Faktoren aufgefasst;

Grundannahme – die Linearkombination – ist nicht prüfbar! mit ihr gewonnene Ergebnissebleiben immer unverbindlich! (86,87)

die Faktoren sind weder beobachtbar noch inhaltlich eindeutig, sondern ergeben sich aus denLadungen (interpretierbar wie Korrelationen zwischen den ursprünglichen Variablen und denresultierenden Faktoren);mit Hilfe der Hauptkomponentenanalyse gelangt frau iterativ zu diesen Lösungen über dieAuflösung eines Eigenwertproblems-> Bestimmung der Faktoren erfolgt über Eigenwerte, wenn größer als 1 (53,54 + siehe 54 fürdetails)

die konfirmatorische Faktorenanalyse untersucht bloß die Güte der Anpassung der durch dashypothetisierte Modell vorhergesagten Daten an die beobachteten Daten (analog zu denprobabilistischen Birnbaummodellen) (87)

Testbatterien mit dichotom zu verrechnenden Items die auf der Faktorenanalyse beruhen undinsofern je Untertest Eindimensionalität gewährleisten genügen nur vordergründig denAnsprüchen der KTT-> führt stets zu artifiziellen Faktoren! andere Methoden möglich (81)

Intelligenz Definition nach Wechsler " Intelligenz ist die zusammengesetzte oder globale Fähigkeit desIndividuums, zweckvoll zu handeln, vernünftig zu denken und sich mit seiner Umgebungwirkungsvoll auseinander zu setzen" (55)=> Auch Einflüsse nicht unmittelbar intellektueller Natur haben Einfluss: Trieb, Anreiz,Gedächtnis, Fähigkeit zur sozialen Anpassung (55)

einschlägige Modelltests in Bezug auf den AID sprechen gegen den IQ als verrechnungsfairesMaß (91)

-> in vager Anlehnung an Cattell, im Sinne des pragmatischen Ansatzes kann Intelligenz imZusammenhang mit dem AID2 definiert werden als "das Bündel aller kognitivenVoraussetzungen, die notwendig sind, um Wissen zu erwerben und Handlungskompetenzen zuentwickeln – wobei "Kognition" sich bezieht auf "jeden Prozess, durch den das LebewesenKenntnis von einem Objekt erhält oder sich seiner Umwelt bewusst wird...:Wahrnehmung,Erkennen, Vorstellen, Urteilen, Gedächtnis, Lernen, Denken,...Sprache" (184)

konvergente Validität (Konstruktvalidierung) wenn der Test faktorenanalytisch im selben Faktor wie konstruktnaheTests

diskriminante Validität (Konstruktvalidierung) wenn der Test gerade nicht in den Faktoren lädt, welche durch die ihmkonstruktfernen Tests bestimmt sind

Ansatz von Campbell undFiske

zur Konstruktvalidierung;sehen vor, dass nicht nur konstruktnahe und –ferne Tests zusätzlich zum interessierenden Testuntersucht werden, sondern alle Tests auch unter verschiedenen Methoden/Bedingungen=> MTMM-Matrix "Multi-trait-multi-method-Matrix (details siehe Seite 56-59)

Bsp: BBT soll Fähigkeit erfassen Redundanz zu erkennen, konstruktnahe wäre etwa einReasoning-Test, konstruktfern ein Lerntest; und dann jeweils unter 3 Bedingungen, figural,verbal und numerisch (57)

bei publizierten Tests noch sehr selten zu finden; (59)Nicht-korrelative Ansätze zur Konstruktvalidierung;

1.) Analyse interindividueller Unterschiede – zwischen Gruppen, deren Gegenüberstellung ausdem vermeintlichen Kontrukt abgeleitet sind, interessant sind dabei v.a.Extremgruppenvalidierungen (59)2.) Analyse intraindividueller Unterschiede: wird der Test mehrmals vorgegeben, sollten beihabituellen Persönlichkeitsmerkmalen keine Veränderungen in den Testwerten resultieren; beisituationsabhängigen Verhaltensweisen, etwa der Stimmungslage, müssten jedochentsprechend deutliche Unterschiede auftreten. Insbesondere wenn situative Bedingungenexperimentell variiert werden, müssen sich bei einem validen Test deutliche Veränderungenzeigen (60)

Page 13: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

3. durch Selbst- bzw. Fremdbeobachtung kann während der Bearbeitung des Tests,insbesondere des Entscheidungs- bzw. Lösungsprozesses untersucht werden, inwieweit dasintendierte Konstrukt erfasst wird. zB durch "lautes Denken"

Extremgruppenvalidierung zur Konstruktvalidierung auf nicht korrelativer Basis (59)Screening Verfahren zur Selektion von Personen zwecks weiterer Analyse. Insbesondere wird bei einem

sequentiellen Vorgehen die erst Phase einer Grobauslese als S. oder "Siebtestmethode"bezeichnet (60)

lautes Denken Verfahren zur Analyse von Problemlöseprozessen. IM Ggs. zur Selbstbeobachtung...sollen dieProbanden alle, auch ganz flüchtige Einfälle verlautbaren, das Denken selbst wird dagegennicht reflektiert (61)ist generell empfehlenswert bei Testkonstruktion, Person soll alle "inneren Vorgänge",Überlegungen und Einfälle verbalisieren (dabei weniger auf die Testleistung im Sinne rascherBearbeitung achten), um validitätsmindernde Testeigenschaften zu erkennen (zBVerständnisschwierigkeiten v.a. bei der Instruktion, sowie implizite Hypothesen der Tp überdas was gemessen wird, aber auch über Zumutbarkeit, Verfälschbarkeit und Fairness) (61)

Zumutbarkeit durch "lautes Denken" bei Testkonstruktion zu überprüfen (61)Verfälschbarkeit durch "lautes Denken" bei Testkonstruktion zu überprüfen (61)Fairness durch "lautes Denken" bei Testkonstruktion zu überprüfen (61)Kriteriumsvalidität der Nachweis der Kriteriumsvalidität ist der lediglich argumentierten inhaltlichen Gültigkeit

bzw. Konstruktvalidität überlegen – sie liefert eine statistische Kennzahl, die das Ausmaß derValidität absolut zu bestimmen erlaubt (61)=> eine bestimmte als relevant angesehene Variable (sog. Außenkriterium) wird mit deminteressierenden Test korreliert-> Problem: geeignetes Außenkriterium zu finden, das womöglich dann selbst auch nichthundertprozentig messgenau ist (61)2 mögliche Außenkriterien: Übereinstimmungsvalidität oder Vorhersagegültigkeit

ÜbereinsVal: Korrelation mit anderem Test; Problem, entweder schlechtes Außenkriteriumoder kein Bedarf an neuem Test (62)

VorhersVal: auch "prognostische Validität", Korrelation mit einem Kriterium das in derZukunft liegt (zB Prüfungsergebnis)

Außenkriterium zur Messung der Konstruktvalidität=> eine bestimmte als relevant angesehene Variable (sog. Außenkriterium) wird mit deminteressierenden Test korreliert-> Problem: geeignetes Außenkriterium zu finden, das womöglich dann selbst auch nichthundertprozentig messgenau ist (61)

Übereinstimmungsvalidität Kriteriumsvalidität;bezieht sich auf die Korrelation mit einem anderen Test, der (angeblich) dasselbe Konstrukterfasst-> Problem: wenn der andere Test in Bezug auf Gütekriterien mangelhaft ist, dann nichtverwendbar als Außenkriterium; falls er den Gütekriterien entspricht, dann besteht kein Bedarffür neuen Test...(62)

Vorhersagegültigkeit Kriteriumsvalidität; auch "prognostische Validität";bestimmt sich aus Korrelation des Tests mit einem Außenkriterium, das in der Zukunft liegt(zB Prüfungsergebnis); ein bestimmtes später beobachtetes Kriterium soll also vorhergesagtwerdendarf nicht zu weit in der Zukunft liegen, sonst erfolgreiches Prognostizieren sehrunwahrscheinlich: viele biologische, psychosoziale und psychische Bedingungsfaktorenwerden nämlich umso unwahrscheinlicher wirksam und beeinflussen sich wechselseitigzunehmend weniger vorhersehbar, je mehr Zeit verstreicht (62)=> oft wollen die Leute punktuelle Ereignisse die weit in der Zukunft liegen: eine validePrognose auf ein einmaliges Verhalten, welches zwar schwer wiegt, aber allgemein seltenauftritt, ist mit Hilfe psychologischer Tests völlig unrealistisch (62)

Tests zu Personalauswahl können selten prognostisch validiert werden, weil dann entwederalle am Test teilhabenden Personen getestet, genommen und später überprüft werden müsstenoder falls der Test gleich zur Auswahl verwendet wird, ja auch dem Test nach "ungeeignete"Personen aufgenommen werden müssten... (62)

Viele Validierungsversuche einschlägiger Tests bezgl prognostischer Validität sind sehrunbefriedigend; wenig valide Tests sind aber dennoch geeignet, siehe Taylor-Russel-Tafeln;sind Zufallsentscheidungen v.a. dann überlegen, wenn die Selektionsquote niedrig ist und einemittel hohe Grundrate vorhanden ist (63)

Page 14: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

Bessere Prognosen erzielt frau mit nicht nur einem einzigen Test sondern mit mehrerengleichzeitig, dann ist die Validität der Testbatterie als Gesamtpaket entscheidend. Jedoch stelltsich die Frage der Gewichtung der einzelnen Testkennwerte zueinander. (63,64)

Prognostische Validität siehe "Vorhersagegültigkeit"Taylor-Russel-Tafeln (mitschrift) gehen davon aus, dass test zur selektion genützt werden

auch wenig prognostisch valide Tests sind für praktische Zwecke geeignet;abhängig von Grundrate, Selektionsquote und Validität kann berechnet werden, wie vielegeeignete unter den selektierten zu finden sein werden (63)siehe auch "Vorhersagegültigkeit"

-> zeigt auch Nützlichkeit eines Tests: ein Test mit einer Validität von 0,35 bei einer mittlerenGrundrate und niedriger Selektionsquote ist bei wiederholtem Vorgehen insofern von Nutzen,als der Prozentsatz selektierter Geeigneter höher ist, als bei Zufallsentscheidungen;im Einzelfall jedoch kann die Anwendung des Tests hohe Kosten verursachen, die daraufberuhende Entscheidung aber falsch sein (108)

Selektionsquote Anteil der aufzunehmenden BewerberInnen im Verhältnis zur BewerberInnenzahl (63)Taylor-Russel-Tafeln bzw. Vorhersagegültigkeit (63)

Grundrate Anteil der potentiell Geeigneten in der unausgelesenen BewerberInnenpopulation (63)Taylor-Russel-Tafeln bzw. Vorhersagegültigkeit (63)

Neues Validierungskonzept zur Bestimmung der Validität;wenn ein Test valide sein soll, dann muss er mit seiner Diagnose zumindest zwischen 2Gruppen unterscheiden können; in moderner Differentialdiagnostik sogar eher mehr Gruppen;gibt es ein bewährtes differentielles (Förderungs-)Programm so sollte es nur bei der GruppeErfolg zeigen, wofür es gedacht ist; Wenn nicht, dann ist der Test nicht valide

Normierung Ein Test erfüllt das Gütekriterium Normierung, wenn für sein Bezugssystem zur Relativierungdes individuellen Testergebnisses (die sog. "Normen") folgende Bedingungen gegeben sind:- Normen sind gültig und nicht veraltet- Population, für die die Normen gelten, ist definiert- die für die Erstellung der Normen herangezogene Stichprobe ist repräsentativ (64)auch "Eichung", "Standardisierung" (hat nichts mit "Normierung im Sinne der DIN-Norm33430 zu tun!) (65)Normen sind meist (Eich-) Tabellen (65)

Nebengütekriterium, weil erst Hauptgütekriterien und insbesondere das Gütekriterium derSkalierung gelten müssen, bevor über Normierung diskutiert werden kann=> außerdem oft "normorientierte" Diagnostik nicht nötig, oft wichtiger "kriteriumsorientierte"Diagnostik (65)

Normorientierte Diagnostik: Eichung wichtig, dabei geht es um statistische Techniken, mitdenen Testwerte in Bezug auf die fragliche Population relativiert werden (65)" Eichen im Sinn von Relativieren " (65)"Eichung im Sinn von Repräsentativerhebung" (72)

Normorientierte Diagnostik " Eichen im Sinn von Relativieren " (65)"Eichung im Sinn von Repräsentativerhebung" (72)

"soziale Bezugsnorm "– normorientiert; Referenzpopulation stellt soziale Bezugsnorm dar (76)Eichen im Sinn vonRelativieren

Gütekriterium "Normierung";wenn von einer Normalverteilung der Testwerte in der zugrundeliegenden Eichstichprobeausgegangen werden kann, ist jede lineare Transformation statistisch gerechtfertigt;

X...Testkennwert , x-strich....Mittelwert der Eichstichprobe (!),s...Standardabweichung der Eichstichprobe, z...standardnormalverteilte Variable (66)

z kann die relative Position der Person hinsichtlich der Referenzpopulation beschreiben:neg z-Werte sind unterdurchschnittlich, pos überdurchschnittlich, Populationsmittelwert ( )nun gleich 0 und Populationsstandardabweichung ( )gleich 1 (66)

Wechsler führt "Wertpunkte" ein:

ist eine willkürliche Transformation, entspricht dem Festlegen ("Eichen" im Sinn vonRelativieren) des Maßstabs samt Null- und Bezugspunkt: Mittelwert in der Population von =

Page 15: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

10 und = 3 (66)

wichtig: wird eine Variable X derart linear transformiert: X* = aX + b,

so folgt für den Mittelwert von X*: = a + bund für die Varianz von X*: s2 (X*) = a2 s2 (X)

Wechslers Definition des IQ (66)

Details zum berechnen siehe 67,68

Da laut Standardnormalverteilungstabelle z-Werte außerhalb –3 z +3 sehrunwahrscheinlich sind ( beidseitig also zusammengerechnet 0,27 %) kann leicht der "praktischrealisierbare Wertebereich" der Eichmaßstäbe berechnet und angegeben werden (68)

z-Werte z –3 z +3Wertpunkte W W = z 3 + 10 1 W 19Intelligenzquotient IQ IQ = z 15 + 100 55 IQ 145Standardwerte SW, Z Z = z 10 + 100 70 Z 130Centil-Werte C C = z 2 + 5 -1 C 11Stanine Werte ("standard nine" S S = C, mit

S = 1 für C 1S = 9 für C 9

1 C 9

Sten-Werte ("standard ten") St St = z 2 + 5,5 in 98% aller Fälle:1 St 10

T-Werte T T = z 10 + 50 20 T 80

Ein weiterer Eichmaßstab ist der sog. Prozentrang; er gibt an wie viele Personen in derReferenzpopulation (denselben oder) einen niedrigeren Testwert erreichen (69)

=> die aus der Standardnormalverteilung abgeleiteten Prozentränge entstammen als einzigerEichmaßstab nicht einer linearen Transformation (69)

Im Manual sind dann für die Testwerte entsprechende Eintabellen vorhanden, manchmal auchNomogramme (71)

Unterschiede zwischen Testwerten sind signifikant, wenn sich die Konfidenzintervalle nichtüberschneiden (gar nicht, also zB "Unterschied" zwischen IQ=100 und IQ=101 erstgerechtfertigt, wenn KI von 100 höchstens bis 100,5 (aber nicht ganz!!) und das von 101 denMinimalwert von 100,5 nicht erreicht/unterschreitet, die dafür notwendige Reliabilität lautSMF wäre rtt = 0,9996, was sehr unrealistisch ist, daher kein Unterschied) (70,71)

z Standardnormalverteilte Variable, Mittelwert ist 0, Standardabweichung ist gleich 1 (66)

Populationsmittelwert (66)

Standardabweichung der Population (66)

Intelligenz-Quotient geht auf Wilhelm Stern zurück: Intelligenzalter gebrochen durch Lebensalter WechslersDefinition des IQ (66)

Intelligenzalter ist nach Binet das Alter derjenigen Referenzpopulation, welchedurchschnittlich denselben Testwerte erreicht wie die betreffende Tp. (66,67)

Seit Wechsler allerdings kein "Quotient" mehr. (67)

Durchschnittswert vom IQ steigt (gemessen an demselben Test) innerhalb von 20 Jahre um biszu 25 Punkte!! (siehe Eichen im Sinn von Repräsentativerhebung) (73)

einschlägige Modelltests in Bezug auf den AID sprechen gegen den IQ als verrechnungsfairesMaß (91)

Wertpunkte von Wechsler eingeführtWechsler führt "Wertpunkte" ein:

Page 16: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

ist eine willkürliche Transformation, entspricht dem Festlegen ("Eichen" im Sinn vonRelativieren) des Maßstabs samt Null- und Bezugspunkt: Mittelwert in der Population von =10 und = 3 (66)

Intelligenzalter ist nach Binet das Alter derjenigen Referenzpopulation, welche durchschnittlich denselbenTestwerte erreicht wie die betreffende Tp. (66,67)

normal anormal und normal sind relative Begriffe. Normal ist nicht immer gleich gesund und nichtgesund nicht immer gleich anormal."Ebensowenig wie alle Erscheinungen, die selten genug vorkommen, als krankhaft angesehenwerden können, gibt es auch Grund, alles das als gesund und normal zu betrachten, was sehrhäufig vorkommt."Es ist normal, dass ein hoher Prozentsatz der Österreicher irgendwann einmal Karies hat, abergesund ist es nicht. Es ist anormal, dass man nie Zahnweh hat, aber es ist deshalb trotzdemgesund. (67)

durchschnittlich üblicherweise werden die mittleren 50% der Referenzpopulation als durchschnittlich bzw."normal" bezeichnet (69)zu einzelnen Verfahren allerdings finden sich in den Manualen Interpretationsregeln voneinem Durchschnittsbereich von plus/minus einer Standardabweichung um den Mittelwert;das bedeutet wegen z0= -1 einem p = 0,1587 und z0= 1 einem p = 0,8413 dass die mittlerenetwa 68 % als Durchschnittsbereich gelten, also etwa 2/3 der Population (68)

Prozentrang Er entspricht der Verteilungsfunktion der Standardnormalverteilung an der Stelle z0, das ist dieWahrscheinlichkeit, irgendeinen Wert z z0 zu erhalten. (69)

allgemein: Prozentrang gibt den relativen Anteil von Personen in der Referenzpopulation an,die (denselben oder) einen niedrigeren Testwert erreichen (69)

Bsp: IQ = 110, folgt z0 = 0,67, entspricht einem Prozentrang von 75% (im Buch wird vongenaugenommen 100 – 25,14 = 74,86 auf 75 aufgerundet siehe seite 69)-> Interpretation: nur 25% der Population erzielen bessere Ergebnisse

=> die aus der Standardnormalverteilung abgeleiteten Prozentränge enstammen als einzigerEichmaßstab nicht einer linearen Transformation (69)

können bei nicht normalverteilten Testwerten unmittelbar aus der Häufigkeitsfunktion derEichstichprobe empirisch bestimmt werden (einfach schaun, wie viele Personenbesser/schlechter waren) (69)

Nomogramm wird in manchen Manualen verwendet zum "umrechnen" der Testwerte (rohwerte) inTestkennwerte (zb IQ); wird graphisch dargestellt (seite 71); und zwar können mehrerePersonengruppen (zb Alter) simultan in einer Graphik dargestellt werden und unmittelbarverglichen werden;werden auf sog. Wahrscheinlichkeitspapier eingetragen; Testwerte müssen auch tatsächlichnormalverteilt sind! (70)das Wahrscheinlichkeitspapier stellt eine logarithmische Transformation dar, und zwar so, dassdie Verteilungsfunktion der Normalverteilung einer Geraden entspricht, wären die Testwertenicht normalverteilt würden wahrscheinlich kurvilineare Verläufe entstehen (70)

Eichmaßstäbe z-Werte z –3 z +3Wertpunkte W W = z 3 + 10 1 W 19Intelligenzquotient IQ IQ = z 15 + 100 55 IQ 145Standardwerte SW, Z Z = z 10 + 100 70 Z 130Centil-Werte C C = z 2 + 5 -1 C 11Stanine Werte ("standard nine" S S = C, mit

S = 1 für C 1S = 9 für C 9

1 C 9

Sten-Werte ("standard ten") St St = z 2 + 5,5 in 98% aller Fälle:1 St 10

T-Werte T T = z 10 + 50 20 T 80

(68,69)Eichung im Sinn vonRepräsentativerhebung

Gütekriterium "Normierung";Repräsentativität der Eichstichprobe: auch besonders große Stichproben sind keine Garantiefür Repräsentativität und erst recht keine Kompensation für mangelnde Repräsentativität (zBeinfach sehr viele Psychologiestudierende zu nehmen) (73)

Page 17: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

Besonders problematisch: Aktualität der Eichtabellen; Niveau einer gemessenen Eigenschaftmacht einen steten Wandel durch – ist deutlich belegt, zB Durchschnittswert vom IQ steigt(gemessen an demselben Test) innerhalb von 20 Jahre um bis zu 25 Punkte (73)

DIN 33430: Die Angemessenheit der Normwerte (besser: Eichtabellen) ist spätestens alle 8Jahre zu prüfen; sollten zwischenzeitliche empir. Untersuchungen zeigen, dass die Normwertedie betreffende Referenzgruppe nicht treffend beschreiben, so sind vor Ablauf der FristNeunormierungen vorzunehmen (73)

weiteres Problem: Eichstichproben aus deutschsprachigem Land (zB Deutschland) auch fürandere deutschsprachige Länder repräsentativ (zB Österreich, Schweiz, aber auch ehemaligeDDR)? nur wenige Studien dazu (74)für AID 2 steht nachweislich fest, dass kein Unterschied zwischen Ö und D

- 1991 Unterschiede zwischen BRD und DDR BürgerInnen festgestellt in "Fähigkeit zumErfolg"; außerdem bei Intelligenztestbatterie mit knapper Zeitbeschränkung ließen DDR-BürgerInnen deutlich mehr Items unbearbeitet als BRD-BürgerInnen und hatten dadurchdeutlich schlechtere Ergebnisse (74)

schwierig überhaupt eine repräsentative Stichprobe zu bekommen, v.a. bei Erwachsenen, beiSchulkindern einfacher; Zufallsstichprobe organisatorisch aufwendig, und außerdem ist diePopulation der Schulkindern nicht identisch mit der der Kindern im schulpflichtigen Alter (74)=> es genügt aber auch "Klumpenerhebung", dh. zB. Schulen oder Orte wo erhoben wird,werden zufällig gewählt;-> Quotenstichprobe: vor allem in Bezug auf wesentliche Variablen wie Schultyp, Geschlecht,Altersstufen, etc. – sollten in der Stichprobe entsprechend ihren relativen Anteilen in derBevölkerung genügend Tp vorhanden sein (75)

stellen sich nachträglich systematische Verzerrungen heraus, also mangelnde Repräsentativitätin Bezug auf eine bestimmte Variable, und korreliert diese beachtlich mit der erfasstenEigenschaft, müssen am Ende so viele Tp mit der überrepräsentierten Merkmalsausprägungzufällig aus der Stichprobe ausgeschieden werden, bis auch hinsichtlich dieser VariableRepräsentativität erreicht ist (75)besteht kein Zusammenhang zwischen nicht-repräsentativen Merkmal und Testwerten in derEigenschaften, dann natürlich egal, falls repräsentative Mängel=> die bloße Annahme es bestünde kein Zusammenhang genügt meist nicht!

Quotenstichprobe vor allem in Bezug auf wesentliche Variablen wie Schultyp, Geschlecht, Altersstufen, etc. –sollten in einer repräsentativen Stichprobe entsprechend ihren relativen Anteilen in derBevölkerung genügend Tp vorhanden sein (75)

deutschsprachig Problem: Eichstichproben aus deutschsprachigem Land (zB Deutschland) auch für anderedeutschsprachige Länder repräsentativ (zB Österreich, Schweiz, aber auch ehemalige DDR)?nur wenige Studien dazu (74)für AID 2 steht nachweislich fest, dass kein Unterschied zwischen Ö und D

KriteriumsorientierteDiagnostik

in vielen Fällen ist die Relativierung eines Testwertes in Bezug auf die Referenzpopulationnicht zweckmäßig

Bezugsnormen:soziale – normorientiert; Referenzpopulation stellt soziale Bezugsnorm darindividuelle – Vergleich mit früherer Testung; individuelle Veränderung wird gemessensachliche – Testwert wird auf ein bestimmtes Kriterium (Lern- oder Therapieziel) bezogen(76).

=> Kriteriumsorientierte Diagnostik bedeutet, dass andere Vergleichsmaßstäbe zurInterpretation eines Testwerts herangezogen werden, als die Testwertverteilung in derReferenzpopulation:als Vergleichsmaßstab kommt entweder ein absolut festgelegter oder einindividuumsbezogener, relativ gewählter Ziel-Testwert in Frage. (76)

zB: bei Auswahl einer Schreibkraft nützt ein hoher Prozentrang nichts, wenn trotzdem vieleFehler passieren

Vor allem wichtig für die pädagogisch – psychologische Diagnostik (Voraussetzungen undBedingungen für Lehr. und Lernprozesse Analysieren und Optimieren) und dietherapiegeleitete Diagnostik.=> im Sinn einer förderungsorientierten Diagnostik, um zB Teilleistungsstörungen

Page 18: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

aufzudecken, sind geeichte Testbatterien notwendig. (77)

im übertragenen Sinn findet kriteriumsorientiertes psychologische Diagnostizieren manchmalauch dann statt, wenn der Testwert auf die Referenzpopulation bezogen wird: zB wenn dasKriterium die relevante Referenzpopulation ist -> Kind aus unterer Schicht sollte nicht mitaltersgleichen Kindern verglichen werden, Orientierung an der Population von Kindern ausdieser Schicht sinnvoller, wenn zB allgemein unterdurchschnittliche Leistung, aberschichtspezifisch überdurchschnittlich, dann gute Prognose! (77)

Bezugsnormen soziale – normorientiert; Referenzpopulation stellt soziale Bezugsnorm darindividuelle – Testwert wird auf den Wert einer früheren Messung bezogen, individuelleVeränderung wird gemessensachliche oder "kriteriumsorientierte" – Testwert wird auf ein bestimmtes Kriterium (Lern-oder Therapieziel) bezogen (76)

Testprofil graphische Darstellung der Ergebnisse eines Tests beim einem Individuum oder einer Gruppevon Personen;Heute auch oft verwendet ohne explizite graphische Darstellung, immer dann, wenn diemöglichen Schlussfolgerungen auf der detaillierten Gegenüberstellung der Ergebnisse inmehreren (Sub-) Tests oder Skalen bezogen werden ("Profilinterpretation") (77)

Skalierung Nebengütekriterium, weil erst Hauptgütekriterien gelten müssen, bevor über Skalierungdiskutiert werden kann (65)

Ein Test erfüllt das Gütekriterium der Skalierung, wenn die laut Verrechnungsvorschriftenresultierenden Testwerte die empirisch feststellbaren Verhaltensrelationen adäquat abbilden.(79)=> Angemessenheit (= faktische Gegebenheit!!) der im Manual festgelegten Reglementierung,wie die Testleistungen zu numerischen Testwerten zu verrechnen sind.im Sinn der Theorie des Messens: Messen ist die Bestimmung der Ausprägung einerEigenschaft eines Objekts und erfolgt durch eine Zuordnung von Zahlen zu Messobjekten (79)

Das ist nicht immer der Fall zb HAWIE – R: Österreich und Deutschland Problem Items der19,20,21 schwieriger und trotzdem 18 zu 17 bei Tp A und B der Testwert hängt nicht nur voneiner einzigen Eigenschaft, dem Wissen ab, sondern auch von der Nationalität (vergleicheauch speed and power Problem) (79)

=> Voraussetzung für das Gütekriterium Skalierung ist die Eindimensionalität, wenn diesegegeben ist, bezieht sie sich weiter auf darauf, ob die Verrechung zu Testwerten empirischbegründet ist (Vergabe von einer bestimmten Punktzahl je nach Reaktion auf ein Item kannangemessen oder unangemessen sein, vgl. Psychotest) (80)

Die Methoden der KTT sind ungeeignet einen Test auf Skalierung zu prüfen, daher existiertdieses Gütekriterium bei KTT auch nicht (!); es gibt jedoch Richtlinien für dieTestkonstruktion, die mit Skalierung zu tun haben;Methoden der KTT sind extrem stichprobenabhängig und daher grundsätzlich zukritisieren.(der gewünschte Wert wäre praktisch durch die geeignete Stichprobe erreichbar) ->diese Ansätze daher völlig wertlos!(S 83)

Skalierung gemäß klassischerTesttheorie

Laut KTT ist Schwierigkeit eines Items = relative Lösungshäufigkeit, mit der ein Item in derEichstichprobe gelöst wurde. (80)

Die Methoden der KTT sind ungeeignet einen Test auf Skalierung zu prüfen, daher existiertdieses Gütekriterium bei KTT auch nicht (!);es gibt jedoch Richtlinien für die Testkonstruktion, die mit Skalierung zu tun haben; dabei gehtes darum, wie Tests oder Untertest zusammengefasst werden sollen; als erstes geht es um denVersuch der eindimensionalen Messung pro (Unter-)Test: innere Konsistenz, Faktorenanalyseund Interkorrelationen.(KTT strebt nach eindimensionalen Messungen, Testwerte die von mehreren Eigenschaftenabhängen wären nicht mehr interpretierbar) (80)-> Problem Speed and Power – Tests messen sowohl grundsätzliche Fähigkeit als auchGeschwindigkeit dieses Könnens

=> Voraussetzung für das Gütekriterium Skalierung ist die Eindimensionalität, wenn diesegegeben ist, bezieht sie sich weiter auf darauf, ob die Verrechung zu Testwerten empirischbegründet ist (Vergabe von einer bestimmten Punktzahl je nach Reaktion auf ein Item kannangemessen oder unangemessen sein, vgl. Psychotest) (80)

Page 19: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

In KTT: Die innere Konsistenz eines Tests muss möglichst groß sein, wenn Eindimensionalitäterzielt werden soll - die Items des selben Tests sollen alle gemeinsam auf einem einzigenFaktor laden und die Interkorrelationen aller Items nahezu 1 betragen. (81)

Weiters sollen sich die Schwierigkeiten der Items innerhalb des Intervalls 0,05 bis 0,95verteilen.Trennschärfeindizes (Korrelationen des Testwerts pro Item mit dem Testwert aus allen übrigenItems) sollen sehr hohe Werte annehmen. (82)

Testbatterien mit dichotom zu verrechnenden Items die auf der Faktorenanalyse beruhen undinsofern je Untertest Eindimensionalität gewährleisten genügen nur vordergründig denAnsprüchen der KTT-> führt stets zu artifiziellen Faktoren! andere Methoden möglich (81)

Methoden der KTT sind extrem stichprobenabhängig und daher grundsätzlich zukritisieren.(der gewünschte Wert wäre praktisch durch die geeignete Stichprobe erreichbar) ->diese Ansätze daher völlig wertlos!(S 83)

Weiters zu bemängeln: für den aus der Reliabiliät ableitbaren Standardmessfehler wie er aneiner (vielleicht sogar repräsentativen) Stichprobe gewonnen wurde, ist schwerlich zuargumentieren, dass er für jede beliebige, zum Beispiel geistig behinderte Tp, gelten soll (85)

Theorie des Messens Messen ist die Bestimmung der Ausprägung einer Eigenschaft eines (Mess-)Objekts(Gegenstand, Ereignis, Person, Situation, Beurteilungssachverhalt) und erfolgt durch eineZuordnung von Zahlen zu Messobjekten (79)- wobei allerdings eine "Zuordnung von Zahlen Messobjekten...nur dann eine Messung" ist,"wenn die Zahlen (Messwerte) empirische Sachverhalte ausdrücken, dh. wenn die(numerischen) Beziehungen zwischen Messwerten empirische Beziehungen zwischen denMessobjekten ausdrücken (79)

Schwierigkeit eines Items laut klassischer Testtheorie: bei dichotom zu verrechnenden Items (richtig vs. falsch) ist dasdie relative Lösungshäufigkeit, mit der ein Item in der Eichstichprobe gelöst wurde. (80)

bei mehrkategoriell zu verrechnenden Items können zwar relative Häufigkeiten bestimmtwerden, mit der die einzelnen Kategorien in der Eichstichprobe vorkamen, aber dann nicht als"Schwierigkeit" bezeichnet (80)

bei Persönlichkeitsfragebögen wird auch oft (bei dichotom zu verrechn. Items) von"Schwierigkeit" gesprochen, "Grad der Herausforderung" mit dem ein Item die Tp konfrontiertwäre treffender (80)

Trennschärfe (-indizes) sind die Korrelationen des Testwerts pro Item mit dem Testwert aus allen übrigen Items (82)Behinderung Zu bemängeln an klassischer Testtheorie: für den aus der Reliabiliät ableitbaren

Standardmessfehler wie er an einer (vielleicht sogar repräsentativen) Stichprobe gewonnenwurde, ist schwerlich zu argumentieren, dass er für jede beliebige, zum Beispiel geistigbehinderte Tp, gelten soll (84)

Skalierung, Methoden derbzw. ProbabilistischeMethoden der Skalierung

die Probabilistische Testtheorie kann prüfen, ob die gegebenen Verrechungsvorschriften einesTests zu Testwerten führen, die verhaltensadäquate Relationen wiedergeben.=> "Verrechnungsfairness" eines Tests (84)

einfachster Modus: Testkennwert ist die Anzahl gelöster Items, zB Allgemeines Wissen desHAWIE-R=> dh. ungeachtet dessen, welche Items gelöst werden und welche nicht zählen nur die"Treffer". hier muss das Rasch-Modell gelten, damit verrechnungsfair

Notwendigkeitsbeweis des Raschmodells – muss gelten, damit die Anzahl gelöster Items einfaires Maß für die erbrachte Testleistung ist; => gilt das Raschmodell nicht, dann auch nichtverrechnungsfair (85)

beschreibt die Wahrscheinlichkeit, dass Tp v ein Item i löst ("+"), in Abhängigkeit desPersonenparameters ξv, das ist die "wahre" Fähigkeit von v, und des Itemparameters σi, das istdie wahre Schwierigkeit von i:

=> ist im statistischen Sinn stichprobenunabhängig!! daher kann ein besonderer Modelltestabgeleitet werden, muss also nie ungeprüft vorausgesetzt werden. (86)

Prüfung auf die Geltung des RM geschieht durch den Vergleich der geschätzten Itemparameter

Page 20: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

in Bezug auf ein Item bei zwei Teilstichstichproben -> Differenz entscheidend,Koordinatensystem mit 45 Grad gerade. (87,88)

Probabilistische Testtheorie unverzichtbar für adaptives Testen, sonst nicht fair (97)Verrechnungsfairness siehe Skalierung, Methoden derNotwendigkeitsbeweis desRaschmodells

das Raschmodell oder eine monotone Form davon, muss gelten, damit die Anzahl gelösterItems ein faires Maß für die erbrachte Testleistung ist;- es muss um eine einzige Eigenschaftsdimension gehen, kann daher pro Person durch eineZahl repräsentiert werden- lokale stochastische Unabhängigkeit: ob die Person ein Item löst hängt nicht davon ab,welche anderen sie schon gelöst hat oder noch lösen wird, sondern nur (abgesehen vom Zufall)von ihrer Fähigkeit und der Schwierigkeit des Items (85)

=> gilt das Raschmodell nicht, dann auch nicht verrechnungsfair (85)Raschmodell beschreibt die Wahrscheinlichkeit, dass Tp v ein Item i löst ("+"), in Abhängigkeit des

Personenparameters ξv, das ist die "wahre" Fähigkeit von v, und des Itemparameters σi, das istdie wahre Schwierigkeit von i:

=> ist im statistischen Sinn stichprobenunabhängig!! daher kann ein besonderer Modelltestabgeleitet werden, muss also nie ungeprüft vorausgesetzt werden.

- Raschmodell ermöglicht "spezifisch objektive" Vergleiche: der Unterschied in denFähigkeiten ξv und ξw zwischen zweier Personen v und w kann unabhängig davon bestimmtwerden, welche Items des Tests dafür herangezogen werden; bzw. der Vergleich zweier Itemsi und j bezüglich σi und σj ist unabhängig davon, welche Stichprobe dafür verwendet wird!

Beweis siehe S.86

Wesentlicher Vorteil des Raschmodells ist, dass es tatsächlich prüfbar ist (im Gegensatz zuanderen testtheoretischen Modellen)

Prüfung des Rasch-Modells: geschieht durch den Vergleich der geschätzten Itemparameter inBezug auf ein Item bei zwei Teilstichstichproben=> am einfachsten mittels Grafik, theoretischer Idealfall wäre eine 45° Ursprung desKoordinatensystems; weicht ein Punkt weit von dieser Geraden ab, dann nichtverrechnungsfair (87, Grafik 88)=> "Grad der Bewährung" reicht, denn nur weil psychologischer Test den Modelltestsstandhält, heißt das nicht dass das Rasch-Modell bewiesen ist; reicht aber natürlich aus, dass esfunktioniert (87)

Nach Raschmodell konstruierte Testbatterien: (88)BAS II (British Ability Scales II (1996)DAS (Differential Ability Scales (1990)K-ABC (Kaufman Assessment-Battery for Children (1991)AID 2

Spezielle Leistungstests:WMT

Problem bei Persönlichkeitsfragebögen: die jeweils interessierende Eigenschaft ist stets voneiner zweiten (wahr zu anworten) überlagert – daher müssen eindimensional messendeModelle scheitern (Versuch war zB der AVT) (88,89)

Als nicht Rasch-Homogen erkannte Tests: SPM, HAWIK-III, HAWIK,HWIK-R (89)

Für bestimmte andere Verrechnungsmodi, zB. teilrichtige Antworten, gibt es innerhalb derprobabilistischen Testtheorie andere Modelle bzw. Verallgemeinerungen des Rasch.Modells,die tw. analoge Bedeutung haben.Angewandt zeigt sich deutlich, dass Tests, die bei ihrer Entwicklung nicht darauf geprüftwuren, auch nicht verrechnungsfair sind.(zB müssten teilweise richtige Items 1 Punkt und vollkommen richtige Items 2 Punkte überalles Items hinweg in der Relation 1:2 stehen) (90)

je strengere Voraussetzungen bzw. Modellansprüche an die Items zu stellen sind, je

Page 21: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

komplizierter ist der vorgesehene Verrechnungsmodus=> sehr unwahrscheinlich, dass ein intuitiv zusammengestellter Test die impliziertenVoraussetzungen erfüllt...(90)

IQ: besonderer Verrechnungsmodus – ihm entspricht der durchschnittliche Testwert in denUntertests einer Intelligenz-Testbatterie; dabei ist es unerheblich, in welchen Untertest guteoder schlechte Leistungen vollbracht wurden,=> Inhaltlich betrachtet ist es äußerst unrealistisch, dass die für die Verrechnungvorausgesetzte kompensatorische Wirkung tatsächlich greift...(91)

Lokale stochastischeUnabhängigkeit

Skalierung/ Verrechnungsfairness;=> Notwendigkeitsbeweis des Rasch-Modellsob die Person ein Item löst hängt nicht davon ab, welche anderen sie schon gelöst hat odernoch lösen wird, sondern nur (abgesehen vom Zufall) von ihrer Fähigkeit und derSchwierigkeit des Items (85)

bei Lerntests, oder aufeinander aufbauenden Items ist es denkbar, dass die lokale stochastischeUnabhängigkeit verletzt ist (85)

Modelltest das Raschmodell ist stichprobenunabhängig, daher kann ein besonderer Modelltest abgeleitetwerden, muss also nie ungeprüft vorausgesetzt werden (85)

Probabilistische Testtheorie RaschmodellBirnbaummodelle, beinhalten jedoch keine Modellimplikationen, wie etwaStichprobenunabhängigkeit, die mittels Modelltest prüfbar wären; erlauben lediglich"Anpassungstests" (sog. "goodness of fit" Tests), die feststellen, wie gut die beobachtetenDaten durch das Modell erklärt werden können. Analog untersucht auch eine konfirmatorischeFaktorenanalyse bloß die Güte der Anpassung der durch das hypothetisierte Modellvorhergesagten Daten an die beobachteten Daten

Skalierung undMessgenauigkeit (in derprobabilistischen Testtheorie)

Die Genauigkeit eines Testergebnisses kann unabhängig von den je sonst noch getestetenPersonen bestimmt werden=> im Vergleich zum Standardmessfehler der klassischen Testtheorie spricht frau vom"Standardschätzfehler" (Standard Error of Estimation) (92)

Daher kommt die probabilistische Testtheorie grundsätzlich ohne das Konzept der Reliabilität

aus, der Begriff "reliablility" wird verwendet für die Korrelation zwischen ξv (im Zuge vonSimulationsstudien als bekannt vorausgesetzten) Parametern und deren (anhand desinteressierenden Tests gewonnenen) Schätzungen (92)

Insbesondere nicht notwendig die innere Konsistenz zu berechnen: indem sich die Items aufGrund des entsprechenden Modelltests als modellkonform erweisen, sind sie als "homogen" zuqualifizieren, dh. sie messen alle dasselbe, und zwar eindimensional=> es genügt also bei dementsprechend konstruierten Tests die Angabe, dass die Reliabilitätim Sinn von innerer Konsistenz infolge der Modellkonformität gegeben ist (Stabilität kannjedoch trotzdem bestimmt werden) (92)

Paralleltests: werden zur Bestimmung der Genauigkeit nicht benötigt, die Erstellung istallerdings auch kein Problem- aus einem Pool modellkonformer Items kann jede Teilmengedaraus (und zwar unabhängig von den Item-Parametern) zu einem Paralleltestzusammengesetzt werden. Selbst bei extrem abweichenden Itemparametern ist jedes Mal dieSchätzung der gesuchten Personenparameter möglich, es variiert lediglich der Schätzfehler(93)

Skalierung und Eichung Problem der Übertragung eines Tests in andere Kulturen, auch innerhalb desdeutschsprachigen Raums;das Fehlen sig. Mittelwertsunterschiede allein kann nicht klären, ob ein Test innerhalbverschiedener Kulturen das gleiche misst; es könnte ja sein, dass sich kulturelle Unterschiedenicht gobal auf die Testleistung, jedoch auf einzelne Items auswirken.=> dann spricht nicht das Gütekriterium "Normierung" gegen die Anwendung in einemanderen als der Eichstichprobe zugrundliegenden Kulturbereich, aber ganz grundsätzlich dasder Skalierung.

zB. HAWIE-R "Wer wählt bei uns den Bundeskanzler?" verfassungsbedingt anders zwischenD und ÖzB. AID gut getestet zwischen D und Ö, später dann in Belgien niederländische Fassung "Inwelchem Monat wird Weihnachten gefeiert?" für diese Stichprobe viel schwerer als fürursprüngliche D und Ö (93,94)

Page 22: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

Differential Item Functioning: neuerdings Bemühungen um Methoden, die unterschiedlicheMessqualität einzelner Items in diversen Subpopulationen festzustellen ("Item-Bias")=> läuft im Wesentlichen auf einschlägige oder besondere Modelltests zum Raschmodellhinaus (94)

Kultur, verschiedene Übertragung von Tests siehe Skalierung und Eichung (93)Differential Item Functioning neuerdings Bemühungen um Methoden, die unterschiedliche Messqualität einzelner Items in

diversen Subpopulationen festzustellen ("Item-Bias")=> läuft im Wesentlichen auf einschlägige oder besondere Modelltests zum Raschmodellhinaus (94)

Ökonomie Ein Test erfüllt das Gütekriterium Ökonomie, wenn er, gemessen am diagnostischenInformationsgewinn, relativ wenig Ressourcen (Zeit und Geld) beansprucht. (94)

Wirtschaftlichkeit und AufwandsminimierungErsteres: Kosten der Untersuchung (Anschaffung eines Tests, Personalkosten der Tl,Anschaffungs- und Betriebs-/Verschleißkosten von Computern, Protokollbögen, Gebühr fürdie Nutzung computerisierter Tests)Zeit: Zeit und Kosten können nicht immer gleich gesetzt werden – Zeit in der die Psychologinbeansprucht wird, und Zeit der Testungsdauer insgesamt. Denn während Tp arbeitet, kannPsychologin etwas anderes erledigen zB. bei Computertestung nur Anwesenheit wichtig fürZwischenfragen.außerdem ein Unterschied zwischen teurer Arbeitszeit der Psychologin und einereingeschulten Hilfskraft (Tl, AuswerterInnen); (94,95)

Sachlichkeit vor Aufwandsminimierung! schlecht, wenn- nicht gut ausgebildete Person als Tl arbeitet- auf einen Test verzichtet wird, der aber wertvolle Informationen liefern würde- Tests statt systematischer Verhaltensbeobachtung verwendet werden, weil (? eher obwohl...)diese erst die relevante Information erbringen würde- nur Tests verwendet werden, die die PsychologIn kennt und seit Jahren vertraut ist, die aberweniger diag. Information liefern asl andere- nur Tests eingesetzt werden, die nach Kassenvertrag abgerechnet werden, obwohl andere denInformationsgewinn steigern könnten- die Testauswahl in erster Linie nach der Vorgabemöglichkeit am Computer erfolgt (95)

=> Wesentlich ist die Relativierung am diagnostischen Informationsgewinn!probabilistische Testtheorie: ermöglicht mittels adaptiven Testens, dass ein Test trotz geringerTestlänge genau misst (bei klass. Testtheorie geht das nur über Verlängerung des Tests!)(95,96)

Adaptives Testen siehe Nachteile konventionellen Testens=> daher nicht allen Tp die gleichen Items vorgeben, sondern nur die jeweils der Fähigkeitangepassten; unverzichtbar hierzu die probabilistische Testtheorie, sonst nicht fairverrechenbar (97)

"adaptiv" nur im Bezug zur probabilistischen Thesttheorie zu sehen (sonst würden auch Binet,Wechsler und Lerntest der Arbeitsgruppe Guthke als adaptiv gelten) (98)

2 Strategien:Tailored-testingBranched-testingbeide zunächst nur für Leistungstests gedacht, die nach richtig und falsch bewertet werden (98)

Nachteile des konventionellenTestens

- es ist unökonomisch einer Tp, zu leichte oder zu schwere Items vorzugeben; Üblicherweisesoll mit einem Test ein großer Alters- bzw Fähigkeitsbereich erfasst werden; das erfordertviele Items von sehr leicht bis sehr schwer -> wird dann ein langer Test, aber viele Items nichtinformativ, weil bei einige Items klar ist, dass die Person sie lösen kann, "informativ" sind nurdiejenigen wo es ca gleich wahrscheinlich ist, dass die Person sie löst oder nicht (96)(Versuch das zu umgehen: bei Binet wurde mit altersspezifischen Items begonnen und wenndiese gelöst wurden, alle leichteren automatisch als gelöst angesehen; bei Wechsler gibt esauch altersspezifischen Einstieg bei Kinder-Testbatterie (seit HAWIK-R) für die nachSchwierigkeitsgrad geordneten Items; und bei allen Testbatterien wird die weitere (Sub-)Testvorgabe unterbrochen, sobald eine bestimmte Anzahl aufeinander folgender Items nichtgelöst wird -> Problem: nie sicher ob Tp ein bestimmtes Item löst oder nicht) (96)- soll (was meist so ist) in den extremen Fähigkeitsbereichen messen und zwischen 2 Tpdifferenzieren die ähnlich leistungsstark sind, dann stehen dafür, trotz großer Testlänge, nurwenige Items zur Verfügung (zB. HAWIK-III Allgemeines Wissen: nur 4-5 Items für unterenFähigkeitsbereich geeignet, alle anderen zu schwierig) (97) -> das heißt es ist nur zwischen

Page 23: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

ganz wenigen Leistungskategorien zu entscheiden, und da verursachen die üblichenZufallseinflüsse dann erhebliche Standardmessfehler wegen der faktisch sehr kurzenTestlänge!- Darbietung der Items in der Reihenfolge ihrer Schwierigkeiten kannmotivationsbeeinträchtigend sein (am Anfang demotiviert durch zu leichte, am Schlussfrustriert durch zu schwere) (97)(bei Wechsler: wie motiviert ist eine Tp wenn sie jeden neuen Untertest mit einemvorangegangenen Leistungsversagen beendet?) (97)- durch den hohen Standardmessfehler bei Untertests mit wenig informativen Items ist beiTestbatterien die Interpretation des Leistungsprofils (Hochs und Tiefs) kaum möglich (97)- wegen der Einsicht, dass jeweils nur wenige Items für eine Person informativ sind, ziehenmanche TestautorInnen die Konsequenz, statt richtig/ falsch mehrkategoriell zu verrechnen (->Probleme bei Skalierung, sei es durch Vergabe von Zeit-Gutpunkten wenn besonders schnelloder Berücksichtigung teilrichtiger Antworten)

Tailored-testing "tailored" – maßgeschneidert- Voraussetzung: die Schwierigkeiten bzw. Itemparameter der Items (aus einem sehr großenItempool) sind aus Kalibrierungsstudien bekannt bzw. hinreichend genau geschätzt worden(98)

-> pro Tp wird mit durchschnittlich schwierigem Item begonnen, je nach dem ob löst odernicht, das schwierigste bzw. leichteste Item als nächstes dargeboten; erst Schätzung desPersonenparameters möglich, wenn die Tp ein Item gelöst und eines nicht gelöst hat; sobalderste Schätzung vorliegt wird genau das Item vorgegeben, das mit der Leistung der Tpkorrespondiert (98)

- beenden, wenn Differenz der Schätzungen des Personenparameters bei zweiaufeinanderfolgenden Items nicht (mehr) größer als ein gewisser, festgesetzter, geringer Betragist- zu empfehlen etwa 60-70 Items, meist nach der Vorgabe von 15 Items hinreichendeGenauigkeit des Personenparameters- Anzahl gelöster Items irrelevant, stattdessen der geschätzte Personenparameter (100)

Vorteile:- bei gleicher Testlänge viel genauer als herkömmlicher Test (bzw gleich genau, bei halberLänge) (100)- in allen Fähigkeitsbereichen wird gleich genau gemessen- motivationale Beeinträchtigung ist nicht zu erwarten, da Person abwechselnd Items löst undnicht löst ( Unterschied zu konventioneller Methode ist aber empirisch noch nicht belegt, wasaber auch heißt, dass es zur Leistungsmotivation nicht anfangs leichter und langsamschwieriger werdender Items bedarf)- Leistungsprofil ist interpretierbar, da höhere Messgenauigkeit pro Untertest- wegen Verwendung höchst informativer Items, kein Bedarf an mehrkategoriellerVerrechnung (100)

Nachteile:- größere Anzahl an Items notwendig als bei konventionellen Tests-> Testkonstruktion istaufwendiger- testtheoretische Analyse gemäß der probabilistischen Testtheorie ist notwendig- an Computerdiagnostik gebunden, wegen ständiger Berechnung des Personenparameters(101)

=> daher Angebot an Tailored-Tests noch beschränkt

.) muss auch nicht unbedingt kürzer dauern im Sinne von Ökonomie: bei Matrizentests wirdzB die Itembearbeitungszeit bis auf das doppelte erhöht (nur weil Test kürzer, also nicht auchgleich Dauer kürzer) (102)

Beispiel: Syllogismen, 75 Items, meist 10-12 benötigt für hinreichende Messgenauigkeit (101)

.) Position eines Items innerhalb des Tests muss egal sein, daher wäre es ein Problem wenn zBVerwirrung entsteht ("Skeptizismus", wäre nicht mehr eindimensional) dass Tp abwechselndsehr leichte und dann wieder sehr schwere Items bekommt, führt ev. auch zu der längerenTestdauer (102)

Birnbaum-Modelle theoretische Betrachtungen zum adaptiven Testen in angloamerikanischer Literatur regelmäßigauf die Birnbaummodelle bezogen;

Page 24: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

3-PL Modell:

αi ist der Item-Diskriminationsparameter, entspricht einer unterschiedlichen Gewichtungrichtiger Anworten bei Bestimmung des Testwerts

βi ist der Rateparameter, entspricht dem Effekt, der bei MC-Format gegeben ist, die Lösung zuerraten

Branched-Testing suboptimale Strategie gegenüber Tailored-testing, Items werden in Gruppen zusammengefasstund zwischen denen wird je nach Leistung verwiesen-> Testvorgabe ohne PC möglich (102)Beispiel AID2: je nach Alter verschieden Startgruppen, Tl wird dann durch Anleitung durchdie Bearbeitung geführt; insgesamt pro Tp 3 Blöcke, mit 15 Items (insgesamt)=> für ein Screening würden auch 2 Items reichen

Vorteil: durch vorhandenen Itempool (nach Rasch-Modell) können beliebige Kurzformenzusammengestellt werden; nur die Messgenauigkeit, je nach Fähigkeit, wird darunter leiden(106)leicht auch Testwiederholungen möglich, mit Paralleltests (auch bei AID 2 möglich) (106)

- Anzahl der Startgruppen: es erhöht die Messgenauigkeit (bald) nicht (mehr), wenn besondersviele Startgruppen gewählt werden, zB AID Untertest 1 würden auch 3 Startgruppen reichen- im Bezug auf Messgenauigkeit ist die Anzahl der Verzweigungsmöglichkeiten wichtiger alsdie der Verzweigungsschritte (so besser 3-Fach-Verzweigung auf Kosten geringererSchrittanzahl der Vorzug zu geben, gegenüber der 2-Fach-Verzweigung)- im Vergleich zu mehr Items pro Schritt ist eine größere Anzahl von Verzweigungsschrittenwichtiger (Ausgleich einer geringeren Anzahl von Verzweigungsschritten durch größereAnzahl Items pro Gruppe gelingt nicht – im Bezug auf Messgenauigkeit) (106)

- wird die Startgruppe falsch gewählt wirkt sich das grundsätzlich auf die Messgenauigkeitaus; in weiten Bereichen aber kaum beachtlichFrage: wirkliche Falsch-Zuordnung (Bsp AID) kann nur passieren, wenn 2 mal eineFehlzuweisung erfolgt -> Kompensationsmöglichkeit von einmaliger Falschzuordnunggegeben! (107)

Nützlichkeit (Gütekriterium) Ein Test ist dann nützlich, wenn für das von ihm gemessene Merkmalpraktische Relevanz besteht und die auf seiner Grundlage getroffenen psychologischenEntscheidungen (Maßnahmen) mehr Nutzen als Schaden erwarten lassen. (107)(nach Lienert: und wenn er nicht das misst, was eh viele andere Tests auch messen, hier gehtes aber eher um die Relevanz der Messung an sich) (107)

=> Wesentlich, ob ein Test für eine bestimmte Fragestellung überhaupt von Nutzen ist.

gemäß Tayler-Russel-Tafeln: ein Test mit einer Validität von 0,35 bei einer mittlerenGrundrate und niedriger Selektionsquote ist bei wiederholtem Vorgehen insofern von Nutzen,als der Prozentsatz selektierter Geeigneter höher ist, als bei Zufallsentscheidungen;im Einzelfall jedoch kann die Anwendung des Tests hohe Kosten verursachen, die daraufberuhende Entscheidung aber falsch sein (108)(demgegenüber kann ein Test mit nicht gegebener Validität zu einem schlechteren Ergebnis alsdie bloße Zufallsentscheidung führen, zB. Auswahl von Jockeys nur nach Körpergewicht)

Unterschied ob die angestrebte Diagnose im Interesse der Tp oder einer Institution; und ob undwie viele Interventionsalternativen es gibt; ob ein einziges Testergebnis verfügbar ist odermehrere usw. (108)Im einfachsten Fall Alternativentscheidungen, die sachlich richtig oder falsch sein können.Im Interesse der Person: Wahl zwischen Intervention- ja (ohne Nebenwirkungen) undIntervention-nein bräuchten wir keinen Test, könnten einfach Intervention setzen=> bei Interesse von Institutionen Effizienz von Bedeutung (zB. wenn Intervention sehr teuer)(108)

Beispiel: Cerebralschädigung, Test mit Trefferrate von 0,64 (siehe Buch 110)–> im Interesse der Kinder sollte zu Absicherung weitere Untersuchungen gemacht werden,um sicher alle zu erwischen, oder einfach das Therapieprogramm auf jeden Fall durchziehen-> Interesse der Institution: will zB nur gesamte Trefferrate (wer wirklich krank); zufälligenEntscheidungen gegenüber hätte ein Test bei geringer Grundrate keine Chance sich zu

Page 25: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

bewähren-> aber meist ist Interesse der Institution anders: entweder hohe Spezifität oder hohe Sensivitätgefordert (108,109)

=> Nutzenfunktion muss zugrundegelegt werden, für jede der 4 Ergebnismöglichkeiten einnutzentheoretischer Wert postuliert werden; kann sehr unterschiedlich sein auch innerhalbeiner Institution oder unter PsychologInnen -> so kann derselbe Test für dieselbe Fragestellungnützlich sein oder auch nicht (109)

Meist 2 typische Nutzenfunktionen: Test als Screening, also auch beim geringsten Verdachtein positives Ergebnis geben bzw. möglichst einen voreiligen positiven Befund zu vermeiden,um Etikettierung auf Dauer zu vermeiden (110)

Gesamtnutzen (siehe Seite 110)

Neuere Ansätze innerhalb der klass. Testtheorie: beziehen unmittelbar nutzentheoretischeStrategien mit ein; Beispiel: Selektionsdiagnostik, es wird der Trennscore gesucht, bis zu demKandidatInnen als nicht geeignet und ab dem als geeignet zu bezeichnen sind, was den gesamtzu erwartenden Nutzen optimiert (Nutzenfunktion wird natürlich als bekannt vorausgesetzt)(111)

Spezifität Wahrscheinlichkeit einer negativen Diagnose bei tatsächlichem negativem Zustand (109)Sensivität Wahrscheinlichkeit einer positiven Diagnose bei tatsächlich positivem Zustand (109)Zumutbarkeit Ein Test erfüllt das Gütekriterium Zumutbarkeit, wenn er die Testperson absolut und relativ zu

dem aus seiner Anwendung resultierenden Nutzen in zeitlicher, psychischer (insbesondereenergetisch-motivationaler und emotionaler) sowie körperlicher Hinsicht schont.

(erstmals im deutschen Sprachraum angesprochen 1986, in den 1985 erstellten und späterübersetzten APA Standards für päd. und psycho. Testen" findet sich nicht einmal ein Stichwortdazu, was einer Tp zuzumuten ist => zeigt den historisch sehr autoritären Zugan zumpsycholog. Diagnostizieren) (111)

Vieles was fachlicher Standard ist, mutet für Tp nur fraglich zumutbar an -> daher in derVerantwortung der jeweiligen GutachterIn, welche Verfahren und welcher Umfangangemessen sind/ist; Pausengestaltung! (111)

zB WIT und andere gängige Tests sehen Dauer von 4 Stunden oder mehr vor! Kurzformendann selten wegen Zumutbarkeit, sondern den Tl persönlich betreffende ökonomischeÜberlegungen... (112)

verbindliche Differenzierung zwschen zumutbar und unzumutbar ist schwierig:was ist unter Nutzen genau und für wen zu verstehen; Grenze zwischengesellschaftsbezogenem und subjektiven Nutzen (gesellschaftspolitische Werte/Ideologiengreifen dann ein); Beispiel PilotInnenauswahl, "höhere Interessen" rechtfertigen Belastung beiTestung, hingegen Auswahl von SekretärInnen sollen subjektiv zumutbar sein (womöglichkein "höheres Interesse" argumentierbar)

Fragen bzgl Zumutbarkeit von Kubinger (genauer S. 112,113):- Welche Testdauer ist regelmäßig, welche in Ausnahmefällen zumutbar (anhängig vonPopultion)?- Zumutbare Testdauer für Leistungs- und Persönlichkeitsverfahren gleich?- obligatorische Intelligenztestung zumutbar?- wie schwierige Aufgabenstellung bei Leistungstests sind zumutbar?- wie intim dürfen Fragen regelmäßig und in Ausnahmefällen sein?- sind bei Persönlichkeitsfragebögen (abhängig von Population) regelmäßig und inAusnahmefällen dichotome Antwortformate zumutbar? ("Forced Choice" – keine Möglichkeiteiner neutralen oder nuancierten Anwort)- inwiefern Persönlichkeitsfragebogen wegen Durchschaubarkeit überhaupt zumutbar?(Person fühlt sich ev. wegen hoher Augenscheinvalidität nicht ernstgenommen)- projektive Verfahren ohne jede Augenscheinvalidität überhaupt und wann zumutbar?- inwiefern sind objektive Persönlichkeitstests zumutbar?- Computerdiagnostik regelmäßig bzw in welchen Ausnahmefällen (wieder abhängig vonPopulation) zumutbar? (113)- welcher psychologische Untersuchungsablauf ist zumutbar, welcher nicht?

=> bereits bei kurzen Pausen (5min) tritt Erholungseffekt ein (Tp fühlt sich weniger müde und

Page 26: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

leistungsfähiger)=> Motivation weitere Tests zu bearbeiten nimmt mit Fortdauer der Testung ab und kann auchdurch Pausen nicht erhöht werden=>vorangehende Bearbeitung eines Persönlichkeitsfragebogens wirkt sich nicht auf folgendenLeistungstest aus, aber umgekehrt (zB bei Spontane Aggressivität, Emotionale Labilität) (114)

Akzeptanz des Tests von Seiten der Tp wesentlich, durch Erläuterungen der Testumstände zuerreichen und Erwartung eines subjektiven Nutzens (114)

(mitschrift) Auswertung von Tests oft unzumutbar...(aber halt nicht die Tp betreffend)Forced Choice bei Persönlichkeitsfragebogen mit lediglich dichotomer Antwortmöglichkeit; keine

Möglichkeit einer neutralen oder nuancierten Antwort (113)objektive Persönlichkeitstests versuchen persönliche Stil-Merkmale aus dem beobachtbaren Verhalten bei bestimmten

Anforderungen zu erschließen (113)-> oft so angelegt, dass sie vortäuschen etwas bestimmtes zu messen, Messintention allerdingsanders; oder Manipulieren der Tp um gezielt Stress/Frustration hervorzurufen; (113)

Subtest "Flächengrößen vergleichen" aus den "Arbeitshaltungen"oder OA-TB 75 (nach Cattell) als Beispiele (116)

siehe auch Unverfälschbarkeit, ZumutbarkeitAkzeptanz vom Testkuratorium als Gütekriterium bezeichnet;

Erwartung eines subjektiven Nutzens;Akzeptanz des Tests von Seiten der Tp, soll durch ausreichende Erläuterungen über Zweck,Dauer, Aufgaben, Interpretation und Konsequenzen erreicht werden (114)

immer häufiger auch auf die Bewertung der TestanwenderIn selbst bezogen, v.a. in RichtungWirtschaftlichkeit und Aufwandsminimierung (114)

Unverfälschbarkeit Ein Test erfüllt das Gütekriterium der Unverfälschbarkeit, wenn die getestete Person ihrTestergebnis nicht oder nur unwesentlich nach eigenem Belieben beeinflussen kann. (114)

hohe Augenscheinvalidität bei Leistungstests meist nicht schlimm, bei herkömmlichenPersönlichkeitsfragebögen aber ein Problem: eine Person kann ihre Leistung zwar absichtlichschlechter aber nie besser darstellen, bei Persönlichkeitsfragebogen wird sie aber womöglichsozial erwünscht bzw. zu ihrem persönlichen Vorteil antworten (115)

Ausnahme: wenn es um Versicherungsansprüche geht verfälschen Personen manchmal ihreLeistungsergebnisseAusnahme bei Verfälschung von Persön.Fragb: klinischer Bereich, Annahme, dass wennLeidensdruck groß genug, auch wahrheitsgemäß beantwortet wird (gilt nicht pauschal) (115)

=> für Persönlichkeitsdiagnostik Undurchschaubarkeit der Messintention anzustreben, keineAugenscheinvalidität; kann durch Art der Aufgabenstellung oder besondere Verrechnung desbeobachteten Testverhaltens geschehenzB OA-TB 75, hat aber in deutscher Fassung niemals Fuß gefasst in Praxis

gelegentlich auch "normale" Persönlichkeitstests als "objektive Persönlichkeitstests"bezeichnet, weil im Gegensatz zu projektiven Verfahren meist vollkommene Objektivität derScorung (115)

Studie (2001) zu Arbeitshaltungen: der Prozentsatz mit dem die Tp die eig Messintentiondurchschauen beträgt für die meisten Testkennwerte etwa 25%, höchstens (bei einem) 41%-> selbst wenn Tp Messintention durchschauen, weichen Testwerte nicht systematisch abdemgegenüber in einem herkömmlichen Persönlichkeitsfragebogen (NEO-FFI): die gesuchteEigenschaft wurde von 68% bis zu 93% der Tp durchschaut, dazu kamen sig.Mittelwertsunterschiede zwischen denen, die den Test komplett durchschaut haben und denendie nur einzelne Eigenschaften identifizieren konnten (118)

Fairness Ein Test erfüllt das Gütekriterium Fairness, wenn die resultierenden Testwerte zu keinersystematischen Diskriminierung bestimmter Testpersonen zum Beispiel aufgrund ihrerethnischen, soziokulturellen oder geschlechtsspezifischen Gruppenzugehörigkeit führen. (118)

unfair ist ein Test, wenn systematische Unterschiede nicht mit der zu messen beabsichtigtenEigenschaft zu tun haben (in diesem Fall werden bestimmte Personen mit exakt denselbenwahren Eigenschaften anderen gegenüber benachteiligt) (118)

Page 27: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

Benachteiligung durch:testimmanente Bedingungen, wie Instruktion (sprachl. Verständlichkeit)technische Handhabung (zB Testreaktionen via Computer)inhaltliche Details des Testmaterials (zB in Bezug auf religiöse Wertmaßstäbe,Schichtzugehörigkeit)

Unterschied: benachteiligen nur einzelne Items bestimmte Gruppen von Tp (Item-Bias) oderob der ganze Test benachteiligt?=> mit globaler Benachteiligung beschäftigt sich die Ps. Diag. traditionell mitsozioökonomisch bedingten Handikaps"culture fair tests" (zB. Leute aus niedriger Schicht sind gehandikapt bei Sprachkompetenzund auch bei thematischen Aspekten des Tests) (119)

zB AID2: für Angehörige verschiedener Schichten bestehen keine Unterschiede (120)

Computerdiagnostik: Skepsis besonders bei alten Menschen, allerdings keine Studien dazu,und bei neuropsychologischen Untersuchungen sowieso obligat (120)

Studie (1994): keine sig Leistungsunterschiede bei Tp mit und ohne Mauserfahrung, sobald einentsprechendes Lernprogramm der eigentlichen Testung vorausgeht (120)

Problem: verschiedene Wahrnehmungstypen! meist Tests nur visuell, Überlegung einerzusätzlichen auditiven Anleitung bei Computertests; ist nicht so beliebt, jedoch erhöht siedurch erzwungene ausführlichere Beschäftigung mit der Instruktion das Verständnisderselbigen (121)

Wenn Tests eine sachlich begründete Korrelation zwischen Testwerten und Zugehörigkeit zueiner Gruppe aufweisen, sind sie deshalb natürlich trotzdem fair, es müssen aberentsprechende Eichtabellen angeboten werden (Alter, Geschlecht...) trotzdem bleibt die Frage,ob diese Nivellierung immer Sinn macht, zB bei wichtiger Fähigkeit für einen Beruf (121)

Weiter wichtig: Einfluss der Testerfahrung einer Person; manche Tests bevorzugen Test-routinees, dabei geht es meist v.a. um die Vertrautheit mit Items psychologischer Tests,eigentlich sollten Tests daher auch hinsichtlich der Erfahrungsunabhängigkeit geprüft werden=> Testknacker die in psychologische nicht vertretbarer Weise die Lösungen vieler Itemsverraten oder Antwortvorschläge geben; es gibt aber auch zB. Test-Trainings fürLangzeitarbeitslose (122)

Culture Fair Tests scheitern in Bezug auf eigentliche Zielsetzung (nämlich Kulturunabhängigkeit, ist nichtmöglich), aber praktische Bedeutung wegen sprachfreier Materialgestaltung, sowohl beiInstruktion als auch bei Itemlösung;-> "Sprech-Fairness", also Wortschatz und Sprachstil egal=> aber nicht sprachunabhängig, weil Lösung meist durch stilles Verbalisieren erfolgt!!!

typ. Beispiel sind Matrizentests, WMT

wichtig auch weil viele Leute, die nicht Deutsch als Muttersprache haben bei "uns" sind-> es muss bloß die Möglichkeit einer sprachfreien Instruktion in die Praxis umgesetzt werden

AID2: für sämtliche Untertests zur Messung von manuell-visuellen Fähigkeiten sowie für zweiZusatztests gibt es eine Sprachfreie Instruktion im Manual (119)=> für Angehörige verschiedener Schichten bestehen keine Unterschiede (120)

Leistungsdiagnostik Einteilung in Leistungs- und Persönlichkeitsdiagnostik nur für didaktische Gründe; mancheSachen können überhaupt nicht zugeteilt werden, zB. Kreativität, soziale Intelligenz (183)

nach wie vor durch Intelligenztests geprägt; meist eine Testbatterie, aber auch spezielleLeistungstests; => versuchen beide kognitive Eigenschaften zu erfassen"Kognitionsdiagnostik" wäre also fast besser (183)

die meisten Intelligenz-Testbatterien haben zwar eine gewisse Affinität zu Intelligenztheorien,nach einer bestimmten Theorie konstruierte gibt es aber außer dem Berliner-Intelligenz-Struktur Tests nicht;meisten haben Bezug zu Thurstone oder Wechsler, aber dann fügen sie sich doch derresultierenden Faktorenstruktur bzw. verfolgen gleich praktische Zwecke:"die intelligenztheoretische Position desAID2 – ihm liegt der pragmatische Standpunkt

Page 28: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

zugrunde, ziemlich viele (komplexe und basale) Fähigkeiten, die für "intelligentes" Verhaltenverantwortlich scheinen, zu erfassen" (184)-> in vager Anlehnung an Cattell, im Sinne des pragmatischen Ansatzes kann Intelligenz imZusammenhang mit dem AID2 definiert werden als "das Bündel aller kognitivenVoraussetzungen, die notwendig sind, um Wissen zu erwerben und Handlungskompetenzen zuentwickeln – wobei "Kognition" sich bezieht auf "jeden Prozess, durch den das LebewesenKenntnis von einem Objekt erhält oder sich seiner Umwelt bewusst wird...:Wahrnehmung,Erkennen, Vorstellen, Urteilen, Gedächtnis, Lernen, Denken,...Sprache" (184)

relevantere Einteilung: Einzel vs. GruppenverfahrenEinzel: AID2, HAWIE-R, HAWIE-III,K-ABCGruppen: IST-2000-R, KFT 4-12+R, PSB-R 4-6, WIT

,,Intelligenztests allen Intelligenztests mangelt es an der Untersuchung der prognostischen Validität; (189)

AID 2 hat Problem der ungenügenden Untersuchung der Beziehung der Subtestsuntereinander;=> herkömmliche Tests umgehen mit dem Gesamtwert IQ dieses Problem (entledigen sich derEvaluierung der wechselseitigen Aussagekraft der Subtests), gehen dabei aber von einerkompensatorischen Wirkung aus, die im Sinne des Skalierung äußert wahrscheinlich nichtverrechnungsfair sind (188)

Spezielle Leistungstests werden manchmal auch als Intelligenztest bezeichnet, messen aber nur einen Aspekt;Umgekehrt gibt es auch Test-Batterien die nur auf spezielle Leistungen abzielen; (189)

-> Leistungstests eher an Forschungsinteressen entwickelt, statt an praktischer Brauchbarkeit,daher Ordnung nach Intelligenzfaktoren von Thurstone: (189)Verbal ComprehensionSpaceMemoryPerceptual SpeedReasoning(Intellektuelle) LernfähigkeitAufmerksamkeit und KonzentrationTechnisches VerständnisEntwicklungstests

(-> Primary mental Abilities von Thurstone: Verbal Comprehension, Word Fluency, Number,Space, Memory, Perceptual Speed, Reasoning) (189)

Primary mental Abilities von Thurstone: Verbal Comprehension, Word Fluency, Number, Space, Memory, PerceptualSpeed, Reasoning (189)

Verbal Comprehension jede Intelligenztest-Batterie enthält grundsätzlich einen entsprechenden Untertest;Verbal Comprehension"Sprichwörter", "Gleiche Wortbedeutung" WIT"Gemeinsamkeiten", "Analogien" IST 2000 R"Funktionen Abstrahieren" AID2

Spezielle Leistungstests:WST (aber +Memory)LEWITE

Heidelberger Sprachentwicklungstest (HSET 1991)

=> all diese Tests erfassen fraglos eine bildungsmitbedingte, aber eindeutig kognitiv-operativeFähigkeit=> für Beantwortung der Fragestellung "Talent zum (Fremd-) Sprachenerwerb" oder"Geschick zu sprachlichen Ausdrucksprägenaz" einer Tp sind sie alle letztlich ungeeignet(191,192)

gerontopsychologischeDiagnostik

siehe Seite 190

Demenz siehe Seite 190Entwicklungstest siehe Seite 191Space räumliches Vorstellungsvermögen, Raumvorstellung, Fähigkeit zur Vorstellung räumlicher

Relationen, Raum-Lage-Orientierung, Spatial Ability

Page 29: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

-> wird regelmäßig in Intelligenztestbatterien geprüft (192)

"Spiegelbilder" WIT"Abwicklungen" WIT"Würfelaufgaben" IST 2000 R

3DWSchlauchfiguren

Raumlageorientierung: "Analysieren und Synthetisieren-abstrakt" und "Antizipieren undKombinieren figural" AID 2

Problematisch an Papier-Bleistift-Tests zur Raumvorstellung: dass sie mehr schlussfolgerndesDenken zu prüfen als Raumvorstellungsvermögen; 3DW aufwendig entwickelt um geradesolche Items auszuschalten die schlicht logisch zu lösen sind (192)

Spatial Ability Raumvorstellung, SpaceRaumvorstellung SpaceMemory LGT-3

"Gedächtnis" WIT"Merkfähigkeit (verbal; figural) IST 2000 R

MC-Fragen Herangehen (mitschrift)1.Typ: Produzieren, schaut selbst was richtig ist, dann obs das als Lösung gibt2.Typ: Versuch/Irrtum, alle durchgehen und schaun ob falsch oder richtig3.Typ: Falsifikationsstrategie, die ausschließen die offensichtlich nicht passen

-> ev messe ich die Strategie mit und nicht nur die FähigkeitDistraktoren (mitschrift) falsche Lösungen bei MC-Fragen (?)3-PL-Modell berücksichtigt wie gut die Distraktoren sind, wenn zB einer von 8 ganz schlecht ist, dann

Antwortwkt 1/7

Problem: für verschiedene Tp auch verschieden WktenKonjunktives Modell/Kompensatorisches Modell

konjunktiv: wenn eine Eigenschaft nicht gut genug, dann weg (zB kann eine Chirurginfehlende Feinmotorik nicht durch Intelligenz ausgleichen)

kompensativ: schaun wo schwäche, wo kompensationsmöglichkeiten

Gutachten Ein psychologisches Gutachten ist eine wissenschaftliche Leistung, die darin besteht, aufgrundwissenschaftlicher anerkannter Methoden und Kriterien nach feststehenden Regeln derGewinnung und Interpretation von Daten zu konkreten Fragestellungen Aussagen zu machen(301)Das psychologische Gutachten dokumentiert den diagnostischen Prozess beginnend mit derKlärung der Fragestellung und inklusive dem Festsetzen der Intervention;"es ist Antwort einer ExpertIn, der PsychologIn, auf Fragen, zu denen sie aufgrund ihresFachwissens, des aktuellen Forschungsstandes und ihrer Erfahrung Stellung nimmt (301)

abzugrenzen von: gutachterlicher Stellungnahme, psychologischer Stellungnahme,(Untersuchungs-) Befund (302)

Über das Ausmaß der Umsetzung der vorgeschlagenen Interventionen gibt es noch keineStudien (!) (301)

Gutachten = Schlussfolgerung aus den ermittelten Tatsachen durch Anwendung desFachwissens oder die Bekanntgabe von Erfahrungssätzen zu einem bestimmten Sachverhalt=> was ein Gutachten zum Gutachten macht, ist dann die Interpretation und das Festsetzen derInterventionen bzw. des Maßnahmenvorschlags (303)

im gerichtlichen Sprachgebrauch wird mit "Gutachten" oft die Gesamtheit von Gutachten undBefund gemeint (302)

Fehler bei Gutachten - häufig: unscharfe Ausdrucksweise, ausweichende Stellungsnahmen, fehlendeObjektivierbarkeit von Befund und Gutachten;

Page 30: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

- Kubinger: Grenzen der Aussagekraft werden zuwenig/gar nicht aufgezeigt- weiters: veraltete Verfahren, Fehlen der konkreten Testwerte, oft steht nicht welchesMerkmal mit den verwendeten Verfahren erfasst werden soll -> nicht nachvollziehbar, oft fehltüberhaupt ein durchgängig nachvollziehbar dokumentiertes Vorgehen (314)Urteil zu mangelhaftem Gutachten siehe Seite 314

gutachterliche Stellungnahme Aus der Psychologie fundierte Antwort auf eine genau eingeschränkte Detailfrage.Beispiel: „Wie ist das emotionale Milieu einzuschätzen, in dem XY aufwuchs?“ (302)

psychologischeStellungnahme

fachliche Bewertung eines bereits vorliegenden psychologischen Gutachtens oder einergegeben Fragestellung ohne einer eigenen Datenerhebung (302)

Befund (Untersuchungs-) ist die für Nicht-PsychologInnen verständlich aufbereitete Aussage über Ergebnisse einerpsychologischen Untersuchung (302)

Befund = Feststellung und Beschreibung von Tatsachen, die die Sachverständige durchSinneswahrnehmung und mit wissenschaftlichen, künstlerischen oder gewerblichen Methodenermittelt hat=> die rein deskriptiv abgefassten Ergebnisse stellen innerhalb der PsychologischenDiagnostik den Befund dar:- Sammlung der typischerweise mit dem gegebenen Sachverhalt in Verbindung stehendenInformationen- Entscheidungsorientiertes Gespräch- Tests- Persönlichkeitsfragebogen- Projektive Verfahrensowie gegebenenfalls- Verhaltensbeobachtung- Biographisches Inventar- Assessment-Center- Arbeitsplatzanalyse (302,303)

Gutachten – Befund:Unterschied

inhaltlich, aber auch rechtlich relevant, weil unabhängig von Disziplin, 2 verschiedeneGesetzesbegriffe bedeuten (302,303)Befund = Feststellung und Beschreibung von Tatsachen, die die Sachverständige durchSinneswahrnehmung und mit wissenschaftlichen, künstlerischen oder gewerblichen Methodenermittelt hat=> die rein deskriptiv abgefassten Ergebnisse stellen innerhalb der PsychologischenDiagnostik den Befund dar

Gutachten = Schlussfolgerung aus den ermittelten Tatsachen durch Anwendung desFachwissens oder die Bekanntgabe von Erfahrungssätzen zu einem bestimmten Sachverhalt=> was ein Gutachten zum Gutachten macht, ist dann die Interpretation und das Festsetzen derInterventionen bzw. des Maßnahmenvorschlags (303)

im gerichtlichen Sprachgebrauch wird mit "Gutachten" oft die Gesamtheit von Gutachten undBefund gemeint

Gutachten – AllgemeineRegeln zur Erstellung

.) Ist die Person überhaupt testbar? Checkliste Seite 304

.) AdressatIn hat die gutachterlichen Aussagen und Maßnahmen erst akzeptiert, wenn sie diesemit eigenen Worten verteidigen kann (304).) Argumentationskette muss klar und inhaltlich nachvollziehbar sein für die AdressatIn (304).) Achtung gegenüber dem Lebensentwurf der KlientIn; Sprache soll Takt und Achtung zumAusdruck bringen (305).) Begutachtung muss so dargestellt werden, dass die AdressatIn das Verfahren, in das sieeinbezogen war, wieder erkennt und gezielt nachfragen kann (305).) PsychologIn muss über Beratungen und Behandlungen aussagefähige Aufzeichnungenmachen (305).) wird der Bericht an Psychologische Laien gegeben, dann Fachtermini vermeiden (besondersproblematisch Fachbegriffe, die in Umgangssprache eingegangen sind "Hysterie" zB) (305)

Page 31: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

.) Gutachten soll sich strikt an die vom Auftraggeber gestellten Fragen halten (nicht alle durchTests gewonnene Informationen weitergeben) (306).) Verfahren müssen alle namentlich angeführt werden.) Ergebnisbeschreibung und Interpretation klar voneinander abgrenzen (jede fachkundigeLeserIn kann sich dann nach Ergebnisbeschreibung selbst erst ein Bild machen).) Dezidierte Beantwortung der Fragestellung (nicht nur Daten vorlegen, sondern erläutern undzueinander in Beziehung setzen (306).) Wertende Aussagen vermeiden (307).) am Ende eine Zusammenfassung geben (Fragestellung, eingesetzte psychologisch-diagnostische Verfahren, wesentlichen Ergebnisse in interpretierter Form, getroffeneMaßnahmen bzw. gegebener Maßnahmenvorschlag, keine neuen Aspekte).) durch Unterschrift der Psychologin wird es als rechtsverbindlich qualifiziert:„Ich versichere, dieses Gutachten nach sorgfältiger psychologischer Testung und nach genauerErhebung der im Gutachten zu beurteilenden Tatsachen nach bestem Wissen und Gewissen imSinne der berufsethisch festgeschriebenen Richtlinien für die Erstellung PsychologischerGutachten abgefasst zu haben.“

Weiters wichtig:.) ausführliches Gespräch mit KlientIn über die Ergebnisse und deren Bedeutung (v.a. auch mitKindern, nicht nur mit deren Eltern reden!!!).) Person hat prinzipiell das Recht zur Einsicht in alle Unterlagen, die sie selbst betreffen (307).) Die schriftliche Fassung eines Gutachtachtens sollte nicht (automatisch) der KlientIn selbstgegeben werden-> besser: ermuntern sich beim abschließenden Beratungsgespräch Notizen zu machen (307).) genaue Zahlenangaben vermeiden, zB IQ (inhaltliches Problem und das derMessungenauigkeit) eher beraten wo Begabungen und weniger gute Resultate (308).) Die Testperson den gegebenen Interventionsvorschlag (samt Begründung) in eigene Wortefassen lassen

Und schließlich:Nichts ist schlimmer an einem Gutachten als am Ende die sinngemäße Bemerkung, dass es zurBeantwortung der Fragestellung noch weiterer Befunde (insbesondere psychologischer)bedarf. Bevor diese nicht vorliegen ist kein Fall abzuschließen. In jedem Fall dürfte keinePsychologIn eine Fall übernehmen, wenn sie nicht schon ohne Ergebnisse weiß, wie sie amEnde, so oder so, raten können wird.(306,307)

Gutachten -Gestaltungsprinzipien imDetail

Deckblatt: fallführende Psychologin, untersuchte Person, Fragestellung, ev. AdressatIn, Datumder Abfassung des Gutachtens

wichtig (nicht unbedingt am Deckblatt): Info über Untersuchungstermine selbst

Aufbau richtet sich nach diagnostischem Prozess (309)

.) Bei Darstellung der Vorgeschichte die jeweilige Informationsquelle angeben (310)

.) Unüberprüfbare Aussagen im Konjunktiv formuliert werden (oder: sie stellt dar")

.) Grundsätzlich prüfbare Aussagen im Indikativ (Geburt, Geburtsort, Beruf usw) (310)

.) auch Ergebnisse von Persönlichkeitsfragebögen vorsichtig verwerten, ev. Konjunktiv, "stelltsich dar", "gibt an"... (311).) hinterfragen ob mit Leistungstestergebnissen tatsächlich Fähigkeiten beurteilt werdenkönnen (311).) immer den jeweiligen Messfehler bei Verfahren berücksichtigen (311).) bei Interpretation der Testwerte Namen der Tests und Skalen angeben und mittels derkonkret gemessenen Eigenschaft interpretieren.) statt "ProbandIn" oder "Versuchsperson" besser "KlientIn" oder "PatientIn" oder"Testperson" (312) oder "die zu untersuchende Person".) tabellarische Ergebnisse vereinfachen zwar die Ergebnisdarstellung, aber fraglich obs werversteht/ anschaut -> sprachliche Ergebnisbeschreibung darf daher niemals fehlen (dann aberkeine Tabelle mehr nötig).) immer auch Prozentränge zu den Ergebnissen angeben (312).) äußere Form des Gutachtens wahren: Unsauberkeit, Unübersichtlichkeit, Rechtschreibfehlervermeiden (312,313)

Bemühen und Objektivität, Freiwilligkeit des KlientenHaubl: Datenschutz, psychologisches Wissen nur dann heranziehen, wenn es zu einerErweiterung der Selbsthilfefähigkeit der Tp führt

Page 32: Psychologische Diagnostik Teilgebiet der Psychologie, …a9806297/Files/Diagnostik Buch I... · 2009-12-03 · Verhaltensstichprobe der "Population" aller gegenwärtig möglichen

Fragestellung, Diagnostische (mitschrift)"Ich möchte meinen IQ wissen" damit sind keine Konsequenzen verbunden, daher keine"diagnostische" Fragestellung, besser "geeignet für die AHS?" oder "geeignet fürsPsychologiestudium"

Gruppenverfahren/Individualverfahren

(mitschrift)Indiv. sind mehr gefährdet an Objektivität zu verlieren

Indiv. mehr Infos, zB ob Links/rechtshänderin, ob ev. Sehschwäche vorhanden ist etc.verrechnungssicher (mitschrift)

Auswertungsfehler sind umso wahrscheinlicher, je verrechnungssicherer sein Test ist, aberauch bei einfach Test passieren viele Fehler

Logische Validität siehe auch inhalt. Gültigkeit

(mitschrift) zB eine Prüfung, es wird genau der Stoff abgeprüft der gelehrt wurde, die mehrwissen, schneiden besser ab

Triviale Validität siehe auch inhalt. Gültigkeit

(mitschrift) zB Schreibkraft, schaun welche am besten ist, Text ansagen und schaun wo amwenigsten Fehler; können schlecht drauf sein an dem TAG

Item-Response Theorie IRT (mitschrift) wie Antworten auf Items verrechnet werden könnenzB. abzählen gelöster Items, fair?

-> immer dann wenn die Anzahl gelöster Items ein faires Maß sein soll, muss das Rasch-Modell geltenLösungswahrscheinlichkeit hängt dann nur von der Person, der Itemschwierigkeit und demZufall ab! (also nicht von anderen Personen und auch nicht von vorher bearbeiteten Items)

wenn Fähigkeit unendlich groß P=1wenn Schwierigkeit des Items und Fähigkeit gleich P=0,5 bringt viel Information!

Voraussetzung: stochastische Unabhängigkeit, Items dürfen nicht voneinander abhängen, bzeaufeinander aufbauen

Intelligenztheorie (mitschrift) von Oswald und Roth

Heuristisches Modell über Intelligenztheorie – 4 Faktoren:- Informationsverarbeitungsgeschwindigkeit (ZVT)- Informationskapazität (Gedächtnis)- Erkennen von Redundanz (Überflüssigkeit von Informationen)- Kreation von Metaregeln