Upload
wilda-hellstern
View
104
Download
0
Embed Size (px)
Citation preview
"Auf sehr unterschiedliche Art und Weise kann der Antworttypus , d.h. die Art der verlangten sprachlichen Reaktion gestaltet sein. Hier kommen fast alle aus der Psychophysik, der Wissenschaft von den Beziehungen zwischen objektiv gegebenen Stimuli und subjektiv erfolgenden Reaktionen her bekannten Formen des Urteilens in Frage. In einfachster und weitaus am häufigsten angewendeter Weise wird auf eine Frage oder Feststellung lediglich ein zweistufiges kategoriales Urteil verlangt:
'Ja' ('Stimmt', 'Stimme zu' etc.)'Nein' ('Stimmt nicht', 'Lehne ab' etc.)
Rating-Skalen
Rating-Skalen (2)
Die Zahl der Antwortkategorien kann erweitert werden, z.B. im Minimalfalle um eine dritte Antwortkategorie:
'Ja' -- 'Neutral' -- 'Nein‚
'+' -- '0' -- '-'
Rating-Skalen (3)
Es kommen ferner alle denkbaren Arten von Mehrfachwahlantworten in
Frage, so dass die Beantwortung der Fragebogen-Items in Form eines
Rating , also auf einer Schätzskala erfolgt; dabei kann es sich um eine
rein numerische Rating-Skala, eine graphische Rating-Skala, eine verbal
verankerte (d.h., an bestimmten Punkten der Skala mit Worten
beschriftete) oder aber nicht verankerte Rating-Skala oder um
irgendwelche Kombinationen solcher Antwortformen handeln, z.B.
aus: H.D. Mummendey: Die Fragebogen-Methode. Göttingen 1987: 55, Herv. im Original)
Rating-Skalen (4)
Wichtig ist, dass die Antwortdimension zur Frage passt:Häufigkeit:nie – selten – manchmal – oft – immerIntensität:nicht – wenig – mittelmäßig – ziemlich – sehrDiese Antworten können als gleichabständig gelten (Rohrmann, 1978) und als daher intervallskaliert behandelt werden.Bei subjektiven Einschätzungen sind 5 bis 7-stufige Ratingskalen empfehlenswertWichtig: Sollen mehrere Items zu einer Gesamtskala zusammengefasst werden, müssen alle dasselbe Antwortformat haben.
Umwelt-Items
Datenaufbereitung
• Variablenbenennung (z.B. gro für Geschlechtsrollenorientierung)
• Codierung und Wertebenennung (z.B. 1=SPD, 2=CDU)
• Umgang mit fehlenden Werten: Weglassen oder Zahl eintippen (999) und als fehlend definieren; diese Werte dürfen nicht als echte Werte vorkommen können
• Eintrag in die Datenmatrix
DatenmatrixAls Beispiel verwenden wir die Einkommensangaben Nettoeinkommen der
Befragten (Rohdaten bzw. Urliste) aus der Datenmatrix von Diekmann (1995).
Fall-Nr./V1 Schulbildung/V2 Beruf/V3 Einkommen/V4
01 2 Werkzeugmacher 350002 1 Verkäufer 240003 4 Studienrätin 520004 2 Kraftfahrer 320005 2 Friseur 230006 3 Programmiererin 450007 4 Allgemeinmediziner 1200008 3 Journalistin 650009 2 Sachbearbeiter 9999910 2 Installateur 9999911 2 Krankenpfleger 230012 3 Steuerberaterin 9999913 4 Bankkaufmann 460014 3 Verkäuferin 160015 2 Krankengymnastin 2900
Weiteres Vorgehen
• Items zu Gesamtskalen zusammenfassen:
• gegensinnige Items umpolen, z.B. (1=5) (2=4) (3=3) (4=2) (5=1)
• Gesamtskala als Summe oder Mittelwert berechnen, Mittelwert hat 2 Vorteile:Einheit wird beibehalten,fehlende Werte werden berücksichtigt
• Itemanalyse, d.h. Überprüfung der inneren Konsistenz (Reliabilität)
Itemanalyse
R E L I A B I L I T Y A N A L Y S I S - S C A L E (STA) Mean Std Dev Cases
1. STA1 ,3699 ,4842 173,0
2. STA2 ,3179 ,4670 173,0
3. STA3 ,9653 ,1835 173,0
4. STA4 ,6012 ,4911 173,0
Itemanalyse
**** Method 1 (space saver) will be used for this analysis ******
R E L I A B I L I T Y A N A L Y S I S - S C A L E (S T A)
Item-total Statistics
Scale Scale Corrected Mean Variance Item- Alpha if Item if Item Total if Item Deleted Deleted Correlation Deleted
STA1 1,8844 ,7191 ,1472 ,4718STA2 1,9364 ,5831 ,3831 ,1900STA3 1,2890 1,0090 ,0862 ,4687STA4 1,6532 ,5651 ,3633 ,2093
Reliability Coefficients
N of Cases = 173,0 N of Items = 4
Alpha = ,4307
AusgangsdatenIn welcher Form liegen die erhobenen Informationen vor? -Rohdaten (Urliste) -Sortierte Daten (Primärliste) -gruppierte Daten -klassifizierte Daten
Univariate Häufigkeitsverteilung
Berufliche Stellung des Vaters (Rohdaten bzw. Urliste)
Als Beispiel dient die Angabe über die berufliche Stellung des Vaters in der Befragung von Benninghaus (1987) . Da es sich um viele Fälle (n=60), aber nur eine Variable handelt, werden die Rohdaten der Einfachheit halber nicht in Form einer Matrix, sondern in Form einer Liste der einzelnen Variablenausprägungen angegeben.
Urliste2, 1, 2, 1, 4, 1, 1, 3, 1, 5, 4, 2, 5, 1, 2, 1, 3, 1, 3, 1, 3, 5, 4, 5, 4, 2, 1, 2, 3, 1, 1, 2, 2, 2, 2, 1, 3, 4, 2, 1, 2, 2, 1, 1, 1, 3, 1, 3, 3, 2, 1, 1, 1, 2, 1, 2, 3, 3, 3, 3
In sortierter Form (Primärliste):1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 5 5 5 5
Univariate Häufigkeitsverteilung
Univariate Häufigkeitsverteilung, gruppierte Daten
Univariate Häufigkeitsverteilung; klassifizierte Daten
• Wenn (kontinuierliche) Variablen viele Ausprägungen haben, sind Häufigkeits-verteilungen unübersichtlich. Die Variablenausprägungen werden dann in Gruppen aufgeteilt (z.B. Alter 10-20 Jahre, 20-30 Jahre, 30-40 Jahre usw.)
• Dazu wird eine neue Variable gebildet, die dann in einer Häufigkeitsverteilung dargestellt werden kann.
• Die Klassen dürfen sich nicht überschneiden:Alter 10 - unter 20, 20 – unter 30 usw.
Klassifizierung von Variablen
• möglichst Klassen gleicher Breite
• nicht mehr als 20 Klassen
• die Klassen sollten so breit sein, dass keine leeren Klassen (Lücken) auftreten
• Wichtige Begriffe:Klassenbreite, Klassenmitte, exakte Grenzen
Univariate Verteilung einer kontinuierlichen Variablen (2)
Ergebnisse einer Auszählung per HandDa es sich um eine kontinuierliche Variable (mit vielen unterschiedlichen Ausprägungen) handelt, führt eine Häufigkeitsverteilung der einzelnen Ausprägungen zu keiner Übersicht. Man sollte die Variable vorher klassifizieren. Dann ergibt sich folgende Verteilung. Personen ohne Einkommensangaben (missing values) werden getrennt aufgeführt.
Einkommensklassevon ... bis unter ... DM
l
Klassenmitte
xl
absolute und relative Häufigkeiten
fl pl
0 - 2000 1000 1 0,083
2000 - 4000 3000 6 0,500
4000 - 6000 5000 3 0,250
6000 - 8000 7000 1 0,083
> 8000 (9000) 1 0,083
12 0,999
Für drei befragte Personen liegen keine Einkommensangaben vor.
Bestandteile von Tabellen
Überschrift: Sachliche, räumliche und zeitliche Bezeichnung des Tabelleninhalts
Überschrift für VorspalteTabellenkopf: Überschriften der einzelnen Tabellenspalten mit Angabe der jeweiligen Maßeinheit
Vorspalte: Bezeichnungen der einzelnen Tabellenzeilen
Anmerkungen: Anmerkungen zu einzelnen Einträgen in der Tabelle.
Quelle: Quellenangabe, wenn Tabelle insgesamt oder die in der Tabelledargestellten Zahlen von anderer Stelle übernommen
wurden.
Datenbasis: Bezeichnung der Datenquelle, mit Hilfe derer die Zahlen in der Tabelle generiert wurden.
Abkürzungen
• X Y Z Variablen
• xi Werte einer Variablen
• fi Häufigkeit
• pi relative Häufigkeiten (Prozente)
• fci kumulierte Häufigkeit
• N Anzahl der Untersuchungseinheiten
Häufigkeitsverteilung der Variablen Schulbildung
Ausprägung xk absolute und relative
Häufigkeiten
kumulierte absolute und
relative Häufigkeiten
fk pk 100pk cfk cpk 100cpk
kein Abschluß 1 1 0,07 7 1 0,07 7
Volks-, Hauptschule
2 7 0,47 47 8 0,53 53
Realschule, Mittlere Reife
3 4 0,27 27 12 0,80 80
Abitur, Hoch-schulreife
4 3 0,20 20 15 1,0 100
Insgesamt 15 1,01 101
Quelle: Diekmann (1995: 556)
Einkommensverteilung (klassifizierte Daten)
Einkommens-klasse
von ... bis unter ...l
Klassen-mitte
xl
absolute und relative
Häufigkeiten
kumulierte absolute und relative Häufigkeiten
fl pl cfl cpl
0 - 2000 DM 1000 DM 1 0,083 1 0,083
2000 DM - 4000 DM
3000 DM 6 0,500 7 0,583
4000 DM - 6000 DM
5000 DM 3 0,250 10 0,833
6000 DM - 8000 DM
7000 DM 1 0,083 11 0,916
8000 DM und mehr
(9000 DM) 1 0,083 12 0,999
12 0,999
Quelle: Diekmann (1995: 559)
Graphische Darstellung diskreter Variablen; Säulendiagramm
Kreisdiagramm
Bestandteile von Graphiken
-Überschrift: Sachliche, räumliche und zeitliche Bezeichnung des
dargestellten Sachverhalts.- Achsenbeschriftung: Bezeichnung des auf der Achse abgetragenen
Merkmals (inkl. Maßeinheit).- Achsenskalierung: Beschriftung der auf der Achse abgetragenen Werte. - Legende: Bezeichnung der Datenreihen, falls mehrere in einer Graphik
dargestellt werden.- Anmerkungen: Anmerkungen zu Einzelheiten in der Graphik. -Quelle: Quellenangabe, wenn Graphik insgesamt oder die in der Graphik
dargestellten Zahlen von anderer Stelle übernommen wurden. - Datenbasis: Bezeichnung der Datenquelle, mit Hilfe derer die Zahlen in
der Graphik generiert wurden.
Univariate Verteilung einer kontinuierlichen Variablen
Statistische Graphik: Histogramm
Ein Histogramm sieht aus wie ein Säulendiagramm. Da es sich um
eine kontinuierliche Variable handelt, ist jedoch der gesamte
Wertebereich der x-Achse relevant (und nicht nur einzelne, diskrete
Ausprägungen). Dementsprechend gibt es keine Zwischenräume
zwischen den "Säulen", sie stoßen direkt aneinander an. Darüber
hinaus ist auch noch zu berücksichtigen, dass ein Histogramm eine
flächenproportionale Darstellung ist (und keine höhenproportionale
wie beim Säulendiagramm).
Univariate Verteilung einer kontinuierlichen Variablen
Klassifizierte Variable Lebensalter (Version I)
Aters-klasse
in Jahren
exakte Grenzenvon ... bis unter ...
Klassenmittein Jahren
Häufigkeit kumulierte Häufigkeit
21-25 20,5-25,5 23 5 5
26-30 25,5-30,5 28 7 12
31-35 30,5-35,5 33 8 20
36-40 35,5-40,5 38 9 29
41-45 40,5-45,5 43 9 38
46-50 45,5-50,5 48 6 44
51-55 50,5-55,5 53 9 53
56-60 55,5-60,5 58 5 58
61-65 60,5-65,5 63 2 60
Klassifizierte Variable Lebensalter (Version I)
Klassifizierte Variable Lebensalter (Version 2)
Alters-klasse
in Jahren
exakte Grenzenvon ... bis unter ...
Klassenmittein Jahren
Häufigkeit kumulierte Häufigkeit
18-22 17,5-22,5 20 2 2
23-27 22,5-27,5 25 5 7
28-32 27,5-32,5 30 11 18
33-37 32,5-37,5 35 5 23
38-42 37,5-42,5 40 10 33
43-47 42,5-47,5 45 8 41
48-52 47,5-52,5 50 8 49
53-57 52,5-57,5 55 4 53
58-62 57,5-62,5 60 6 59
63-67 62,5-67,5 65 1 60
Klassifizierte Variable Lebensalter (Version 2)
Histogramm mit Polygonzug
Klassifizierte Variable mit unterschiedlichen Klassenbreiten (1)
Monatliche Haushalts-Nettoeinkommen in DM (Mai 1992, früheres Bundesgebiet)Quelle: Datenreport (1994: 104).
Einkommensklasse
von ... bis unter ... DM
Klassenmitte in DM
Prozentualer Anteil
Klassenbreite in DM
Proz. Anteil pro 100 DM Klasse
unter 1000 500,00 6,4 1000 0,64
1000-1800 1400,00 15,6 800 1,95
1800-2500 2150,00 19,1 700 2,73
2500-3000 2750,00 11,0 500 2,20
3000-4000 3500,00 18,3 1000 1,83
4000-5000 4500,00 12,6 1000 1,26
5000-6000 5500,00 7,2 1000 0,72
6000-7500 6750,00 5,3 1500 0,35
7500 und mehr 9500,00 4,6 4000angenommen
0,12
Klassifizierte Variable mit unterschiedlichen Klassenbreiten (2)
Klassifizierte Variable mit unterschiedlichen Klassenbreiten (3)
Die vorherige Abbildung suggeriert, dass in der vierten
Einkommensklasse (2500-3000 DM, Klassenmitte 2750 DM) --
verglichen mit den angrenzenden Einkommensklassen -- eher wenige
Haushalte vertreten sind. Das hat jedoch damit zu tun, dass diese
Einkommensklasse nur ein Einkommensintervall von 500 DM umfasst.
Beträgt das Einkommensintervall 1000 DM, wie in der fünften
Einkommensklasse, dann werden dadurch natürlich sehr viel mehr
Haushalte erfasst. Das folgende Histogramm kontrolliert dagegen die
Breite der Einkommensklassen. Jetzt zeigt sich nicht mehr der "Einbruch"
in der vierten Einkommensklasse.
Ein solches (flächenproportionales) Histogramm erzeugt man, indem man
die unterschiedlich breiten Klassen in kleinere Klassen gleicher Breite
unterteilt. In dem obigen Beispiel wurden Klassen der Breite 100 DM
gewählt. Die (absoluten oder relativen) Häufigkeiten der ursprünglichen
Klassen sind entsprechend auf die kleineren Klassen aufzuteilen. Dies
geschieht in dem Beispiel durch Division mit der Anzahl der 100 DM
Klassen, die das ursprüngliche Intervall umfasst.
Klassifizierte Variable mit unterschiedlichen Klassenbreiten (4)
Klassifizierte Variable mit unterschiedlichen Klassenbreiten (5)
Klassifizierte Variable mit unterschiedlichen Klassenbreiten (6)
An dieser Stelle wird auch deutlich, warum es sich um eine
flächenproportionale Darstellung handelt. Die Höhe der "Säulen"
entspricht jetzt nicht mehr dem dargestellten Sachverhalt: dem
prozentualen Anteil der entsprechenden Einkommensklasse. Betrachten
wir dazu die zweite Einkommensklasse und die zweite "Säule". Der
prozentuale Anteil der zweiten Einkommensklasse beträgt 15,6%, die
Höhe der zweiten Säule entspricht jedoch nur einem Anteil von knapp
unter 2% (exakt 1,95%). Auf den darzustellenden Sachverhalt
(Anteilswert von 15,6%) kommt man nur, wenn man bedenkt, dass die
zweite "Säule" aus insgesamt 8 "Teilsäulen" á 100 DM zusammengesetzt
ist. Das Produkt 8*1,95 ergibt die gesuchte Größe 15,6. Anders
ausgedrückt: Das Produkt aus Breite (8) und Höhe (1,95) der "Säule",
also ihre Fläche, entspricht dem darzustellenden Sachverhalt.
Bivariate Verteilung; Gestapeltes Säulendiagramm
Bivariate Verteilung zweier kontinuierlicher Variablen
Graphische Darstellungen
Univariate VerteilungenKreisdiagramm
BalkendiagrammSäulendiagrammStabdiagramm
HistogrammPolygonzug
Stamm-und-Blatt-DiagrammBox-Plot
Bivariate Verteilungen2. Variable
kategorialVergleichmehrerer
Balken- oderSäulendiagramme
VergleichmehrererBox-Plots
kontinuierlich -Streudiagramm
1. Variable
kategorial kontinuierlich
Manipulieren mit Graphiken
• Beispiel: Bei einem Säulendiagramm wird auf der y-Achse nur ein Teil der Skalierung aufgeführt, so dass Unterschiede zwischen den Säulen überbetont werden.