29
SEMINAR: DATENERHEBUNG Einführung in SPSS/PASW

Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

Embed Size (px)

Citation preview

Page 1: Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

SEMINAR: DATENERHEBUNGEinführung in SPSS/PASW

Page 2: Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

Inhaltsübersicht

1. Intro (02.11.2010)2. Deskriptive Statistik (09.11.2010)3. Ausgaben (16.11.2010)4. Grafik und Übungen (23.11.2010)5. Wiederholung (30.11.2010)6. Datentyp Datum (07.12.2010)7. Theorie 1 (14.12.2010)

Restaufgaben aus 6. Theorie Wiederholung aus der Vorlesung

Page 3: Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

Aufgaben1. Berechnen Sie in der SPSS Arbeitsdatei „fahrtenbuch-01.sav“ den

Verbrauch zwischen 2 Betankungen über die folgende Formel: verbrauch=liter*100/diff_km

2. Berechnen Sie die durchschnittliche tägliche Fahrstrecke über die folgende Formel:

km_pro_tag=diff_km/diff_tage

3. Berechnen Sie in der SPSS Arbeitsdatei „ferien-01.sav“ in der Variablen „wartezeit“ jeweils den Abstand zwischen Beginn der Schulzeit und Anfang der Ferien bei aufeinanderfolgenden Ferienterminen, also z.B. die Anzahl der Tage zwischen Ende der Sommerferien und Beginn der Herbstferien; also die „Wartezeit auf die nächsten Ferien“:

wartezeit = CTIME.DAYS(beginn) – CTIME.DAYS(LAG(ende))-1

4. Erklären Sie die oben verwendete Formel zur Berechung der Wartezeit. Betrachten Sie insbesondere (fiktiv) direkt aufeinanderfolgende Ferientermine.

5. Öffnen Sie wieder „persoenlichkeiten-01.sav“ und berechnen Sie, wieviele Jahre Überlappung es zwischen den Lebensdaten von Leibniz und Newton gab.

6. Berechnen Sie den Zeitraum zwischen dem Tod von Newton und der Geburt von Einstein.

7. Ordnen Sie die Lebensdaten der Persönlichkeiten auf einer Zeitleiste an.

Page 4: Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

Vergleichen von empirischen Verteilungen Ein Box- und Whisker-Plot enthält

folgende Informationen

Page 5: Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

Boxplot in SPSS

Grafik > Interaktiv > Boxplot

Page 6: Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

Boxplot in SPSS

Page 7: Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

Bearbeiten von Diagrammen

1. Erstellen Sie einen Box- und Whisker-Plot für die Variable „Gewicht“ (gewicht) aus „broca-01.sav“, einmal gesamt und einmal getrennt nach Männern und Frauen.

2. Das Statistische Bundesamt bietet in der Genesis Online-Datenbank, erreichbar über „https://www-genesis.destatis.de/genesis/online/logon“, die Möglichkeit zum Download von diversen statistischen Daten, u.a. im Format Excel. Laden Sie die folgende Tabelle im Format Excel herunter: Tabelle 21311-0003; Studierende: Deutschland, Semester, Nationalität, Geschlecht, Studienfach; eingeschränkt auf das WS 2006/2007.

3. Bereinigen Sie die Excel-Datei „studiengang-ws0607.xls“ für den Import nach SPSS.

4. Berechnen Sie für die SPSS Datendatei „studiengang-ws0607.sav“ eine neue Variable „D_Gesamt“ mit der Gesamtzahl der männlichen und weiblichen deutschen Studenten. Stellen Sie die 10 Studiengänge mit den meisten Studenten in einem Diagramm dar. Vergleichen Sie mit den 10 Studiengängen, die für Männer und Frauen getrennt am beliebtesten sind.

5. Experimentieren Sie mit Hoch-/Tief-Diagrammen (Beispiel: Aktien, Fieberkurven) oder Fehlerbalken-Diagrammen (Beispiel: Meßfehler in physikalischen Experimenten). Verwenden Sie hierzu zum Beispiel die Kurse der „Hypo Real Estate“ (WKN: 802770 ISIN: DE0008027707).

6. Verschaffen Sie sich einen Überblick über die weiteren verfügbaren Diagrammtypen.

7. Speichern Sie abschließend das Sitzungsprotokoll.

Page 8: Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

THEORIEBLOCK

Page 9: Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

Inhalte des Theorieblocks

1. Zufallsexperimente, Zufallsvariablen und Wahrscheinlichkeit

2. Überblick über die Mathematische Statistik

3. Berechnen eines Konfidenz-Intervalls

Page 10: Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

Inhalte des Theorieblocks

1. Zufallsexperimente, Zufallsvariablen und Wahrscheinlichkeit

2. Überblick über die Mathematische Statistik

3. Berechnen eines Konfidenz-Intervalls

Page 11: Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

Glossar 1/2

Zufallsexperiment Ein Versuch, dessen Durchführung „zufällig“ zu genau einem von mehreren

möglichen Ergebnissen führt (z.B. Lotterie) Kombinatorik

„Kunst des Zählens“ Ist die Sprache bzw. theoretische Einbettung von Zufallsexperimenten z.B.: Auswahl einer Stichprobe aus der Grundgesamtheit, bei der m Objekte

„zufällig“ ohne Zurücklegen aus der Grundgesamtheit mit n Objekten ausgewählt werden“

Ergebnismenge Ω (eines Zufallsexperimentes) Menge aller möglichen Ergebnisse, die das Zufallsexperiment haben kann

Elementarereignis ω Die einzelnen Ergebnisse, die in Ω vereinigt sind

Wahrscheinlichkeit P (die Abbildung/Funktion) Abbildung von Ω in das in das Intervall [0,1], die jedem Elementarereignis ω

eine positive Zahl p zuordnet Wahrscheinlichkeit p (der Wert für jedes Elementarereignis)

Beschreibt, wie wahrscheinlich das Eintreten eines spezifischen Ereignisses ist

Page 12: Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

Wahrscheinlichkeit P (Abbildung) Eigenschaften von P(ω) = p

P({ω})>0 P({ω 1, ω 2}) = P({ω 1}) + P({ω 2}) P(Ω)=1

Möglichkeiten, woher man die genaue Beschaffenheit von P ableitet Schätzung Plausible Annahmen Anhand von Erfahrungwerten Mathematische Theorie

Page 13: Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

Glossar 2/2

Zufallsvariable X (Variablen in SPSS) Zufallsvariablen sind die beobachtbaren

Merkmale oder Eigenschaften von Objekten oder Personen (Fälle in SPSS), die in einem Zufallsexperiment ausgewählt werden

Wahrscheinlichkeitsverteilung PX

Diese ist die Summe aller Wahrscheinlichkeiten für elementare Ergebnisse, die einen bestimmten Wert von X liefern.

Page 14: Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

Beispiel aus unseren Datensätzen Broca-01.sav

Ω - Menschen auf diesem Planeten ω - ein bestimmter Mensch P - die Wahrscheinlichkeit mit der wir einen bestimmten

Menschen auswählen (im Idealfall gleichverteilt) ωn - Menschen, deren Daten wir erhoben haben (Unsere

konkreten Fälle in SPSS) X1(ω) - Körpergewicht eines bestimmten Menschen

X2(ω) - Körpergröße eines bestimmten Menschen PX - Sowohl Körpergewicht als auch Körpergröße gelten

als normalverteilt (basierend auf Erfahrungwerten bzw. vorangegangen Messungen) mit einem Mittelwert (~1.75m?) und einer Standardabweichung (0.15m?).

Page 15: Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

Vor dem Experiment ist nicht nach dem Experiment Streng genommen kann man nur VOR dem

Experiment Aussagen über mögliche Werte und deren Wahrscheinlichkeiten treffen (Großbuchstaben).

NACH dem Experiment steht genau ein beobachteter Wert zur Verfügung (Kleinbuchstaben)

Page 16: Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

Dichtefunktion der Normalverteilung

Page 17: Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

Aufgaben zum Weiterdenken

1. Kennen Sie Spiele, die auf Zufallsexperimenten beruhen?2. Viele Spiele haben Elemente von „Glück und Zufall“ und „Strategie“. Spielen

Sie lieber Schach oder BlackJack?3. Wie lautet die Verteilung der Augenzahl beim Zufallsexperiment "Werfen von

2 echten Würfeln"? (siehe unten)4. Zeichnen Sie die Verteilungsfunktion und berechnen Sie einige Kenngrößen

der Verteilung (Grundgesamtheit).5. Führen Sie das Zufallsexperiment nun 10-mal mit 2 echten Würfeln durch

und vergleichen Sie die empirische und die tatsächliche Verteilungsfunktion. Berechnen Sie einige Kenngrößen Ihrer Stichprobe und vergleichen Sie mit den korrespondierenden Kenngrößen der Grundgesamtheit.

6. Kennen Sie den Begriff Gauß'sche Glockenkurve? Unter welchem Namen ist die zugehörige Verteilung bekannt? Worin besteht die besondere Bedeutung dieser Verteilung? Der "alte" 10-DM-Schein enthält sowohl eine Grafik der Dichtefunktion wie auch die recht komplizierte explizite Formel der Dichtefunktion (siehe unten).

7. Wie lautet der zentrale Grenzwertsatz? Wie ist er zu interpretieren?8. Welche weiteren wichtigen diskreten und kontinuierlichen Verteilungen sind

Ihnen bekannt und wie lauten jeweils die Verteilungsfunktionen?

Page 18: Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

Inhalte des Theorieblocks

1. Zufallsexperimente, Zufallsvariablen und Wahrscheinlichkeit

2. Überblick über die Mathematische Statistik

3. Berechnen eines Konfidenz-Intervalls

Page 19: Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

Ziehen von Rückschlüssen aus einer Stichprobe Historisch:

Erste statistische Erhebungen in Preußen zur Zeit des Großen Kurfürsten (1620 – 1688) durchgeführt und Ergebnisse als Staatsgeheimnisse gehütet

Page 20: Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

Stichprobe vs. Grundgesamtheit

Page 21: Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

Der Tenor von Statistik

Frage: Welche Aussage über eine unbekannte Kennzahl

(wahrer Parameter) der Grundgesamtheit kann aufgrund der Beobachtung der korrespondierenden realisierten (empirischen, beobachteten, bekannten) Kennzahl der Stichprobe gemacht werden?

Mittel: Entwicklung und Begründung von Verfahren zur

Auswertung von zufallsabhängigen Beobachtungsdaten, mit denen sich "vernünftige" Entscheidungen bei ungewisser Sachlage treffen lassen

Page 22: Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

Konfidenzniveau

Ein Verfahren hat eine Sicherheit (Erfolgswahrscheinlichkeit, Konfidenz-Niveau) von z.B. 0.95, wenn es im Mittel in 95 von 100 Durchführungen zu einer richtigen Entscheidung führt, und entsprechend eine Irrtumswahrscheinlichkeit von 0.05; d.h. Im Mittel führen 5 von 100 Durchführungen zu einer falschen Entscheidung.

Page 23: Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

Einschränken der gesuchten theoretischen Verteilungauf eine Klasse (parametrische Tests) Bei konkreten Problemen liegen oft genaue oder

gewisse Kenntnisse hinsichtlich der "Rahmenbedingungen" eines Zufallsexperimentes vor (z.B. bei einer Lotterie: "n-malige Stichprobenentnahme ohne Zurücklegen von Kugeln"), so dass die Menge aller in Frage kommenden theoretischen Verteilungen auf eine Klasse von Verteilungen eingeschränkt werden kann.

Page 24: Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

Parametrische Tests

Verteilungsannahme Einschränkung auf eine Klasse von

Verteilungen, die sich nur noch durch Kenngrößen wie Lage- oder Streumaße (z.B. Erwartungswert, Varianz) unterscheiden

Zufallsvariablen Abhängig oder unabhängig? Meist werden sie als unabhängig

vorausgesetzt

Page 25: Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

Statistische Fragestellungen Beispiel:

Bei 100-maligem Würfeln mit den Augensummen x1,…,x100 interessiere der unbekannte Erwartungswert μ der gewürfelten Augenzahl. Bei einem „ausbalancierten“ Würfel liegt dieser bei 3.5

1. Punkt-Schätzung: Welcher Schätzwert T(x1,…,xn) kann für den Erwartungswert aus der

Stichprobe S(x1,…,xn) abgeleitet werden?

2. Konfidenz-Intervall-Schätzung Welcher Schätzwert für ein Intervall, das den unbekannten wahren

Erwartungswert mit vorgegebener Sicherheit enthält, kann aus der Stichprobe abgeleitet werden?

3. Hypothesentest Wie kann aufgrund der Stichprobe S(x1,…,xn) eine begründete

Entscheidung gegeben werden, ob die Nullhypothese μ=3.5 akzeptiert werden kann? Wie groß sind die Fehler 1. und 2. Art (α&β)?

Page 26: Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

Entscheidungsregel

Nach der Durchführung eines Hypothesentests trifft man eine Entscheidung über Ablehnung oder Annahme der Null-Hypothese. Die Entscheidung ist abhängig vom gewählten statistischen Verfahren und ist mit einer gewissen Wahrscheinlichkeit falsch (α-β)

Page 27: Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

Hypothesentest auf 1 Blick Null-Hypothese H Testgröße T

Zum Überprüfen von H

Kritischer Wert c Trennt Annahme- und Ablehnungsbreich von H. Legt

damit die Entscheidungsregel fest Jedem c ist eindeutig ein α und ein entsprechendes

Konfidenz-Niveau (1-α) zugeordnet.

Page 28: Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

Inhalte des Theorieblocks

1. Zufallsexperimente, Zufallsvariablen und Wahrscheinlichkeit

2. Überblick über die Mathematische Statistik

3. Berechnen eines Konfidenz-Intervalls

Page 29: Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro (02.11.2010) 2. Deskriptive Statistik (09.11.2010) 3. Ausgaben (16.11.2010) 4. Grafik und Übungen (23.11.2010)

Vielen Dank für Eure Aufmerksamkeit