Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
||Seminar fรผr Statistik
Konzepte von einer breiten Auswahl von Methoden
verstehen
Umsetzung mit R: Daten einlesen, Daten analysieren,
Grafiken erstellen und exportieren
17.09.2014((Vorname Nachname)) 2
Statistik 2: Ziele
||Seminar fรผr Statistik
1-6: Erweiterungen der Linearen Regression
(Faktoren, Interaktion, GLM, Mixed Effects, ANOVA)
7: Kategorielle Daten
8: Poweranalyse (Stichprobengrรถsse)
9-10: Design von Experimenten
11-12: Unsupervised Learning (PCA, Clustering)
13: Fehlende Werte, Reproduzierbarkeit
14: Wiederholung
Erstes Mal: Feedback besonders wertvoll !
17.09.2014Markus Kalisch 3
Fahrplan
||Seminar fรผr Statistik
Homepage: http://stat.ethz.ch/education/semesters/as2014/statistik2
Kein Skript; konkrete Buchempfehlungen pro Thema oder Folien
รbungen: Konzeptfragen (Quiz) & Anwendung in R
Stil der รbungsstunde: Laptop mitbringen, Serien lรถsen, Assistent
fragen
R hat hohes Gewicht in dieser Vorlesung
Zur Wiederholung: etutoR
17.09.2014Markus Kalisch 4
Administartion 1/2: Vorlesung & รbungen
||Seminar fรผr Statistik
180 min schriftlich am Computer
(es soll keine Zeitnot geben)
Multiple Choice Fragen:
- Konzepte
- Datenanalyse
R soll (wie ein Taschenrechner) verwendet werden um
Aufgaben zu lรถsen
Prรผfungsaufgaben werden sehr รคhnlich sein wie
รbungsaufgaben
17.09.2014Markus Kalisch 5
Administration 2/2: Prรผfung
||Seminar fรผr Statistik 17.09.2014Markus Kalisch 6
Literatur: ISL
Online erhรคltlich via ETH Bibliothek, wenn man im ETH Netzwerk ist.
โTรผrรถffner โ
||Seminar fรผr Statistik 17.09.2014Markus Kalisch 7
Literatur: Experimental Design
Buch nur als Ergรคnzung
Via ETH Bibliothek erhรคltlich (leider nicht online)
โTรผrรถffner โ
||Seminar fรผr Statistik
๐๐ = ๐ฝ0 + ๐ฝ1๐ฅ๐ + ๐๐, ๐๐ โผ ๐ 0, ๐2 ๐. ๐. ๐.
Linear in Koeffizienten
Schรคtzer ๐ฝ๐ fรผr ๐ฝ๐ minimieren Residuenquadratsumme
(RSS):
๐ฝ0, ๐ฝ1 ๐๐๐๐๐๐๐๐๐๐
๐=1
๐
๐ฆ๐ โ ๐ฝ0 + ๐ฝ1๐ฅ๐2
Unter obigen Annahmen:
t = ๐ฝ๐ โ 0
๐๐ธ ๐ฝ๐โผ ๐ก๐โ2
โ t-Test in der Linearen Regression
17.09.2014Markus Kalisch 8
Wdh: Einfache Lineare Regression
||Seminar fรผr Statistik 17.09.2014Markus Kalisch 11
Beispiel in R: Marketing Daten
๐๐๐๐๐ ๐ = 12.35 + 0.055 โ ๐๐๐ค๐ ๐๐๐๐๐๐ + ๐๐ ; ๐๐ โผ ๐(0, 5.092)
95%-VI: 0.055 ยฑ 2 โ 0.017 = 0.021; 0.089Effekt von โNewspaperโ ist signifikant
(p-Wert = 0.001)
๐ 2 = 0.052 โ Modell erklรคrt nur
kleinen Anteil der Streuung in den
Daten
||Seminar fรผr Statistik 17.09.2014Markus Kalisch 12
Wdh: Multiple Lineare Regression
๐๐ = ๐ฝ0 + ๐ฝ1๐ฅ๐,1 +โฏ+ ๐ฝ๐โ1๐ฅ๐,๐โ1 + ๐๐, ๐๐ โผ ๐ 0, ๐2 ๐. ๐. ๐.
Schรคtzer ๐ฝ๐ fรผr ๐ฝ๐ minimieren Residuenquadratsumme
(RSS):
๐ฝ๐ ๐๐๐๐๐๐๐๐๐๐
๐=1
๐
๐ฆ๐ โ ๐ฝ0 + ๐ฝ1๐ฅ๐,1 +โฏ+ ๐ฝ๐โ1๐ฅ๐,๐โ12
Unter obigen Annahmen:
t = ๐ฝ๐ โ 0
๐๐ธ ๐ฝ๐โผ ๐ก๐โ๐
โ t-Test in der Linearen Regression
||Seminar fรผr Statistik 17.09.2014Markus Kalisch 14
Beispiel in R: Marketing Daten
๐ 2 = 0.897 โ relativ viel Streuung
wird durch Modell erklรคrt
Gegeben TV und Radio
ist Newspaper
nicht mehr signifikant
Wenn die Radio-Ausgaben um
eine Einheit erhรถht werden
und die TV- und Newspaper-Ausgaben
konstant bleiben,
erhรถhen sich die Sales um
0.189 (95%-VI: [0.171; 0.206]).
||Seminar fรผr Statistik
Faktor = Diskrete erklรคrende Variable
Bsp 1: Geschlecht
Bsp 2: Haarfarbe
Level = Werte, die ein Faktor annehmen kann
Bsp 1: Der Faktor โGeschlechtโ hat 2 Levels: โMannโ und
โFrauโ
Bsp 2: Der Faktor โHaarfarbeโ hat 4 Levels: โRotโ, โBlondโ,
โBraunโ, โSchwarzโ
17.09.2014Markus Kalisch 15
Faktoren als erklรคrende Variable
||Seminar fรผr Statistik 17.09.2014Markus Kalisch 16
Schulden mit Kreditkarte
Datensatz โcreditโ: Schulden erklรคren durch Geschlecht und Alter
||Seminar fรผr Statistik 17.09.2014Markus Kalisch 17
Faktoren: Intuition
Age
Balance
Age
Balance
Mรคnner:
๐ต๐๐๐๐๐๐๐ = ๐ฝ0 + ๐ฝ1 โ ๐ด๐๐๐
โReferenzlevelโ z.B. โMรคnnerโ
Frauen:
๐ต๐๐๐๐๐๐๐ = ๐ฝ0 + ๐ฝ2 + ๐ฝ1 โ ๐ด๐๐๐
Neuer Achsenabschnitt fรผr Frauen
||Seminar fรผr Statistik
Dummy Variable
Zwei levels: Eine binรคre Dummy Variable
๐ฅ๐ = 0, falls Person i mรคnnlich ist
๐ฅ๐ = 1, falls Person i weiblich ist
โ ๐ต๐๐๐๐๐๐๐ = ๐ฝ0 + ๐ฝ2 โ ๐ฅ๐ + ๐ฝ1 โ ๐ด๐๐๐ Mehr als zwei levels (CH, D, USA):
- ein Referenzlevel (CH)
- eine binรคre Dummy Variablen fรผr jedes andere level
(D, USA)
Software regelt das im Detail
17.09.2014Markus Kalisch 18
Faktoren: Technik
||Seminar fรผr Statistik 17.09.2014Markus Kalisch 19
Beispiel in R: Faktoren
โ ๐ต๐๐๐๐๐๐๐ = 507.2 + 19.7 โ ๐บ๐๐๐๐๐๐ + 0.047 โ ๐ด๐๐๐ + ๐๐๐๐ โผ ๐(0, 460.8
2)
Achsenabschnitt in der Gruppe mit dem
Referenzlevel (Mรคnner)
Verรคnderung des Achsenabschnitts, wenn
man von der Referenzgruppe (Mรคnner) in
die andere Gruppe (Frauen) wechselt.
Achsenabschnitt fรผr Frauen ist also:
507.2 + 19.7 = 526.9
Steigung ist in beiden Gruppen gleich
Mรคnner: ๐ต๐๐๐๐๐๐๐ = 507.2 + 0.047 โ ๐ด๐๐๐ + ๐๐, ๐๐ โผ ๐(0, 460.82)
Frauen: ๐ต๐๐๐๐๐๐๐ = 526.9 + 0.047 โ ๐ด๐๐๐ + ๐๐, ๐๐ โผ ๐(0, 460.82)
Age
Balance
||Seminar fรผr Statistik 17.09.2014Markus Kalisch 20
Beispiel in R: Schlussfolgerung
Es gibt keinen Hinweis darauf,
dass der Alter oder Geschlecht
einen Einfluss auf die Schulden haben
||Seminar fรผr Statistik
Der mittlere Schulden(ยซBalanceยป)unterschied zwischen
alten Mรคnnern und Frauen ist grรถsser als der mittlere
Schuldenunterschied zwischen jungen Mรคnnern und Frauen.
Richtig
oder
Falsch ?
17.09.2014Markus Kalisch 21
Beurteilen Sie gemรคss dem geschรคtzten Modell
Variable Schรคtzwert P-Wert
(Intercept) 500 0.0001
Age 0.1 0.00001
GenderFemale 20 0.003
Nehmen Sie folgenden R-Output an:
||Seminar fรผr Statistik
WW ist zwischen zwei (oder mehr) Variablen
Bsp: WW zwischen Age und Gender
WW zwischen Age und Gender:
Age hat je nach Gender einen unterschiedlichen Einfluss
auf die Zielgrรถsse (Balance)
Falls WW vorhanden: Steigungen in verschiedenen
Gruppen sind unterschiedlich
Praxis: Prรผfen, ob WW vorhanden ist
17.09.2014Markus Kalisch 22
Wechselwirkung (WW; Interaktion)
||Seminar fรผr Statistik 17.09.2014Markus Kalisch 23
Wechselwirkung: Intuition
Age
Balance
Modell ohne Interaktion:
๐ต๐๐๐๐๐๐๐ = (๐ฝ0 + ๐ฝ2 โ ๐ฅ๐) + ๐ฝ1 โ ๐ด๐๐๐
Modell mit Interaktion:
๐ต๐๐๐๐๐๐๐ = (๐ฝ0+๐ฝ2 โ ๐ฅ๐) + (๐ฝ1+๐ฝ3 โ ๐ฅ๐) โ ๐ด๐๐๐
Age
Balance
Geraden parallel Geraden nicht parallel
Ist ๐ฝ3 sign.
verschieden
von 0?
||Seminar fรผr Statistik
Effekt von einer Variable hรคngt von dem Wert einer
anderen Variable ab
Meistens: Wechselwirkung zwischen Faktor und
kontinuierlicher Variable
WW zw. zwei kontinuierlichen Variablen auch mรถglich
17.09.2014Markus Kalisch 24
Wechselwirkung
y
x1
x2
||Seminar fรผr Statistik
Notation in R:
Balance ~ Age + Gender + Age:Gender = Age * Gender
Konvention: Falls eine Wechselwirkung im Modell ist,
mรผssen auch die beteiligten Haupteffekte im Modell sein
17.09.2014Markus Kalisch 25
Wechselwirkung: Notation & Konvention
โHaupteffekteโ โWechselwirkungโ
Age
Balance
Age
Balance
||Seminar fรผr Statistik 17.09.2014Markus Kalisch 26
Beispiel in R: Wechselwirkung
๐ต๐๐๐๐๐๐๐ = 478.6 + 73.4 โ ๐บ๐๐๐๐๐๐ + (0.56 โ 0.97 โ ๐บ๐๐๐๐๐๐) โ ๐ด๐๐๐ + ๐๐๐๐ โผ ๐(0, 461.3
2)
Mรคnner: ๐ต๐๐๐๐๐๐๐ = 478.6 + 0.56 โ ๐ด๐๐๐ + ๐๐, ๐๐ โผ ๐(0, 461.32)
Frauen: ๐ต๐๐๐๐๐๐๐ = 552.0 โ 0.41 โ ๐ด๐๐๐ + ๐๐, ๐๐ โผ ๐(0, 461.32)
Achsenabschnitt: Mรคnner
Steigung: Mรคnner
รnderung Achsenabschnitt: Frauen
รnderung Steigung: Frauen
||Seminar fรผr Statistik 17.09.2014Markus Kalisch 27
Beispiel in R: Schlussfolgerung
Wechselwirkung ist nicht signifikant
verschieden von 0.
Der Einfachheit halber bevorzugen
wir dann ein Modell ohne WW
(parallele Geraden).
Es gibt keinen Hinweis darauf,
dass der
Effekt von Alter auf die Schulden
vom Geschlecht abhรคngt
||Seminar fรผr Statistik
Im Alter von 50 Jahren haben Frauen im Schnitt grรถssere
Schulden als Mรคnner.
Richtig
oder
Falsch ?
17.09.2014Markus Kalisch 28
Beurteilen Sie gemรคss dem geschรคtzten Modell
Variable Schรคtzwert P-Wert
(Intercept) 500 0.0001
Age 1 0.00001
GenderFemale 20 0.003
Age:GenderFemale - 2 0.0002
Nehmen Sie folgenden R-Output an:
||Seminar fรผr Statistik
0.0 1.0 2.0 3.0
-22
61
0
x
y
Lade Daten aus csv-File; verschaffe รberblick
(kont. Zielgrรถsse, eine kont. erklรคrende Var.,
ein Faktor oder eine zweite kont. erklรคrende Var.)
Fitte Lineare Regression;
- Ist WW nรถtig?
- Interpretation der Parameter?
Verstรคndnisfragen:
Z.B.: Empfehlen sie fรผr die
Daten im Plot ein Modell mit
oder ohne WW?
17.09.2014Markus Kalisch 29
Mรถgliche Prรผfungsfragen