29
| | Seminar fรผr Statistik 17.09.2014 Markus Kalisch 1 Lineare Regression 1

Lineare Regression 1 - stat.ethz.chย ยท Seminar fรผr Statistik | | Dummy Variable Zwei levels: Eine binรคre Dummy Variable ๐‘–=0, falls Person i mรคnnlich ist ๐‘–=1, falls Person

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

||Seminar fรผr Statistik 17.09.2014Markus Kalisch 1

Lineare Regression 1

||Seminar fรผr Statistik

Konzepte von einer breiten Auswahl von Methoden

verstehen

Umsetzung mit R: Daten einlesen, Daten analysieren,

Grafiken erstellen und exportieren

17.09.2014((Vorname Nachname)) 2

Statistik 2: Ziele

||Seminar fรผr Statistik

1-6: Erweiterungen der Linearen Regression

(Faktoren, Interaktion, GLM, Mixed Effects, ANOVA)

7: Kategorielle Daten

8: Poweranalyse (Stichprobengrรถsse)

9-10: Design von Experimenten

11-12: Unsupervised Learning (PCA, Clustering)

13: Fehlende Werte, Reproduzierbarkeit

14: Wiederholung

Erstes Mal: Feedback besonders wertvoll !

17.09.2014Markus Kalisch 3

Fahrplan

||Seminar fรผr Statistik

Homepage: http://stat.ethz.ch/education/semesters/as2014/statistik2

Kein Skript; konkrete Buchempfehlungen pro Thema oder Folien

รœbungen: Konzeptfragen (Quiz) & Anwendung in R

Stil der รœbungsstunde: Laptop mitbringen, Serien lรถsen, Assistent

fragen

R hat hohes Gewicht in dieser Vorlesung

Zur Wiederholung: etutoR

17.09.2014Markus Kalisch 4

Administartion 1/2: Vorlesung & รœbungen

||Seminar fรผr Statistik

180 min schriftlich am Computer

(es soll keine Zeitnot geben)

Multiple Choice Fragen:

- Konzepte

- Datenanalyse

R soll (wie ein Taschenrechner) verwendet werden um

Aufgaben zu lรถsen

Prรผfungsaufgaben werden sehr รคhnlich sein wie

รœbungsaufgaben

17.09.2014Markus Kalisch 5

Administration 2/2: Prรผfung

||Seminar fรผr Statistik 17.09.2014Markus Kalisch 6

Literatur: ISL

Online erhรคltlich via ETH Bibliothek, wenn man im ETH Netzwerk ist.

โ€œTรผrรถffner โ€œ

||Seminar fรผr Statistik 17.09.2014Markus Kalisch 7

Literatur: Experimental Design

Buch nur als Ergรคnzung

Via ETH Bibliothek erhรคltlich (leider nicht online)

โ€œTรผrรถffner โ€œ

||Seminar fรผr Statistik

๐‘Œ๐‘– = ๐›ฝ0 + ๐›ฝ1๐‘ฅ๐‘– + ๐œ€๐‘–, ๐œ€๐‘– โˆผ ๐‘ 0, ๐œŽ2 ๐‘–. ๐‘–. ๐‘‘.

Linear in Koeffizienten

Schรคtzer ๐›ฝ๐‘– fรผr ๐›ฝ๐‘– minimieren Residuenquadratsumme

(RSS):

๐›ฝ0, ๐›ฝ1 ๐‘š๐‘–๐‘›๐‘–๐‘š๐‘–๐‘’๐‘Ÿ๐‘’๐‘›

๐‘–=1

๐‘›

๐‘ฆ๐‘– โˆ’ ๐›ฝ0 + ๐›ฝ1๐‘ฅ๐‘–2

Unter obigen Annahmen:

t = ๐›ฝ๐‘– โˆ’ 0

๐‘†๐ธ ๐›ฝ๐‘–โˆผ ๐‘ก๐‘›โˆ’2

โ†’ t-Test in der Linearen Regression

17.09.2014Markus Kalisch 8

Wdh: Einfache Lineare Regression

||Seminar fรผr Statistik 17.09.2014Markus Kalisch 9

Intuition: Einfache Lineare Regression

||Seminar fรผr Statistik 17.09.2014Markus Kalisch 10

Verkaufszahlen

||Seminar fรผr Statistik 17.09.2014Markus Kalisch 11

Beispiel in R: Marketing Daten

๐‘†๐‘Ž๐‘™๐‘’๐‘ ๐‘– = 12.35 + 0.055 โˆ— ๐‘๐‘’๐‘ค๐‘ ๐‘๐‘Ž๐‘๐‘’๐‘Ÿ๐‘– + ๐œ€๐‘– ; ๐œ€๐‘– โˆผ ๐‘(0, 5.092)

95%-VI: 0.055 ยฑ 2 โˆ— 0.017 = 0.021; 0.089Effekt von โ€˜Newspaperโ€™ ist signifikant

(p-Wert = 0.001)

๐‘…2 = 0.052 โ†’ Modell erklรคrt nur

kleinen Anteil der Streuung in den

Daten

||Seminar fรผr Statistik 17.09.2014Markus Kalisch 12

Wdh: Multiple Lineare Regression

๐‘Œ๐‘– = ๐›ฝ0 + ๐›ฝ1๐‘ฅ๐‘–,1 +โ‹ฏ+ ๐›ฝ๐‘โˆ’1๐‘ฅ๐‘–,๐‘โˆ’1 + ๐œ€๐‘–, ๐œ€๐‘– โˆผ ๐‘ 0, ๐œŽ2 ๐‘–. ๐‘–. ๐‘‘.

Schรคtzer ๐›ฝ๐‘– fรผr ๐›ฝ๐‘– minimieren Residuenquadratsumme

(RSS):

๐›ฝ๐‘– ๐‘š๐‘–๐‘›๐‘–๐‘š๐‘–๐‘’๐‘Ÿ๐‘’๐‘›

๐‘–=1

๐‘›

๐‘ฆ๐‘– โˆ’ ๐›ฝ0 + ๐›ฝ1๐‘ฅ๐‘–,1 +โ‹ฏ+ ๐›ฝ๐‘โˆ’1๐‘ฅ๐‘–,๐‘โˆ’12

Unter obigen Annahmen:

t = ๐›ฝ๐‘– โˆ’ 0

๐‘†๐ธ ๐›ฝ๐‘–โˆผ ๐‘ก๐‘›โˆ’๐‘

โ†’ t-Test in der Linearen Regression

||Seminar fรผr Statistik 17.09.2014Markus Kalisch 13

Intuition: Multiple Lineare Regression

||Seminar fรผr Statistik 17.09.2014Markus Kalisch 14

Beispiel in R: Marketing Daten

๐‘…2 = 0.897 โ†’ relativ viel Streuung

wird durch Modell erklรคrt

Gegeben TV und Radio

ist Newspaper

nicht mehr signifikant

Wenn die Radio-Ausgaben um

eine Einheit erhรถht werden

und die TV- und Newspaper-Ausgaben

konstant bleiben,

erhรถhen sich die Sales um

0.189 (95%-VI: [0.171; 0.206]).

||Seminar fรผr Statistik

Faktor = Diskrete erklรคrende Variable

Bsp 1: Geschlecht

Bsp 2: Haarfarbe

Level = Werte, die ein Faktor annehmen kann

Bsp 1: Der Faktor โ€˜Geschlechtโ€™ hat 2 Levels: โ€˜Mannโ€™ und

โ€˜Frauโ€™

Bsp 2: Der Faktor โ€˜Haarfarbeโ€™ hat 4 Levels: โ€˜Rotโ€™, โ€˜Blondโ€™,

โ€˜Braunโ€™, โ€˜Schwarzโ€™

17.09.2014Markus Kalisch 15

Faktoren als erklรคrende Variable

||Seminar fรผr Statistik 17.09.2014Markus Kalisch 16

Schulden mit Kreditkarte

Datensatz โ€˜creditโ€™: Schulden erklรคren durch Geschlecht und Alter

||Seminar fรผr Statistik 17.09.2014Markus Kalisch 17

Faktoren: Intuition

Age

Balance

Age

Balance

Mรคnner:

๐ต๐‘Ž๐‘™๐‘Ž๐‘›๐‘๐‘’๐‘– = ๐›ฝ0 + ๐›ฝ1 โˆ— ๐ด๐‘”๐‘’๐‘–

โ€œReferenzlevelโ€ z.B. โ€œMรคnnerโ€

Frauen:

๐ต๐‘Ž๐‘™๐‘Ž๐‘›๐‘๐‘’๐‘– = ๐›ฝ0 + ๐›ฝ2 + ๐›ฝ1 โˆ— ๐ด๐‘”๐‘’๐‘–

Neuer Achsenabschnitt fรผr Frauen

||Seminar fรผr Statistik

Dummy Variable

Zwei levels: Eine binรคre Dummy Variable

๐‘ฅ๐‘– = 0, falls Person i mรคnnlich ist

๐‘ฅ๐‘– = 1, falls Person i weiblich ist

โ†’ ๐ต๐‘Ž๐‘™๐‘Ž๐‘›๐‘๐‘’๐‘– = ๐›ฝ0 + ๐›ฝ2 โˆ— ๐‘ฅ๐‘– + ๐›ฝ1 โˆ— ๐ด๐‘”๐‘’๐‘– Mehr als zwei levels (CH, D, USA):

- ein Referenzlevel (CH)

- eine binรคre Dummy Variablen fรผr jedes andere level

(D, USA)

Software regelt das im Detail

17.09.2014Markus Kalisch 18

Faktoren: Technik

||Seminar fรผr Statistik 17.09.2014Markus Kalisch 19

Beispiel in R: Faktoren

โ†’ ๐ต๐‘Ž๐‘™๐‘Ž๐‘›๐‘๐‘’๐‘– = 507.2 + 19.7 โˆ— ๐บ๐‘’๐‘›๐‘‘๐‘’๐‘Ÿ๐‘– + 0.047 โˆ— ๐ด๐‘”๐‘’๐‘– + ๐œ€๐‘–๐œ€๐‘– โˆผ ๐‘(0, 460.8

2)

Achsenabschnitt in der Gruppe mit dem

Referenzlevel (Mรคnner)

Verรคnderung des Achsenabschnitts, wenn

man von der Referenzgruppe (Mรคnner) in

die andere Gruppe (Frauen) wechselt.

Achsenabschnitt fรผr Frauen ist also:

507.2 + 19.7 = 526.9

Steigung ist in beiden Gruppen gleich

Mรคnner: ๐ต๐‘Ž๐‘™๐‘Ž๐‘›๐‘๐‘’๐‘– = 507.2 + 0.047 โˆ— ๐ด๐‘”๐‘’๐‘– + ๐œ€๐‘–, ๐œ€๐‘– โˆผ ๐‘(0, 460.82)

Frauen: ๐ต๐‘Ž๐‘™๐‘Ž๐‘›๐‘๐‘’๐‘– = 526.9 + 0.047 โˆ— ๐ด๐‘”๐‘’๐‘– + ๐œ€๐‘–, ๐œ€๐‘– โˆผ ๐‘(0, 460.82)

Age

Balance

||Seminar fรผr Statistik 17.09.2014Markus Kalisch 20

Beispiel in R: Schlussfolgerung

Es gibt keinen Hinweis darauf,

dass der Alter oder Geschlecht

einen Einfluss auf die Schulden haben

||Seminar fรผr Statistik

Der mittlere Schulden(ยซBalanceยป)unterschied zwischen

alten Mรคnnern und Frauen ist grรถsser als der mittlere

Schuldenunterschied zwischen jungen Mรคnnern und Frauen.

Richtig

oder

Falsch ?

17.09.2014Markus Kalisch 21

Beurteilen Sie gemรคss dem geschรคtzten Modell

Variable Schรคtzwert P-Wert

(Intercept) 500 0.0001

Age 0.1 0.00001

GenderFemale 20 0.003

Nehmen Sie folgenden R-Output an:

||Seminar fรผr Statistik

WW ist zwischen zwei (oder mehr) Variablen

Bsp: WW zwischen Age und Gender

WW zwischen Age und Gender:

Age hat je nach Gender einen unterschiedlichen Einfluss

auf die Zielgrรถsse (Balance)

Falls WW vorhanden: Steigungen in verschiedenen

Gruppen sind unterschiedlich

Praxis: Prรผfen, ob WW vorhanden ist

17.09.2014Markus Kalisch 22

Wechselwirkung (WW; Interaktion)

||Seminar fรผr Statistik 17.09.2014Markus Kalisch 23

Wechselwirkung: Intuition

Age

Balance

Modell ohne Interaktion:

๐ต๐‘Ž๐‘™๐‘Ž๐‘›๐‘๐‘’๐‘– = (๐›ฝ0 + ๐›ฝ2 โˆ— ๐‘ฅ๐‘–) + ๐›ฝ1 โˆ— ๐ด๐‘”๐‘’๐‘–

Modell mit Interaktion:

๐ต๐‘Ž๐‘™๐‘Ž๐‘›๐‘๐‘’๐‘– = (๐›ฝ0+๐›ฝ2 โˆ— ๐‘ฅ๐‘–) + (๐›ฝ1+๐›ฝ3 โˆ— ๐‘ฅ๐‘–) โˆ— ๐ด๐‘”๐‘’๐‘–

Age

Balance

Geraden parallel Geraden nicht parallel

Ist ๐›ฝ3 sign.

verschieden

von 0?

||Seminar fรผr Statistik

Effekt von einer Variable hรคngt von dem Wert einer

anderen Variable ab

Meistens: Wechselwirkung zwischen Faktor und

kontinuierlicher Variable

WW zw. zwei kontinuierlichen Variablen auch mรถglich

17.09.2014Markus Kalisch 24

Wechselwirkung

y

x1

x2

||Seminar fรผr Statistik

Notation in R:

Balance ~ Age + Gender + Age:Gender = Age * Gender

Konvention: Falls eine Wechselwirkung im Modell ist,

mรผssen auch die beteiligten Haupteffekte im Modell sein

17.09.2014Markus Kalisch 25

Wechselwirkung: Notation & Konvention

โ€œHaupteffekteโ€ โ€œWechselwirkungโ€

Age

Balance

Age

Balance

||Seminar fรผr Statistik 17.09.2014Markus Kalisch 26

Beispiel in R: Wechselwirkung

๐ต๐‘Ž๐‘™๐‘Ž๐‘›๐‘๐‘’๐‘– = 478.6 + 73.4 โˆ— ๐บ๐‘’๐‘›๐‘‘๐‘’๐‘Ÿ๐‘– + (0.56 โˆ’ 0.97 โˆ— ๐บ๐‘’๐‘›๐‘‘๐‘’๐‘Ÿ๐‘–) โˆ— ๐ด๐‘”๐‘’๐‘– + ๐œ€๐‘–๐œ€๐‘– โˆผ ๐‘(0, 461.3

2)

Mรคnner: ๐ต๐‘Ž๐‘™๐‘Ž๐‘›๐‘๐‘’๐‘– = 478.6 + 0.56 โˆ— ๐ด๐‘”๐‘’๐‘– + ๐œ€๐‘–, ๐œ€๐‘– โˆผ ๐‘(0, 461.32)

Frauen: ๐ต๐‘Ž๐‘™๐‘Ž๐‘›๐‘๐‘’๐‘– = 552.0 โˆ’ 0.41 โˆ— ๐ด๐‘”๐‘’๐‘– + ๐œ€๐‘–, ๐œ€๐‘– โˆผ ๐‘(0, 461.32)

Achsenabschnitt: Mรคnner

Steigung: Mรคnner

ร„nderung Achsenabschnitt: Frauen

ร„nderung Steigung: Frauen

||Seminar fรผr Statistik 17.09.2014Markus Kalisch 27

Beispiel in R: Schlussfolgerung

Wechselwirkung ist nicht signifikant

verschieden von 0.

Der Einfachheit halber bevorzugen

wir dann ein Modell ohne WW

(parallele Geraden).

Es gibt keinen Hinweis darauf,

dass der

Effekt von Alter auf die Schulden

vom Geschlecht abhรคngt

||Seminar fรผr Statistik

Im Alter von 50 Jahren haben Frauen im Schnitt grรถssere

Schulden als Mรคnner.

Richtig

oder

Falsch ?

17.09.2014Markus Kalisch 28

Beurteilen Sie gemรคss dem geschรคtzten Modell

Variable Schรคtzwert P-Wert

(Intercept) 500 0.0001

Age 1 0.00001

GenderFemale 20 0.003

Age:GenderFemale - 2 0.0002

Nehmen Sie folgenden R-Output an:

||Seminar fรผr Statistik

0.0 1.0 2.0 3.0

-22

61

0

x

y

Lade Daten aus csv-File; verschaffe รœberblick

(kont. Zielgrรถsse, eine kont. erklรคrende Var.,

ein Faktor oder eine zweite kont. erklรคrende Var.)

Fitte Lineare Regression;

- Ist WW nรถtig?

- Interpretation der Parameter?

Verstรคndnisfragen:

Z.B.: Empfehlen sie fรผr die

Daten im Plot ein Modell mit

oder ohne WW?

17.09.2014Markus Kalisch 29

Mรถgliche Prรผfungsfragen