Regressió - UPFsatorra/M/M2012Setmanes12.pdfla Y i el conjunt de les variables explicatives, no...

Preview:

Citation preview

Regressió

> Rendiment en Matemàtiques,

> Nombre de llibres a casa

Pisa 2003

> Rendiment en Matemàtiques,

> Nombre de llibres a casa

Pisa 2003

Pisa 2003 Regressió Lineal ?

Pisa 2003 Regressió Lineal ?

Pisa 2003 Regressió Lineal ?

Regressió Lineal

Regression Model

Y = α + β X + ε

Ε (ε) = 0

V(ε)= σ2

Linear relation: y = 1 + .6 X

Linear relation and sample data

Sample Data: Scatterplot

Fitted Regression

FYi = 1.02 + .64 Xi , R2=.74 s.e.: (.037) t-value: 17.07

Regression coeficient of X is significant (5% significance level), with the expected value of Y icreasing .64 for each unit increase of X. The 95% confidence interval for the regression coefficient is

[.64-1.96*.037, . .64+1.96*.037]=[.57, .71]

74% of the variation of Y is explained by the variation of X

Regression analysis with SPSS

Estimación

Fitted regression line

Residual plot

Variació Mostral

Fitted regression line a= 0.5789 b=0.6270

Fitted and true regression lines: a= 0.5789 b=0.6270 α=1, β=.6

Fitted regression line:

a= 1.0232203, b= 0.6436286 α=1, β=.6

Fitted and true regression lines in repeated (20) sampling

α=1, β=.6

Correlació lineal

Scatterplot for various values of correlation

ALERTA! : r = 0 , tot i que hi ha una relació funcional exacta (no lineal!)

> cbind(x,y) x y [1,] -10 100 [2,] -9 81 [3,] -8 64 [4,] -7 49 [5,] -6 36 [6,] -5 25 [7,] -4 16 [8,] -3 9 [9,] -2 4 [10,] -1 1 [11,] 0 0 [12,] 1 1 [13,] 2 4 [14,] 3 9 [15,] 4 16 [16,] 5 25 [17,] 6 36 [18,] 7 49 [19,] 8 64 [20,] 9 81 [21,] 10 100 >

Tipus d’associació

Diagrama de dispersió

• Aquesta és una relació lineal.

– Associació positiva: comforme creix el percentatge de BA’s creix ingressos per càpita

Recta de regressió • La recta de regressió és la de millor ajust al conjunt de punts. •  La fem servir per descriure l’associació entre les dues variables. • Si tots els punts cauen sobre la recta, direm que tenim una relació lineal perfecta.

Coefficients de regressió

• El coeficient de regressió NO és un bon indicador de la intensitat de la relació • Dos diagrames de dispersió amb diferents dispersions poden produir la mateixa recta de regressió.

Coeficients de regressió

•  El coeficient de regressió és el pendent de la recta de regressió, expressa la naturalesa d’ associació positiva o negativa entre les dues variables.

• Quantifica la magnitud del impacte d’un canvi de la variable independent sobre la variable dependent.

• Quan més gran és el coeficient de regressió més gran és aquest canvi.

Diagrames de dispersió •  L’anàlisi de regressió empra variables

quantiatives. •  Previ a l’anàlisi de regressió és interessant

inspeccionar gràfics de dispersió – Per què?

• L’anàlisi de regressió assumeix que la relació és lineal. Si observeu relació curvilinea …?

Graphing Relationships

Matrixplot to make a plot of a lot of variables

Specify variables

Graphing Relationships

Result in output window

Graphing Relationships

You can edit the Graph like you edited a table by opening the graph (click with right mouse button on the graph and choose Open)

Graphing Relationships

Graphing Relationships Now choose Chart | Options

Graphing Relationships Then ask for a fit line

Graphing Relationships Some remarks:

- GDP is related in a non linear way with other variables

-  variable Aids Cases we have a very influential point (not an outlier, but influential!)

-  correlation between female life expectation and male life expectation is almost 1

Causalitat: coses que cal recordar •  La regressió descriu associació, no causalitat. •  L’associació és requisit indispensable per inferir

causalitat, també: 1.  Les variables independents han de precedir (en el

temps) la variable dependent. 2.  Les dues variables tenen una relació en teoria

(relació lineal o curvilínea). 3.  Variables independents complementàries han de ser

excloses

Regressió Múltiple

Efecto de Cultural Possession of the family

Per edat

Gènere

1 is Female, 2 is Male

Coeficient de correlació de Pearson

•  Per determinar la intensitat de la relació mirem la proximitat dels punts a la recta de regressió (distància vertical). Quan més a prop, més intensa és la relació; quan més lluny, més lleu és la relació.

•  El coeficient de correlació de Pearson r varia entre -1 a + 1; 0 expressa que no hi ha cap relació lineal, -1 o +1 expressa que hi ha una relació lineal exacte.

Lectura de les taules

• Quan feu la regressió amb SPSS obteniu tres taules. Cada una d’elles expressa uns aspectes concrets de l’anàlisi: •  La primera taula fa referència al resum de l’ajust del model. R és el valor absolut (sense signe) del coeficient de correlació de Pearson entre la variable Y i la predicció de Y emprant totes les variables explicatives. En el nostre cas, R és .736

R-quadrat

• R-quadrat: proporció de variància de la variable dependent (ingressos per càpita) explicada pel conjunt de les variables explicatives, en aquest cas el nivell d’educació. • Observem que el 54.2% de la variable ingressos per càpita és explicada per la variació de la variable educació. Noteu que aquesta una mesura conjunta de la intensitat de la associació entre la Y i el conjunt de les variables explicatives, no reflecteix la relació de la Y amb cap variable concreta. •  R-quadrat (R-Square) s’anomena també coeficient de determinació del model regressió.

R-quadrat ajustat

• Com més predictors posem al model, més augmenta el R2. Aquest augment però pot ser només degut a l’atzar.

• El adjusted R-square intenta donar un impressió més honesta del R-quadrat. El valor R-square era .542, mentre que el valor Adjusted R-square era .532. No hi ha molta diferència, ja que només tenim una sola variable.

•  Quan el nombre d’observacions és petit, i el nombre de variables és gran, poden observar diferències més substancials entre els dos R2.

• Quan el nombre d’observacions és molt gran, en comparació amb el nombre de variables, les diferències entre aquests dos coeficients serà petita.

ANOVA

• El p-valor associat al valor – F d’ aquesta taula és molt petit: 0.0000 • Aqusts valors atenen a la pregunta: “les variables independents són significatives com a predictores de Y?”

• El valor – p l’heu de comparar amb el vostre nivell- alpha (sovint 0.05) . Si és més petit, la conclusió és que “Si, les variables independents prediuen de manera significativa la variable dependent Y”.

• Si el valor-p és més gran que 0.05, aleshores direm que el conjunt de les variables explivatives no mostren relació estadística (o significativa) amb Y.

Coeficients

• B – Aquests són els valors dels coeficients de la recta de regressió.

• Aquests s’anomen coeficients no-estandarditzats, són mesurats en la seva escala original, no poden comparar-se uns amb els altres, donats que varien amb l’escala de mesura de les variables.

Coeficients

• Aquesta taula correspon a un model amb dues variables explicatives. Mostra la necessitat de mirar els valors estandarditzats per investigar efectes relatius.

Coeficients

• Beta – aquests són els coeficients estandarditzats • Són els coeficients de regressió que obtindriem si estandarditzesim totes les variables, inclose la Y. • Estandarditzar totes les variables vol dir posar-les en la mateixa escala de mesura, de manera que amb els beta podem veure el impacte relatiu de les diferents variables. • Fixeu-vos que com més gran és el beta més gran és el seu valor t.

Interpretació de la taula de coeficients

Regression Analysis Level of Education by Income per capita

b i residus •  b és el pendent de la recta de regressió

– Es el canvi esperat de Y por una unitad de canvi en X, ceteris paribus la resta de factors.

– La diferència entre el valor de Y i el valor estimata s’anomena residu, és desviació no explicada de Y respecta la funció de X definida pel model.

Comparació de variables

•  Regressió serveix per comparar el impacte de les diferents variables explicatives en la variable Y

•  Per la primera variable explicativa, educació, veiem que a més anys d’educació més augmenta la renta per capita en l’estat.

•  La segona variable explicativa l’hem inclosa perque esperem treballs més ben remunerats en estats amb més zona urbana.

Simple

Regressió simple

Regressió Múltiple

Exemple de l’Anàlisi de Regressió

Dades de paisos.sav

SPSS Options Make your SPSS life easy with Edit | Options

For instance by using the session journal file as a syntax file…

Graphing Relationships Let’s try to transform gdp_cap in order to get linear relationships with other variables.

First let’s look at the distribution of gdp_cap with a histogram:

We need to bring values on the right closer to values on the left. We might try a LN transformation…

Transforming variables

Transforming variables The histogram of transformed variable is:

Transforming variables

Note: you probably want to make a variable lifeexp out of life expectancy males and life expectancy females:

Tip: use function Mean in stead of using the ‘+’ and dividing by 2

Transforming variables Relationships are nicely linear !

Transformació de variables

Matrix Plot

Plot matricial de les variables transformades

Anàlisi de Regressió REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT espvida /METHOD=ENTER calories logpib logmetg /PARTIALPLOT ALL /SCATTERPLOT=(*ZRESID ,*ZPRED ) /SAVE RESID .

Anàlisi de Regressió

Residus vs y ajustada:

Gràfic dels residus

Gràfic de regressió parcial

Gràfic de regressió parcial

Gràfic de regressió parcial

Regressio amb variables transformades

Anàlisi de Regressió REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT espvida /METHOD=ENTER calories logpib logmetg cal2 /PARTIALPLOT ALL /SCATTERPLOT=(*ZRESID ,*ZPRED ) /SAVE RESID .

Case statistics

Case missfit Potential for influence: Leverage Influence

Regression: Outliers, basic idea Outlier

Outliers

Influential Points

Influential Points

Outliers

Outliers

Saving residuals

Influential Points

Saving distances and influence measures as variables

MULTICOLLINEARITY

Diagnostic tools

Regression: Multicollinearity

•  If predictors correlate “high”, then we speak of multicollinearity

•  Is this a problem? If you want to asess the influence of each predictor, yes it is, because: – Standarderrors blow up, making coefficients not-

significant

Analyzing math data . use "G:\Albert\COURSES\cursDAS\AS2003b\data\mat.dta", clear

. save "G:\Albert\COURSES\CursMetEstad\Curs2004\Metodes\mathdata.dta" file G:\Albert\COURSES\CursMetEstad\Curs2004\Metodes\mathdata.dta saved

. edit - preserve

. gen perform = (nt_m1+ nt_m2+ nt_m3)/3 (110 missing values generated)

. corr perform nt_paau nt_acces nt_exp (obs=189)

| perform nt_paau nt_acces nt_exp ---------+------------------------------------ perform | 1.0000 nt_paau | 0.3535 1.0000 nt_acces | 0.5057 0.8637 1.0000 nt_exp | 0.5002 0.3533 0.7760 1.0000

. outfile nt_exp nt_paau nt_acces perform using "G:\Albert\COURSES\CursMetEsta > d\Curs2004\Metodes\mathdata.dat"

.

Multiple regression: perform vs nt_acces nt_paau

. regress perform nt_acces nt_paau

Source | SS df MS Number of obs = 245 ---------+------------------------------ F( 2, 242) = 31.07 Model | 71.1787647 2 35.5893823 Prob > F = 0.0000 Residual | 277.237348 242 1.14560888 R-squared = 0.2043 ---------+------------------------------ Adj R-squared = 0.1977 Total | 348.416112 244 1.42793489 Root MSE = 1.0703

------------------------------------------------------------------------------ perform | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- nt_acces | 1.272819 .2427707 5.243 0.000 .7946054 1.751032 nt_paau | -.2755092 .1835091 -1.501 0.135 -.6369882 .0859697 _cons | -1.513124 .9729676 -1.555 0.121 -3.42969 .4034425 ------------------------------------------------------------------------------

. Perform = rendiment a mates I a III

Collinearity

Diagnostics for multicollinearity . corre nt_paau nt_exp nt_acces (obs=276)

| nt_paau nt_exp nt_acces --------+--------------------------- nt_paau| 1.0000 nt_exp| 0.3435 1.0000 nt_acces| 0.8473 0.7890 1.0000

. fit perform nt_paau nt_exp nt_access

. vif

Variable | VIF 1/VIF ---------+---------------------- nt_acces | 1201.85 0.000832 nt_paau | 514.27 0.001945 nt_exp | 384.26 0.002602 ---------+---------------------- Mean VIF | 700.13

.

Any explanatory variable with a VIF greater than 5 (or tolerance less than .2) show a degree of collinearity that may be Problematic

This ratio is called Tolerance

In the case of just nt_paau an nt_exp we Get

. vif Variable | VIF 1/VIF ---------+---------------------- nt_exp | 1.14 0.875191 nt_paau | 1.14 0.875191 ---------+---------------------- Mean VIF | 1.14

.

VIF = 1/(1 – Rj2)

Multiple regression: perform vs nt_paau nt_exp

. regress perform nt_paau nt_exp

Source | SS df MS Number of obs = 189 ---------+------------------------------ F( 2, 186) = 37.24 Model | 75.2441994 2 37.6220997 Prob > F = 0.0000 Residual | 187.897174 186 1.01019986 R-squared = 0.2859 ---------+------------------------------ Adj R-squared = 0.2783 Total | 263.141373 188 1.39968815 Root MSE = 1.0051

------------------------------------------------------------------------------ perform | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------- nt_paau | .3382551 .1109104 3.050 0.003 .119451 .5570593 nt_exp | .9040681 .1396126 6.476 0.000 .6286403 1.179496 _cons | -3.295308 1.104543 -2.983 0.003 -5.474351 -1.116266 ------------------------------------------------------------------------------

. predict yh (option xb assumed; fitted values) (82 missing values generated)

. predict e, resid (169 missing values generated)

.

. corr nt_exp nt_paau nt_acces (obs=276)

| nt_exp nt_paau nt_acces ---------+--------------------------- nt_exp | 1.0000 nt_paau | 0.3435 1.0000 nt_acces | 0.7890 0.8473 1.0000

Regression: Multicollinearity, Indicators

Indicator description Rule of thumb (when “wrong”)

Overall F_Test versus test coefficients

Overall F-Test is significant, but individual coefficients are not

-

Beta Standardized coefficient Outside [-1, +1]

Tolerance Tolerance = unique variance of a predictor (not shared/explained by other predictors) … NB: Tolerance per coefficient

< 0.01

Variantie Inflation Factor

√ VIF indicates how much the standard error of a particular coefficient is inflated due to correlatation between this particular predictor and the other predictors NB: VIF per coefficient

>10

Eigenvalues …rather technical… +/- 0

Condition Index …rather technical… > 30

Variance Proportion …rather technical…look tot “loadings” on the dimensions

Loadings around 1

Regression: Multicollinearity, in SPSS

diagnostics

Regression: Multicollineariteit, in SPSS

Beta > 1 Tolerance, VIF in orde

Regressie: Multicollineariteit, in SPSS

2 eigenwaarden rond 0 Deze variabelen zorgen voor multicoll. CI in orde

Regression: Multicollinearity, what to do?

• Nothing… (if there is no interest in the individual coefficients, only in good prediction)

•  Leave one (or more) predictor(s) out • Use PCA to reduce high correlated variables to

smaller number of uncorrelated variables

Multicollinearity

Multicollinearity

Multicollinearity

Multicollinearity

Diagnostics

Variables Categòriques

Use: Use http://www.econ.upf.edu/~satorra/M/survey_sample.sav

Salari vs gènere | anys d’educació status de treball

Creació de variables dicotòmiques

GET FILE='G:\Albert\Web\Metodes2005\Dades\survey_sample.sav'.

COMPUTE D1 = wrkstat=1. EXECUTE . COMPUTE D2 = wrkstat=2. EXECUTE . COMPUTE D3 = wrkstat=3. EXECUTE . COMPUTE D4 = wrkstat=4. EXECUTE . COMPUTE D5 = wrkstat=5. EXECUTE . COMPUTE D6 = wrkstat=6. EXECUTE . COMPUTE D7 = wrkstat=7. EXECUTE . COMPUTE D8 = wrkstat=8. EXECUTE .

Regressió en blocks REGRESSION

/MISSING LISTWISE

/STATISTICS COEFF OUTS R ANOVA CHANGE

/CRITERIA=PIN(.05) POUT(.10)

/NOORIGIN

/DEPENDENT rincome

/METHOD=ENTER sex

/METHOD=ENTER d2 d3 d4 d5 d6 d7 d8 .

Regressió en blocks REGRESSION

/MISSING LISTWISE

/STATISTICS COEFF OUTS R ANOVA CHANGE

/CRITERIA=PIN(.05) POUT(.10)

/NOORIGIN

/DEPENDENT rincome

/METHOD=ENTER sex

/METHOD=ENTER educ

/METHOD=ENTER d2 d3 d4 d5 d6 d7 d8 .

Categorical Predictors

Is income dependent on years of age and religion ?

Categorical Predictors Compute dummy variable for each category, except last

Categorical Predictors

And so on…

Categorical Predictors Block 1

Categorical Predictors Block 2

Categorical Predictors Ask for R2 change

Categorical Predictors Look at R Square

change for importance of

categorical variable

For more on regression, see:

http://www.ats.ucla.edu/stat/spss/webbooks/reg/chapter1/annotated1.htm

http://www.ats.ucla.edu/stat/spss/webbooks/reg/chapter1/spssreg1.htm

Recommended