73
La Regressione Lineare Semplice La Regressione Lineare Semplice Fabrizio Stracci Fabrizio Stracci Dip. Igiene dell Dip. Igiene dell Universit Universit à à degli Studi di Perugia degli Studi di Perugia Registro Tumori Umbro di Popolazione Registro Tumori Umbro di Popolazione

La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

  • Upload
    lynga

  • View
    217

  • Download
    0

Embed Size (px)

Citation preview

Page 1: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

La Regressione Lineare SempliceLa Regressione Lineare Semplice

Fabrizio StracciFabrizio StracciDip. Igiene dellDip. Igiene dell’’UniversitUniversitàà degli Studi di Perugiadegli Studi di Perugia

Registro Tumori Umbro di PopolazioneRegistro Tumori Umbro di Popolazione

Page 2: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 2

Finalità della Presentazione

Introdurre il concetto di regressioneFacilitare l’interpretazione dei risultati di studi che impiegano la regressioneFornire gli elementi necessari all’applicazione della regressione lineare semplice

Page 3: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 3

Cos’è la Regressione

• La regressione è una tecnica statistica per studiare le relazioni tradue o più variabili• Generalmente la relazione studiata consta di

-una variabile dipendente o risposta e di -una o più variabili che dovrebbero spiegare o addirittura determinare i valori assunti dalla variabile dipendente; queste ultime sono dette variabili esplicative o predittori o variabili indipendenti.

Page 4: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 4

Angolo Umanistico

Il termine ‘regressione’ è stato introdotto da Sir Francis Galton, antropologo inglese, nell’articolo “Regression towards mediocrity in hereditary stature” Journal of the Anthropological Institute, 1885;15:246-263.

‘Regressione’ si riferiva alla tendenza dei figli ad avere altezze piùprossime alla media rispetto ai genitori.Attualmente il termine viene impiegato diffusamente in situazioni in cui non vi è regressione verso la media.

Page 5: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 5

Modelli deterministici

Esempio: la legge di Ohm

0

100

200

300

400

500

600

700

800

900

0 2 4 6 8 10 12 14 16

L’errore di misura della variabile di risposta e la variabilità non controllata delle condizioni sperimentali sono trascurabili.

γVρVI ==

Page 6: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 6

Modelli deterministici 2

L’intensità di corrente, I, e il potenziale, V sono variabili che possono essere misurate o controllate, osservabili

γVρVI ==

La resistenza ρ (o la sua inversa γ) è un parametro: una quantità da determinare per applicare la legge al caso di un particolare conduttore

Page 7: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 7

Modelli deterministici 3

y = 55.56x

0

100

200

300

400

500

600

700

800

900

0 2 4 6 8 10 12 14

La legge di Ohm afferma che l’intensità di corrente (Y) dipende dal potenziale elettrico (X).I è direttamente proporzionalea V: se aumentiamo il potenziale l’intensità di corrente aumenta linearmente

Aumento lineare dell’intensità di corrente in funzione del voltaggio nel caso del rame (resistenza 0.018, conduttanza 55.556).

Page 8: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 8

La retta

In generale un modello lineare può essere scritto:

xβα +== f(x)YO, con una notazione alternativa:

x10Y ββ +=

I due parametri α e β definiscono rispettivamente l’intercetta e la pendenza della retta. Una pendenza negativa corrisponde ad una relazione lineare inversa.

Page 9: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 9

Pendenza della retta e intercetta

0

10

20

30

40

50

60

70

0 2 4 6 8 10 12 14

y= 2x

y= 3x

y= 5x

0

246

8

10

1214

16

18

0 2 4 6 8 10 12 14

y= 2+ x

y= 3+ x

y= 5+ x

Effetto della variazione del coefficiente angolare

Effetto della variazione dell’intercetta

Page 10: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 10

Modello stocastico o probabilistico

Assai spesso errori di misura e/o variabilità sperimentale non controllata delle condizioni sperimentali introducono un ulteriore elemento di difficoltà

La risposta può assumere differenti valori anche per unitàsperimentali con identici valori della variabile indipendente (o, più in generale dei predittori o covariate)

εY += )Xf(

Page 11: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 11

La Regressione Lineare Semplice

Il più semplice modello che possiamo considerare assume relazione lineare tra una variabile casuale dipendente (continua) e una sola variabile indipendente:

iii xY εβα ++=

Cioè un modello lineare semplice perché contenente un solo predittore e di primo ordine perché l’esponente più elevato del predittore è 1

Page 12: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 12

La Regressione Lineare Semplice 2

Alternativamente possiamo formulare il modello in modo da distinguere la struttura casuale e quella sistematica:

)(~Y 2i ,σµN i

Intendendo che gli yi, i valori della variabile di risposta osservati, sono realizzazioni di una variabile casuale Yidistribuita normalmente attorno ad ogni valore medio µidipendente dai valori di ingresso del predittore, Xi e con varianza costante σ2

Page 13: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 13

La Regressione Lineare Semplice 3

La parte sistematica del modello assume che l’attesa della risposta dipende linearmente dai valori del predittore

La media, µi, o attesa di Y condizionale ai valori assunti dal predittore è dunque definita da:

ii xβαµ +=

Page 14: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 14

La Regressione Lineare Semplice 4

Il modello ha quindi la forma:

Variabile di Risposta = Forma del modello + Errore casualeSpecificamente nel caso della regressione lineare:

Variabile di Risposta = Funzione lineare + Errore casualeLa funzione lineare consta di due parametri (la costante α e la pendenza β) che debbono essere stimati a partire dalle risposte e dai valori del predittore che si assumono misurati senza errore.

Page 15: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 15

Alcuni impieghi della regressione lineare

Descrivere un’associazione lineare causale o non causale (associazione) tra due variabiliPredire il valore medio della variabile dipendente (e un intervallo di valori probabili) dato un valore del predittoreValutare se una relazione apparente tra due variabili èsignificativaApprossimare la relazione non lineare tra due variabili in un intervallo limitato

Page 16: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 16

OLS*

Come stimare, a partire da un insieme di dati costituiti n da coppie di osservazioni X1Y1 , X2Y2 … XnYn , i parametri sconosciuti α, β ed εi?Otteniamo a e b, stime dei parametri sconosciuti α e βutilizzando il metodo dei minimi quadrati; troviamo, cioè, quei valori di a e b che minimizzano la somma dei quadrati delle distanze dei valori osservati dalla retta di regressione

( ) ( )∑∑∑===

=−−=−=n

iii

n

ii

n

ii bxaYYYε

1

2

1

2

1

2 minˆ

Page 17: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 17

OLS 2

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

0 5 10 15 20 25

ols

Page 18: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 18

OLS 3

Per la regressione lineare semplice si trova che:

( )( )[ ]( )

( )( )( ) =

−−=

−=

∑∑

∑ ∑∑ ∑∑

222 /

/

XX

YYXX

nXX

nYXYXb

i

ii

ii

iiii

XX

XY

SS

devianzaXXYcodevianza

==

eXY ba −=

Page 19: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 19

Esempio 1

Supponiamo di voler studiare la relazione tra frequenza del canto dei grilli (y) e temperatura (x) a partire dalle 15 osservazioni riportateUtilizzando il foglio elettronico, possiamo innanzitutto determinare le due medie campionarie: temperatura 80.13 °F (=(80-32)/1.8= 26.7°C) e canto 16.6 suoni minuto-1

Quindi gli scarti semplici (x1-xm)=(69-80.13)=-11.13

Temperature Chirps69 1570 1572 1675 1676 1480 1581 1781 1682 1783 1683 1784 1884 1789 2093 20

Page 20: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 20

Esempio 2

(xi-xm) (yi-ym)-11.13 -1.6-10.13 -1.6-8.13 -0.6-5.13 -0.6-4.13 -2.6-0.13 -1.60.87 0.40.87 -0.61.87 0.42.87 -0.62.87 0.43.87 1.43.87 0.48.87 3.4

12.87 3.4

Una volta ottenuti gli scarti semplici possiamo calcolare il loro prodotto e quindi sommare per ottenere la codevianza SXY=133.8Nell’esempio i dati sono ordinati per Temperature. La distribuzione concorde dei segni degli scarti e delle quantità lascia supporre che esista una relazione diretta tra le due variabiliElevare al quadrato per ottenere gli scarti quadratici e quindi le rispettive devianze sommando per i da 1 a 15: SXX = 631.7 e SYY = 41.6

Page 21: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 21

Esempio 3(xi-xm)(yi-ym) (xi-xm) 2 (yi-ym)^2

17.81 123.95 2.5616.21 102.68 2.564.88 66.15 0.363.08 26.35 0.36

10.75 17.08 6.760.21 0.02 2.560.35 0.75 0.16

-0.52 0.75 0.360.75 3.48 0.16

-1.72 8.22 0.361.15 8.22 0.165.41 14.95 1.961.55 14.95 0.16

30.15 78.62 11.5643.75 165.55 11.56

S(XY)= S(XX)= S(YY)=133.8 631.73 41.60

Abbiamo tutti gli elementi per calcolare b:b= SXY /SXX=133.8/631.7=0.212Il segno positivo di b indica che la frequenza di canto tende ad aumentare all’aumentare della temperatura. In media abbiamo un suono in più al minuto ogni 5 °F Utilizziamo b per calcolare l’intercetta:a = 16.6 - 0.2*80.1=-0.37 Valore che nel nostro modello non ha molto significato

Page 22: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 22

Esempio 4Chirps(obs) Chirps(pred)

15.0 14.215.0 14.516.0 14.916.0 15.514.0 15.715.0 16.617.0 16.816.0 16.817.0 17.016.0 17.217.0 17.218.0 17.417.0 17.420.0 18.520.0 19.3

Possiamo utilizzare la retta per predire i valori y ypred = -0.37+0.212(xi)o per predire la frequenza di canto per temperature non osservate. Ad esempio per X=91 °F , y predetto vale 18.9; per X=180°F avremmo circa 38 suoni al minuto. Tuttavia ad 82°C di temperatura è improbabile che un grillo abbia ancora voglia di cantare.Le predizioni al di fuori dello spazio campione richiedono particolare cautela

Page 23: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 23

Equazione della retta stimata

Possiamo scrivere l’equazione della retta stimata utilizzando i minimi quadrati come:

XY ba +=

O, sostituendo nella precedente XY ba −=

( )XYXXYY −+=+−= Xbbb

YY =Da cui si vede che per , cioè la retta contiene il punto , centro di gravità dei dati

XX =)Y,X(

Page 24: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 24

La Tabella ANOVA

Quanta variabilità presente nei valori di risposta Yi èspiegata dalla retta di regressione?Possiamo suddividere lo scarto di un yi dalla media in due quantità:• la distanza del punto dal valore predetto o atteso in base alla retta di regressione e • la distanza del valore atteso dalla media di Y

( ) ( )yyyyyy iiii −+−=− ˆˆ

Page 25: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 25

La Tabella ANOVA 2

Sommando i termini per ogni Y da 1 a n ed elevando al quadrato si ha:

( ) ( ) ( )2

1

2

1

2

1

ˆˆ ∑∑∑===

−+−=−n

iii

n

ii

n

ii yyyyyy

Poiché il doppio prodotto vale 0.

Quindi, Variabilità totale della risposta Y= (Variabilitàspiegata dalla dipendenza lineare da X) + (Variabilitàresidua o errore)

Page 26: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 26

La Tabella ANOVA 3

Page 27: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 27

La Tabella ANOVA 4

La variabilità attorno alla retta di regressione, anche detta Somma dei Quadrati Errore (SSE)* dipende da due fattori distinti:• La variabilità casuale presente nei dati (σ2) o errore vero e proprio• La non linearità della dipendenza di Y da X (in altre parole l’assunto della retta non è verificato e il modello soffre di mancanza di adattamento)

*Nota: se tutti i punti sono sulla retta SSE=0

Page 28: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 28

La Tabella ANOVA 5

Quanto maggiore è la variabilità spiegata dalla regressione rispetto alla variabilità residua, SSE, tanto migliore risulta il nostro modello

Page 29: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 29

Gradi di libertà

Per confrontare la variabilità spiegata dalla regressione e la variabilità residua dobbiamo tener conto dei rispettivi ‘gradi di libertà’, gl, cioè del numero di informazioni indipendenti necessarie per il calcolo della somma dei quadrati a partire dalle n informazioni libere iniziali (gli n Yi):•La somma dei quadrati totale ha n – 1 gl; •La SSE ha n – 2 gl in quanto il calcolo dei residui richiede i due parametri a e b; •Per sottrazione la somma dei quadrati della regressione ha 1 gl

Page 30: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 30

La Tabella ANOVA 6

Fonti di variabilità Somma dei Quadrati

gl Media dei quadrati

Spiegata dalla regressione b1|b0

( )∑=

−=n

iig yySS

1

2Re ˆ 1 MSReg=SSReg/1

Residua o errore ( )∑=

−=n

iii yySSE

1

2ˆ (n – 2) MSE=SSE/n-2

Totale corretta ( )∑ −= 2yySS iY (n – 1)

Dovuta a b0* 22

1/ ynnySS

n

iia =⎟⎠

⎞⎜⎝

⎛= ∑

= 1

Totale ∑=

n

iiy

1

2 n

Page 31: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 31

La Tabella ANOVA 7*

bxay +=ˆ

yy =ˆy

Predizione di Y secondo i due modelli con b=0 (indifferenza) e b≠0

Page 32: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 32

R2

Una misura complessiva dell’adattamento del modello èdata dalla statistica R2 .R2 misura la proporzione di variabilità totale (corretta) spiegata dalla regressione lineare

( )( ) YYXX

XY

YY

XY

i

i

YY

g

SSS

SSb

yyyy

SSS

R2

2

2Re2 ˆ

==−

−==

∑∑

Note:1) R2 non misura l’appropriatezza del modello lineare. 2) Valori elevati di R2 non corrispondono necessariamente a belevati. 3) Il valore massimo 1(100%) non può essere raggiunto in presenza di valori X ripetuti che riflettono l’errore casuale

Page 33: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 33

Esempio 5(ypred-ym) (ypred-ym) 2

-2.4 5.560-2.1 4.606-1.7 2.967-1.1 1.182-0.9 0.7660.0 0.0010.2 0.0340.2 0.0340.4 0.1560.6 0.3690.6 0.3690.8 0.6710.8 0.6711.9 3.5272.7 7.426

SS(reg)28.339

Possiamo utilizzare i valori predetti per calcolare direttamente la Somma dei Quadrati della Regressione oppure sfruttare il fatto che

( )XYˆ −+= XbYPer ottenere

( ) ( ) ( )( )∑∑

==

=−⋅=−n

i XX

XYi

n

ii SS

SSxxbyy1

222

2

1

ˆ

Cioè SSReg=(133.8)2/631.7=28.339 che divisa per la devianza y (41.6) fornisce R2 = 0.68

Page 34: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 34

Esempio 6

La Media dei Quadrati della Regressione per una sola variabile predittiva vale MSReg=SSReg/1=28.3Per ricavare MSE, iniziamo calcolando SSE per sottrazione: SSE=41.6-28.3=13.3Quindi dividiamo SSE per il numero dei gradi di libertà (n-2)=13:MSE=13.3/13=1.02La variabilità spiegata dalla regressione è decisamente maggiore dell’errore

Page 35: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 35

Assunti*

Supponiamo di assumere che tra due variabili esista una relazione lineare, per fare delle inferenze sul valore dei parametri (sconosciuti) α e β , utilizzando gli stimatori a e b, sono necessari alcuni assunti:

o Esistenza. Per ogni valore definito di X, Y è una variabile aleatoria associata con una qualche distribuzione di probabilità

o Indipendenza.I valori Y sono tra loro indipendenti o Linearità.Le medie di Y per ogni valore X, µY|X , sono una funzione lineare di X, giacciono su una retta

o Omoscedasticità. La varianza di Y condizionale ai valori X ècostante: σ2

Y|X = σ2

o Normalità. Y si distribuisce normalmente per ogni valore X

Page 36: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 36

Assunti 2*

Y|X1 Y|X2 Y|X3

10

15

20

Per ogni Xi assumiamo che Yi~N(µY|X, σ2) o che εi~N(0,σ2)

Page 37: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 37

Test F

s2 è una stima della variabilità residua della risposta tenuto conto della dipendenza lineare di Y dal predittore X, σ2

Y|X

Se non vi è mancanza di adattamento del modello, se, cioè, la relazione tra le due variabili è lineare, allora s2 fornisce una stima di σ2

MSReg fornisce una stima di σ2 se Y non dipende linearmente da X, cioè se è vera l’ipotesi nulla, H0 β=0; altrimenti in presenza di una variazione lineare sistematica H1β≠0, MSReg sovrastima σ2

Page 38: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 38

Test F 2

Sotto l’ipotesi nulla H0 β=0, le due variabili indipendenti MSReg e s2 sono stimatori della stessa quantità sconosciuta σ2

Tanto più il rapporto sarà maggiore di 1 tanto più probabile sarà la presenza di un effetto sistematico di XIl rapporto tra varianze F = MSReg / s2 ha una distribuzione F con 1(nel caso di un solo predittore) ed (n – 2) glPossiamo confrontare il valore sperimentale di F con il valore tabulare F(1, n – 2) per stabilire se β≠0 in base ai dati osservati

Page 39: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 39

Esempio 7

Supponiamo di aver stabilito α = 0.05,Fsperimentale= MSReg / MSE= 28.3/ 1.02=27.8deve essere confrontato con il valore tabulare F[1,13;0.05]=4.67Poiché Fsperimentale > Ftabulare respingiamo l’ipotesi nulla che la frequenza di canto non dipenda linearmente dalla temperaturaIl risultato fornito da un programma statistico probabilmente comprenderebbe il valore p = 0.00015 cioè la probabilità di osservare per effetto della variabilità campionaria un rapporto come quello osservato o maggiore se l’ipotesi nulla fosse stata vera

Page 40: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 40

Test t per il coefficiente b*

Possiamo esprimere b come ( )( )2∑

∑−

−=

xx

yxxb

i

ii

La varianza di una funzione del tipo nnii YaYaYaa ++++= ......11

( ) ( ) 22 σ∑= iaaV

( )( ) XXi S

σxx

σbV2

2

2

=−

=∑

Se gli sono costanti, gli Yi non sono correlati tra loro e V(Yi)=σ2 è la stessa per ogni Yi allora

∑ −−= 2)(/)( xxxxa iii

Page 41: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 41

Test t per il coefficiente b 2

Possiamo ricavare la misura della variabilità di b sostituendo a σ2 la sua stima

( ) ( )2/ˆ1

22 −−= ∑=

nyysn

iii

Estraendo la radice quadrata otteniamo la deviazione standard del coefficiente b

( )[ ] ( ) 212

)(XXiSs

xx

sbES =−

=∑

Page 42: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 42

Test t per il coefficiente b 3

Finalmente possiamo costruire un test per valutare quanto èprobabile osservare un valore del coefficiente b come quello attuale o più elevato se fosse vera l’ipotesi nulla per cui β=β0

( )bESbt 0β−

=

Avendo stabilito prima del test un livello di errore α arbitrario,possiamo confrontare il valore sperimentale del test |t|

con il valore tabulare t(gl=(n-2),α) per stabilire se i dati forniscono evidenza sufficiente a rifiutare l’ipotesi nulla

Page 43: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 43

Test t per il coefficiente b 4

Nell’eseguire un test t per il coefficiente b vogliamo spesso valutare se la pendenza della retta è significativamente diversa da 0, cioè se X èutile per predire i valori Y una volta assunta una relazione lineare.

Possiamo interpretare i risultati del test come segue:• SE IL RISULTATO RICADE NELLA ZONA DI ACCETTAZIONE DI H0 β=0, ALLORA

Y è indifferente ad X e il modello è da preferire per la sua semplicità

yy =ˆ

Tra Y ed X esiste una relazione non lineare , potremmo cioèaver bisogno di altri termini (ad esempio X2) per descrivere la relazione X Y

Page 44: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 44

Test t per il coefficiente b 5

• SE IL RISULTATO RICADE NELLA ZONA DI ACCETTAZIONE DI H1 β≠0

o La relazione tra X e Y è almeno approssimativamente lineare

o Un altro modello (ad esempio di ordine superiore) èmigliore del modello lineare semplice di ordine 1 ma esiste una componente di dipendenza lineare definita

Page 45: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 45

Stima intervallare per b

Alternativamente possiamo utilizzare ES(b) per costruire una stima intervallare per la pendenza della retta ad un livello di confidenza arbitrariamente prefissato al 100(1-α)%

( )2

1211,2

XXSsntb α−−±

In cui t è basato su n – 2 gl perché s è l’unica fonte di variabilitàcasuale nell’equazione

Page 46: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 46

Stima intervallare per b 1

L’intervallo di confidenza oltre a provvedere l’informazione fornita dal test –se il

valore β0 è incluso nell’intervallo non vi sono elementi per respingere l’ipotesi nulla al livello di errore α stabilito–

ci restituisce un intervallo di valori per il coefficiente bche consente di formulare valutazioni sull’importanza della dipendenza di Y a X e sull’adeguatezza della numerositàcampionaria

Page 47: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 47

Esempio 8

In realtà noi abbiamo già calcolato s2 sebbene abbiamo designato questa quantità in modo diverso, utilizzando la terminologia dell’Analisi della Varianza come MSE =1.02. SXX = 631.7; estraiamo le rispettive radici ed otteniamo ES(b) = 1.01/25.13Supponiamo di aver stabilito α = 0.05,tsperimentale= b - β0 / ES(b)= (0.212 - 0) / 0.040 = 5.27 deve essere confrontato con il valore tabulare t[13;0.05] = 2.16Poiché tsperimentale > ttabulare respingiamo l’ipotesi nulla di indifferenza tra canto e temperatura

Page 48: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 48

Esempio 9

Per questo test p = 0.00015; è una coincidenza?Il valore t sperimentale 5.27 elevato al quadrato fornisce 27.78.Il test F ed il test t per il coefficiente b nel caso di una regressione lineare semplice forniscono lo stesso risultatoPossiamo calcolare un intervallo di confidenza al 95% per b:

b ± t[13, 0.975]*ES(b)Definendo t*ES(b) fattore di errore = 0.087, l’intervallo va da 0,212-0.087 = 0.13 a 0,212+0.087 = 0.30 e, come ci aspettavamo, non include il valore nullo

Page 49: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 49

Bande di confidenza per la retta*

y = a + bx

Frequenza de l canto

Temp

erat

ura

Bande di confidenza al 90%

Possiamo calcolare un intervallo di confidenza per la media Y per ogni dato valore di X=X0 , µy|X0.L’errore standard di Y vale

( )( )∑

=

−+= n

ii

XYy

XX

XXn

SSX

1

2

20

|ˆ1

0

E l’intervallo di confidenza è

[ ]020 ˆ1;2

ˆXYnX StY α−−± Grafico delle bande di confidenza al

90% per la retta stimata

Page 50: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 50

Coefficiente di Correlazione r

Il coefficiente di correlazione di Bravais-Pearson fornisce una misura dell’associazione lineare tra due variabili. La formula per il calcolo è

( )( )

( ) ( )2

12

1

1 1

22

1

YYXX

XYn

i

n

iii

n

iii

SSS

yyxx

yyxxr =

−−

−−=

∑ ∑

= =

=

Page 51: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 51

Coefficiente di Correlazione r 2

r è matematicamente collegato a b:

( )( )∑

∑−

−==

2

2

21

21

xx

yyb

SSbr

i

i

XX

YY

r non ha scala né unità di misura; un cambiamento di scala modificherà b, che misura l’entità del cambiamento in Y per una variazione unitaria di X, ma non avrà effetto su r

Page 52: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 52

Coefficiente di Correlazione r 3

r può assumere valori tra –1 e +1. Un valore |1| indica una perfetta correlazione tra X e Y, cioè i punti con coordinate (xi,yi) giacciono su una retta. Il segno indica se la correlazione è diretta (+) o inversa (–)Il valore 0 indica assenza di correlazione lineare

Page 53: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 53

Esempio 10

Essendo SYY½ = 6.45 e SXX

½ , già calcolato, pari a 25.13, il prodotto delle due quantità vale 162.11. SXy vale 133.8. Quindi

r = 133.8 / 162.1=+0.83

Page 54: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 54

Costruzione del modello

Assumere la forma del modello

Adattare il modello ai dati

Valutare la significatività e la bontà dell’adattamento Soddisfacente

Osservare: misurazione dei dati

Non soddisfacente

Assumere un nuovo modello

Fine

Page 55: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 55

Valutazione del modello*

L’assunto iniziale relativo alla forma del modello, così come altri assunti resisi necessari per fare inferenze sui parametri di popolazione (sconosciuti),

non deve essere accettato dogmaticamente ma anch’esso verificato; ed è questa una norma generale affatto specifica della regressione lineare semplice

Page 56: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 56

Osservazioni ripetute*

In presenza di osservazioni ripetute possiamo costruire un test F per la mancanza di adattamento Sono osservazioni ripetute le determinazioni multiple di Y in corrispondenza di identici valori XSe il valore del predittore è identico, allora le risposte Y differiscono solo per effetto della variabilità casualeQuindi le osservazioni ripetute ci consentono di stimare l’errore casuale vero e proprio (σ2)

Page 57: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 57

Osservazioni ripetute 2*

NotazioneAbbiamo m valori X differenti in corrispondenza dei quali osserviamo un certo numero nj di ripetizioni Yju con j =1, 2, …, mOgni serie di ripetizioni contribuisce alla Somma dei Quadrati dell’errore casuale con la somma degli scarti quadratici attorno alla propria media; ad esempio per n3 ripetizioni in corrispondenza di X3

( )∑=

−3

1

233

n

uu YY

Page 58: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 58

Osservazioni ripetute 3*

Sommando le somme dei quadrati corrispondenti ad ogni Xjabbiamo

( )∑∑= =

−m

j

n

ujju

j

YY1 1

2

E i gradi di libertà relativi saranno pari a nj –1 per ogni serie di ripetizioni cioè

∑=

−m

jj mn

1

Page 59: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 59

Osservazioni ripetute 4*

Possiamo calcolare la Media dei Quadrati entro ripetizioni dividendo la Somma dei Quadrati per il numero dei gl. Questa quantità, se2, fornisce una stima di σ2 indipendentemente dall’esattezza del modello lineareSi può dimostrare che la Somma dei Quadrati dei Residui può essere scomposta in SSe e Somma dei Quadrati dovuta alla mancanza di adattamento del modello (errore sistematico):

( ) ( ) ( )∑∑∑∑∑== == =

−+−=−m

jjjj

m

j

n

ujju

m

j

n

ujju YYnYYYY

jj

1

2

1 1

2

1 1

2 ˆˆ

Page 60: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 60

Osservazioni ripetute 5*

Possiamo calcolare la Somma dei Quadrati dovuta alla mancanza di adattamento sottraendo se2 dalla SSE e similmente ottenere il numero dei gl per sottrazioneE costruire infine il test che confronta la Media dei Quadrati dovuta alla mancanza di adattamento con la Media dei Quadrati entro ripetizioni

2e

LF

sMSF =

Il risultato può essere confrontato con il valore F tabulare con (nres –ne) ed ne gl ad un tasso di errore a prestabilito

Page 61: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 61

Osservazioni ripetute 6*

Un risultato o Significativo indica che il modello è inadeguato. Ulteriori indagini (ad esempio esame dei residui) sono indicate per individuare l’origine dell’inadeguatezzao Non Significativo indica che in base a questo test non ci sono elementi per mettere in discussione l’adeguatezza del modello

Page 62: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 62

I Residui (cenni)*

I residui i = 1, 2 …n contengono tutta l’informazione relativa alla variabilità non spiegata dalla regressione

iii YYe ˆ−=

Se il modello è corretto, allora i residui rappresentano gli errori osservatiSe il modello soffre di mancanza di adattamento, allora i residui contengono, oltre all’errore, una variabilitàsistematica (bias)

Page 63: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 63

I Residui 2*

Analizziamo i residui per valutare se uno o più degli assunti che si sono

resi necessari nella regressione risultano violati; ad esempio per valutare l’assunto di normalità, εi~N(0, σ2) e di una varianza costante σ2

per evidenziare andamenti sistematici che suggeriscano componenti non lineari

per individuare osservazioni influenti, che modificano sensibilmente i parametri della retta stimata

Page 64: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 64

I Residui 3*

Poiché nella stima dei parametri poniamo una serie di vincoli che riguardano essenzialmente i residui (ad esempio la somma dei residui vale 0), i residui non sono indipendenti come assumiamo che siano gli errori εiTuttavia se il numero delle osservazioni è grande rispetto al numero dei parametri, allora i vincoli non hanno grande importanza ai fini dei controlli di normalitàPer valutare l’assunto di normalità, possono essere utili semplici grafici come un istogramma di frequenze, un diagramma ramo e foglia o un diagramma a scatola con baffi

Page 65: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 65

I Residui 3*

Regression Standardized Residual

1.51.0.50.0-.5-1.0-1.5

Frequ

ency

5

4

3

2

1

0

Std. Dev = .96

Mean = 0.0

N = 15.00

Unstandardized Residual Stem-and-Leaf Plot

Frequency Stem & Leaf

3 -1 . 2573 -0 . 2477 0 . 02455672 1 . 15

Stem width: 1.00000Each leaf: 1 case(s)

Page 66: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 66

I Residui 4*

15N =

Residui

2

1

0

-1

-2

2° quartile3° quartile

1° quartile 1,5*intervallo interquartileIIQ

Eventuali valori anomalio/e valori estremi

Page 67: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 67

Valori anomali ed estremi

L’istogramma, la scatola e il grafo stem & leaf consentono di individuare o valori anomali (tra 1,5 e 3 *intervallo interquartile IIQ) che compaiono con una frequenza approssimativa di 1/20 osservazioni in un campione estratto da una distribuzione normale o valori estremi (oltre 3 * IIQ) con una frequenza di circa 1/200 osservazioni

Page 68: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 68

I Residui 5*Normal P-P Plot of Regression Standardized Residual

Observed Cum Prob

1.00.75.50.250.00

Exp

ecte

d C

um P

rob

1.00

.75

.50

.25

0.00

Page 69: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 69

Grafico di ei vs Ypredetto

Un grafico a dispersione dei residui ei rispetto ai valori y predetti (ycappello) è utile per o identificare una varianza non costante (distribuzione ad altoparlante) oo la presenza di relazioni non lineari (presenza di curvatura)

Page 70: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 70

I Residui 6*

Regression Standardized Predicted Value

210-1-2

Regre

ssion

Sta

ndard

ized

Resid

ual

2.0

1.5

1.0

.5

0.0

-.5

-1.0

-1.5

-2.0

Distribuzione soddisfacente

Suggestivo di relazione non lineare

Suggestivo di varianza non costante

Tipiche distribuzioni della ‘nuvola dei residui’

Page 71: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 71

I Residui 7*

y = 0.15x + 4.63y = 0.21x - 0.37

12

17

22

65 80 95

Temper a tur a

Freq

uenz

a de

l ca

nto

y = 0.21x - 0.37y = 0.27x - 5.37

5

10

15

20

45 60 75 90Temperatura

Freq

uenz

a de

l can

to12

17

22

65 80 95

Temperatura

Freq

uenz

a de

l can

to

°C = (°F - 32) / 1,8

Page 72: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 72

Il modello migliore

F

requ

enza

di c

anto

Temperatura69 93

14

21.905

12

17

22

65 80 95

Tempera tur a

Freq

uenz

a de

l ca

nto

Page 73: La Regressione Lineare Semplice Didattico/Statistica... · 2017-09-26 · Approssimare la relazione non lineare tra due variabili in un intervallo limitato . Camerino 5 settembre

Camerino5 settembre 2001

Corso di Metodologia Statistica ed Epidemiologica 73

Riferimenti bibliografici

Alcuni Testi di Riferimento Elencati per Livello Crescente di DifficoltàGlantz SA. (1988) "Statistica per discipline bio-mediche", McGRAW-HILL, Milano.Pagano M, Gauvreau K. (1994) "Biostatistica", Edizioni Gnocchi, Milano.Armitage P, Berry G. (1996) “Statistica Medica”. McGRAW-HILL, Milano.Kleinbaum DG, Kupper LL, Muller KE, Nizam A. (1998) “AppliedRegression Analysis and Other Multivariable Methods”. Duxbury Press, PacificGrove.

Draper NR, Smith H. (1998) “Applied Regression Analysis”. Wiley, New York.