Regressione e Correlazione (cap. 11) Importazione dati da ... · minimi quadrati EXCEL ci mette a disposizione 3 diversi metodi di interpolazione di una retta di regressione come

Regressione e Correlazione (cap. 11)

Importazione dati da file di testo

Introduzione

Nella statistica applicata si osserva la relazione

(dipendenza) tra due o più grandezze.

Esigenza: determinare una funzione che rappresenti i

dati ricavati dalle osservazioni

Prima strategia: determinare una funzione che assuma

esattamente i dati rilevati (interpolazione per punti noti)

Seconda strategia: determinare una funzione che si

accosti il più possibile ai punti noti (generalmente

preferita) (interpolazione fra punti noti)

Introduzione

Si sceglie la funzione in base all’andamento del fenomeno: lineare, quadratica, esponenziale

Si procede alla determinazione dei parametri (costanti che compaiono nella funzione scelta), in modo che sia soddisfatta una condizione di accostamento prefissata, la condizione dei minimi quadrati

EXCEL ci mette a disposizione 3 diversi metodi di interpolazione di una retta di regressione come applicazione del metodo dei minimi quadrati:

AGGIUNGI LINEA DI TENDENZA;

REGR.LIN;

REGRESSIONE

AGGIUNGI LINEA DI TENDENZA

Creare il grafico di dispersione associato ai dati

Usare il comando “AGGIUNGI LINEA DI TENDENZA”:

selezionare i dati sul grafico e, dopo aver premuto il pulsante

destro, scegliere l’opzione Aggiungi linea di tendenza.

Infine si seleziona il tipo di regressione.

Sul grafico viene tracciata automaticamente la miglior retta

passante per i dati

E’ possibile visualizzare l’equazione della retta

Come dato statistico si ha solo a disposizione il coefficiente

di correlazione R

Esempio 11.1

In un esperimento si sono misurate le lunghezze in cm di una molla sottoposta a successivi carichi in kg, ottenendo i seguenti risultati

Pesi Lunghezze

1 12,0

2 13,5

3 14,8

4 16,5

5 18,2

PROVIAMO: inserire linea di tendenza con regressione lineare

(in analisi dei dati; in Layout, selezionare Linea di tendenza –

menù a sinistra - e spuntare quanto serve)

Esempio 11.1: risultato

y = 1,54x + 10,38

R² = 0,9973

0,0

2,0

4,0

6,0

8,0

10,0

12,0

14,0

16,0

18,0

20,0

0 1 2 3 4 5 6

Lu

ngh

ezze

Pesi

Pesi

Lineare (Pesi)

Funzione REGR.LIN

A differenza di AGGIUNGI LINEA DI TENDENZA, tale

funzione restituisce alcuni parametri statistici in più.

Restituisce una matrice di valori. Deve essere immessa

come formula in forma di matrice (Nell’ultimo

inserimento, invece di fare clic su OK o di premere INVIO,

si deve premere INVIO tenendo contemporaneamente

premuti i tasti CTRL e SHIFT).

Solo così sul blocco di celle selezionate precedentemente,

saranno visualizzati i risultati del calcolo, ossia i dati relativi

alla retta di equazione y = a x + b

REGR.LIN

REGR.LIN(y_nota;x_nota;cost;stat)

y_nota: intervallo di celle contenenti la y sperimentale

x_nota: intervallo di celle contenenti la x sperimentale (facoltativo: potrebbe essere già noto dalla relazione lineare)

cost: fa riferimento all’intercetta, ovvero se la retta deve passare o meno per l’origine. Immettere VERO se non passa per l’origine e FALSO se passa per l’origine

stat: con VERO la funzione, oltre ai coefficienti della retta, restituisce alcuni dati statistici; con FALSO restituisce solo i coefficienti della retta

Esempio 11.3

La tabella riporta i prezzi al lotto di un prodotto, rispetto al numero di pezzi difettosi contenuti

PROVIAMO: selezionare una “zona” di 5 celle e 2 colonne

e scrivere REGR.LIN(colonne prezzo; colonne pezzi; VERO, VERO)

N° pezzi

difettosi

Prezzo al

lotto

2 € 77,50

5 € 64,50

10 € 54,00

13 € 52,00

20 € 44,00

Esempio 11.3: risultato

Otteniamo i seguenti dati. Cosa significano?

-1,7500000 75,9

0,326508414 3,857777

0,905442736 4,594381

29 3

606,3750000 63,325

b a

Incertezza su b Incertezza su a

Coefficiente di correlazione

Y = -1,75 X + 75,9

Grafico dei residui Con i dati statistici ottenuti con la funzione REGR.LIN possiamo ora

tracciare il grafico dei residui, in questo modo:

Inserisco una colonna con i valori della retta nelle X sperimentali :

Y_calc = a X_sper + b

Inserisco una colonna con i valori dei residui: Y_sper – Y_calc

Inserisco un grafico con ascisse le X_sper e ordinate i residui (il

grafico sarà un grafico a linee con indicatori in cui elimino le linee)

Y_calc Y_s - Y_calc

72,40€ 5,10

67,15€ -2,65

58,40€ -4,40

53,15€ -1,15

40,90€ 3,10-6,00

-4,00

-2,00

0,00

2,00

4,00

6,00

5 10 15 20 25

residui

prezzi

REGRESSIONE

Lo strumento REGRESSIONE è disponibile tramite

STRUMENTI -> ANALISI DATI -> REGRESSIONE.

REGRESSIONE

Lo strumento REGRESSIONE è disponibile tramite

STRUMENTI -> ANALISI DATI -> REGRESSIONE.

A differenza di AGGIUNGI LINEA DI TENDENZA, tale

funzione restituisce diversi parametri statistici in più.

Inoltre permette anche di eseguire i minimi quadrati su

una funzione Y che dipende da più di 2 variabili

indipendenti

PARAMETRI DI INPUT

Intervallo di input Y: intervallo di celle contenenti la y

sperimentale

Intervallo di input X: intervallo di celle contenenti la x

sperimentale

Livello di confidenza: livello di fiducia con cui vogliamo

vengano espressi i valori dei coefficienti a e b

Passa per l’origine: ovvero se vogliamo imporre nel calcolo

che la retta passi per l’origine

PARAMETRI DI OUTPUT

Intervallo di output Intervallo di celle in cui verranno

mostrati i dati calcolati dallo strumento REGRESSIONE.

Conviene scegliere, come riferimento, un nuovo foglio

di lavoro

Residui e Tracciati dei residui: contrassegnare tali opzioni in

modo da visualizzare anche il grafico dei residui.

Tracciati delle approssimazioni: grafico dei valori previsti,

contrapposti a quelli stimati

Tracciati delle probabilità normali: se il campione proviene

da una distribuzione normale, i punti del grafico saranno

allineati lungo la bisettrice.

Riprendiamo l’esempio 11.1

In un esperimento, si sono misurate le lunghezza in cm di

una molla sottoposta a successivi carichi in kg,

ottenendo i seguenti risultati

PROVIAMO ad usare lo strumento

REGRESSIONE

PESI LUNGHEZZE

1 12,0

2 13,5

3 14,8

4 16,5

5 18,2

Commenti alle statistiche

Statistica della regressione

R multiplo 0,998653

R al quadrato 0,997309

R al quadrato

corretto 0,996412

Errore standard 0,146059

Osservazioni 5

Coeff. di correlazione lineare:

qui c’è una forte correlazione

positiva tra X e Y

Coeff. di determinazione: il

99,73% della variazione della

lunghezza della molla è attribuibile

alla variazione del peso applicato

Coeff. di determinazione corretto:

“corretto” tenendo conto del

numero di campioni

Errore standard del valore

previsto per y per ciascun x della

regressione

Analisi della varianza I gdl SQ MQ F Significatività F

Regressione 1 23,716 23,716 1111,6875 5,93051E-05

Residuo 3 0,064 0,021333333

Totale 4 23,78

• gdl regressione (risp. residuo): gradi di libertà associati alla somma dei

quadrati della regressione (risp. dei residui)

• SQ regressione (risp. residuo): somma dei quadrati della regressione (risp.

dei residui), ossia la somma dei quadrati delle differenze dei valori stimati dalla

media (risp. dei valori osservati e dei valori stimati)

• SQ totale: somma totale dei quadrati, ossia delle differenze dei valori

osservati dalla media

• MQ regressione (risp. residuo): media dei quadrati della regressione (risp.

dei residui)

• F: valore della statistica test

• Significatività F: livello di significatività osservato. Rappresenta il livello di

significatività più basso a cui un’ipotesi può essere rifiutata per un insieme di

dati. Se minore di una soglia data, si rifiuta l’ipotesi nulla (b=0) che non vi sia

una relazione lineare tra X e Y

Nel nostro caso? gdl SQ MQ F Significatività F

Regressione 1 23,716 23,716 1111,6875 5,93051E-05

Residuo 3 0,064 0,021333333

Totale 4 23,78

Essendo il valore di significatività molto piccolo, si può

concludere che:

l’ipotesi che non vi sia una relazione lineare tra pesi e

lunghezze delle molle, può essere decisamente

scartata

Analisi della varianza II

Coeffic

ienti

Errore

standard Stat t

Valore di

significatività Inferiore 95%

Superiore

95%

Intercetta 10,38 0,153188337 67,75973 7,08297E-06 9,892486342 10,86751366

Pesi 1,54 0,046188022 33,34198 5,93051E-05 1,393009102 1,686990898

X • Coefficienti Intercetta (risp. Pesi-X): il valore dell’intercetta (risp.

dell’inclinazione)

• Errore standard dell’intercetta (risp. Pesi-X)

• Stat t intercetta (risp. Pesi-X): valore della statistica test per la verifica

dell’ipotesi a=0 (risp. b=0)

• Valore di significatività intercetta (Pesi-X): livello della significatività

osservato per la verifica dell’ipotesi a=0) (risp. b=0)

• Inferiore 95% intercetta (risp. Pesi-X): limite inferiore dell’intervallo di

confidenza per a (risp. b), al livello di significatività del 95%

• Superiore 95% intercetta (risp. Pesi-X): limite superiore dell’intervallo di

confidenza per a (risp. b), al livello di significatività del 95%

Osservazione

Previsto

Lunghezze Residui

Residui

standard

1 11,92 0,08 0,632455532

2 13,46 0,04 0,316227766

3 15 -0,2 -1,58113883

4 16,54 -0,04 -0,316227766

5 18,08 0,12 0,948683298

Output residui, output dati

Percentile Lunghezze

10 12

30 13,5

50 14,8

70 16,5

90 18,2

Tracciato residui

-0,25

-0,2

-0,15

-0,1

-0,05

0

0,05

0,1

0,15

0 1 2 3 4 5 6

Resi

du

i

Pesi

Pesi Tracciato dei residui

Non evidenzia un

andamento particolare

Tracciato della probabilità normale

0

2

4

6

8

10

12

14

16

18

20

0 10 20 30 40 50 60 70 80 90 100

Lu

ngh

ezze

Percentile campionaria

Tracciato della probabilità normale

Serie1

Evidenzia la normalità dei residui

(se esce come istogramma, cambiare

il grafico)

Tracciato approssimazioni

0,0

2,0

4,0

6,0

8,0

10,0

12,0

14,0

16,0

18,0

20,0

0 1 2 3 4 5 6

Y

Variabile X 1

Tracciato delle approssimazioni

Y

Y prevista

Se i valori di Y e Y prevista sono

molto vicini conviene cambiare le

Opzioni indicatore

Correlazione

Correlazione tra variabili due variabili numeriche x e y misurate sugli

stessi individui di una popolazione. In altre

parole abbiamo due campioni di dati dove x_i

e y_i sono i valori delle due variabili misurate

sullo stesso individuo.

Rivediamo il diagramma di dispersione

Abbiamo a disposizione un campione (222)

di misurazioni su due grandezze

D= durata dell’eruzione (in minuti)

T = tempo di attesa per l’eruzione

successiva (in minuti)

Abbiamo calcolato la tabella delle frequenze,

prendendo come classi i singoli valori della

variabile T

Ritorniamo all’esempio del geyser

Osserviamo che i dati sono concentrati in due blocchi

PROVATE VOI: non avete i 222

campioni, ma solo 24

Nella tabella seguente sono stati considerati 12 neonati per i quali è stato misurato

Il peso alla nascita (x)

L’aumento percentuale di peso tra il 70° e il 100° giorno di vita (y)

Altro esempio

Esiste una relazione tra le due variabili?

Rappresentiamo la tabella usando un diagramma cartesiano di dispersione,

in cui consideriamo le coppie (x_i, y_i)

Interpretazione del diagramma

I valori tendono ad allinearsi lungo una retta: c’è correlazione fra i due

valori. Sorprendentemente, si osserva una tendenza “negativa”: ad un

maggior peso alla nascita, corrisponde una minor crescita

Correlazione La correlazione si misura mediante indici, tra cui il

coefficiente di correlazione lineare r, ed esprime la

«forza», o «intensità», del loro legame.

Talvolta l’analisi della correlazione precede lo studio della

regressione, in quanto una variabile viene confrontata con

varie altre per vedere quelle più connesse fra loro.

Covarianza di X e Y (ossia varianza

congiunta di X e Y)

varianza di X e varianza di Y

Coefficiente di correlazione lineare

(o di Pearson): proprietà

Valore compreso tra -1 e 1

r = 1 se dati allineati lungo una

retta crescente

r = -1 se dati allineati lungo una

retta decrescente

r = 0 se non esiste relazione

lineare tra i due caratteri

Coefficiente di determinazione E’ calcolata come differenza

dalla retta di regressione dal

valore medio

Coefficiente di determinazione

Si tratta di un altro coefficiente che indica quale frazione di

varianza totale dipende dalla dipendenza tra Y e X (varianza

spiegata), ossia quale frazione della variazione della variabile

Y è spiegata dalle variazioni della variabile X.

Quanto più è vicino a 1, tanto è maggiore la bontà del modello

lineare

E’ calcolata come differenza

dalla retta di regressione dal

valore medio

In Excel

La covarianza è determinabile dalla funzione:

COVARIANZA(matrice1;matrice2)

[matrice1,matrice2: primo e secondo intervallo di celle di interi]

Il coefficiente di correlazione lineare (r) è calcolato da una delle seguenti funzioni:

CORRELAZIONE(matrice1;matrice2)

PEARSON(matrice1;matrice2)

[matrice1(risp. matrice2): insieme di valori indipendenti (risp. dipendenti)]

Il coefficiente di determinazione (r2) è calcolato dalla funzione:

RQ(y_nota;x_nota)

[y_nota,x_nota: matrici o intervalli di valori]

Esempio 11.4

Mediante uno spettrofotofluorimetro vengono studiate

alcune soluzioni acquose di fluorosceina, la cui

concentrazione viene espressa in picogrammi (pg) per

cm3 di soluzione

concentrazione intensità

0 2,1

2 5,0

4 9,0

6 12,6

8 17,3

10 21,0

12 24,7

Proviamo a calcolare la

dipendenza tra X e Y

Esempio 11.4 Otteniamo i seguenti dati concentrazione intensità

0 2,1

2 5,0

4 9,0

6 12,6

8 17,3

10 21,0

12 24,7

covarianza = 30,8857143

coeff. corr.= 0,99887957

coeff. det.= 0,99776039

Essendo il coefficiente di correlazione prossimo a 1, vuol dire che le due

rette di regressione sono molto vicine.

Inoltre, essendo il coefficiente di determinazione prossimo a 1, possiamo

affermare che circa il 99,7% della varianza di Y dipende da X.

Quindi il modello lineare esprime bene la relazione tra Y e X.

Inserimento dati da file di testo

File testo

Delimitati

Passo 3

Documents

Regressione e Correlazione (cap. 11) Importazione dati da ... · minimi quadrati EXCEL ci mette a disposizione 3 diversi metodi di interpolazione di una retta di regressione come