Upload
hoangkhuong
View
221
Download
1
Embed Size (px)
Citation preview
Regressione e Correlazione (cap. 11)
Importazione dati da file di testo
Introduzione
Nella statistica applicata si osserva la relazione
(dipendenza) tra due o più grandezze.
Esigenza: determinare una funzione che rappresenti i
dati ricavati dalle osservazioni
Prima strategia: determinare una funzione che assuma
esattamente i dati rilevati (interpolazione per punti noti)
Seconda strategia: determinare una funzione che si
accosti il più possibile ai punti noti (generalmente
preferita) (interpolazione fra punti noti)
Introduzione
Si sceglie la funzione in base all’andamento del fenomeno: lineare, quadratica, esponenziale
Si procede alla determinazione dei parametri (costanti che compaiono nella funzione scelta), in modo che sia soddisfatta una condizione di accostamento prefissata, la condizione dei minimi quadrati
EXCEL ci mette a disposizione 3 diversi metodi di interpolazione di una retta di regressione come applicazione del metodo dei minimi quadrati:
AGGIUNGI LINEA DI TENDENZA;
REGR.LIN;
REGRESSIONE
AGGIUNGI LINEA DI TENDENZA
Creare il grafico di dispersione associato ai dati
Usare il comando “AGGIUNGI LINEA DI TENDENZA”:
selezionare i dati sul grafico e, dopo aver premuto il pulsante
destro, scegliere l’opzione Aggiungi linea di tendenza.
Infine si seleziona il tipo di regressione.
Sul grafico viene tracciata automaticamente la miglior retta
passante per i dati
E’ possibile visualizzare l’equazione della retta
Come dato statistico si ha solo a disposizione il coefficiente
di correlazione R
Esempio 11.1
In un esperimento si sono misurate le lunghezze in cm di una molla sottoposta a successivi carichi in kg, ottenendo i seguenti risultati
Pesi Lunghezze
1 12,0
2 13,5
3 14,8
4 16,5
5 18,2
PROVIAMO: inserire linea di tendenza con regressione lineare
(in analisi dei dati; in Layout, selezionare Linea di tendenza –
menù a sinistra - e spuntare quanto serve)
Esempio 11.1: risultato
y = 1,54x + 10,38
R² = 0,9973
0,0
2,0
4,0
6,0
8,0
10,0
12,0
14,0
16,0
18,0
20,0
0 1 2 3 4 5 6
Lu
ngh
ezze
Pesi
Pesi
Lineare (Pesi)
Funzione REGR.LIN
A differenza di AGGIUNGI LINEA DI TENDENZA, tale
funzione restituisce alcuni parametri statistici in più.
Restituisce una matrice di valori. Deve essere immessa
come formula in forma di matrice (Nell’ultimo
inserimento, invece di fare clic su OK o di premere INVIO,
si deve premere INVIO tenendo contemporaneamente
premuti i tasti CTRL e SHIFT).
Solo così sul blocco di celle selezionate precedentemente,
saranno visualizzati i risultati del calcolo, ossia i dati relativi
alla retta di equazione y = a x + b
REGR.LIN
REGR.LIN(y_nota;x_nota;cost;stat)
y_nota: intervallo di celle contenenti la y sperimentale
x_nota: intervallo di celle contenenti la x sperimentale (facoltativo: potrebbe essere già noto dalla relazione lineare)
cost: fa riferimento all’intercetta, ovvero se la retta deve passare o meno per l’origine. Immettere VERO se non passa per l’origine e FALSO se passa per l’origine
stat: con VERO la funzione, oltre ai coefficienti della retta, restituisce alcuni dati statistici; con FALSO restituisce solo i coefficienti della retta
Esempio 11.3
La tabella riporta i prezzi al lotto di un prodotto, rispetto al numero di pezzi difettosi contenuti
PROVIAMO: selezionare una “zona” di 5 celle e 2 colonne
e scrivere REGR.LIN(colonne prezzo; colonne pezzi; VERO, VERO)
N° pezzi
difettosi
Prezzo al
lotto
2 € 77,50
5 € 64,50
10 € 54,00
13 € 52,00
20 € 44,00
Esempio 11.3: risultato
Otteniamo i seguenti dati. Cosa significano?
-1,7500000 75,9
0,326508414 3,857777
0,905442736 4,594381
29 3
606,3750000 63,325
b a
Incertezza su b Incertezza su a
Coefficiente di correlazione
Y = -1,75 X + 75,9
Grafico dei residui Con i dati statistici ottenuti con la funzione REGR.LIN possiamo ora
tracciare il grafico dei residui, in questo modo:
Inserisco una colonna con i valori della retta nelle X sperimentali :
Y_calc = a X_sper + b
Inserisco una colonna con i valori dei residui: Y_sper – Y_calc
Inserisco un grafico con ascisse le X_sper e ordinate i residui (il
grafico sarà un grafico a linee con indicatori in cui elimino le linee)
Y_calc Y_s - Y_calc
72,40€ 5,10
67,15€ -2,65
58,40€ -4,40
53,15€ -1,15
40,90€ 3,10-6,00
-4,00
-2,00
0,00
2,00
4,00
6,00
5 10 15 20 25
residui
prezzi
REGRESSIONE
Lo strumento REGRESSIONE è disponibile tramite
STRUMENTI -> ANALISI DATI -> REGRESSIONE.
REGRESSIONE
Lo strumento REGRESSIONE è disponibile tramite
STRUMENTI -> ANALISI DATI -> REGRESSIONE.
A differenza di AGGIUNGI LINEA DI TENDENZA, tale
funzione restituisce diversi parametri statistici in più.
Inoltre permette anche di eseguire i minimi quadrati su
una funzione Y che dipende da più di 2 variabili
indipendenti
PARAMETRI DI INPUT
Intervallo di input Y: intervallo di celle contenenti la y
sperimentale
Intervallo di input X: intervallo di celle contenenti la x
sperimentale
Livello di confidenza: livello di fiducia con cui vogliamo
vengano espressi i valori dei coefficienti a e b
Passa per l’origine: ovvero se vogliamo imporre nel calcolo
che la retta passi per l’origine
PARAMETRI DI OUTPUT
Intervallo di output Intervallo di celle in cui verranno
mostrati i dati calcolati dallo strumento REGRESSIONE.
Conviene scegliere, come riferimento, un nuovo foglio
di lavoro
Residui e Tracciati dei residui: contrassegnare tali opzioni in
modo da visualizzare anche il grafico dei residui.
Tracciati delle approssimazioni: grafico dei valori previsti,
contrapposti a quelli stimati
Tracciati delle probabilità normali: se il campione proviene
da una distribuzione normale, i punti del grafico saranno
allineati lungo la bisettrice.
Riprendiamo l’esempio 11.1
In un esperimento, si sono misurate le lunghezza in cm di
una molla sottoposta a successivi carichi in kg,
ottenendo i seguenti risultati
PROVIAMO ad usare lo strumento
REGRESSIONE
PESI LUNGHEZZE
1 12,0
2 13,5
3 14,8
4 16,5
5 18,2
Commenti alle statistiche
Statistica della regressione
R multiplo 0,998653
R al quadrato 0,997309
R al quadrato
corretto 0,996412
Errore standard 0,146059
Osservazioni 5
Coeff. di correlazione lineare:
qui c’è una forte correlazione
positiva tra X e Y
Coeff. di determinazione: il
99,73% della variazione della
lunghezza della molla è attribuibile
alla variazione del peso applicato
Coeff. di determinazione corretto:
“corretto” tenendo conto del
numero di campioni
Errore standard del valore
previsto per y per ciascun x della
regressione
Analisi della varianza I gdl SQ MQ F Significatività F
Regressione 1 23,716 23,716 1111,6875 5,93051E-05
Residuo 3 0,064 0,021333333
Totale 4 23,78
• gdl regressione (risp. residuo): gradi di libertà associati alla somma dei
quadrati della regressione (risp. dei residui)
• SQ regressione (risp. residuo): somma dei quadrati della regressione (risp.
dei residui), ossia la somma dei quadrati delle differenze dei valori stimati dalla
media (risp. dei valori osservati e dei valori stimati)
• SQ totale: somma totale dei quadrati, ossia delle differenze dei valori
osservati dalla media
• MQ regressione (risp. residuo): media dei quadrati della regressione (risp.
dei residui)
• F: valore della statistica test
• Significatività F: livello di significatività osservato. Rappresenta il livello di
significatività più basso a cui un’ipotesi può essere rifiutata per un insieme di
dati. Se minore di una soglia data, si rifiuta l’ipotesi nulla (b=0) che non vi sia
una relazione lineare tra X e Y
Nel nostro caso? gdl SQ MQ F Significatività F
Regressione 1 23,716 23,716 1111,6875 5,93051E-05
Residuo 3 0,064 0,021333333
Totale 4 23,78
Essendo il valore di significatività molto piccolo, si può
concludere che:
l’ipotesi che non vi sia una relazione lineare tra pesi e
lunghezze delle molle, può essere decisamente
scartata
Analisi della varianza II
Coeffic
ienti
Errore
standard Stat t
Valore di
significatività Inferiore 95%
Superiore
95%
Intercetta 10,38 0,153188337 67,75973 7,08297E-06 9,892486342 10,86751366
Pesi 1,54 0,046188022 33,34198 5,93051E-05 1,393009102 1,686990898
X • Coefficienti Intercetta (risp. Pesi-X): il valore dell’intercetta (risp.
dell’inclinazione)
• Errore standard dell’intercetta (risp. Pesi-X)
• Stat t intercetta (risp. Pesi-X): valore della statistica test per la verifica
dell’ipotesi a=0 (risp. b=0)
• Valore di significatività intercetta (Pesi-X): livello della significatività
osservato per la verifica dell’ipotesi a=0) (risp. b=0)
• Inferiore 95% intercetta (risp. Pesi-X): limite inferiore dell’intervallo di
confidenza per a (risp. b), al livello di significatività del 95%
• Superiore 95% intercetta (risp. Pesi-X): limite superiore dell’intervallo di
confidenza per a (risp. b), al livello di significatività del 95%
Osservazione
Previsto
Lunghezze Residui
Residui
standard
1 11,92 0,08 0,632455532
2 13,46 0,04 0,316227766
3 15 -0,2 -1,58113883
4 16,54 -0,04 -0,316227766
5 18,08 0,12 0,948683298
Output residui, output dati
Percentile Lunghezze
10 12
30 13,5
50 14,8
70 16,5
90 18,2
Tracciato residui
-0,25
-0,2
-0,15
-0,1
-0,05
0
0,05
0,1
0,15
0 1 2 3 4 5 6
Resi
du
i
Pesi
Pesi Tracciato dei residui
Non evidenzia un
andamento particolare
Tracciato della probabilità normale
0
2
4
6
8
10
12
14
16
18
20
0 10 20 30 40 50 60 70 80 90 100
Lu
ngh
ezze
Percentile campionaria
Tracciato della probabilità normale
Serie1
Evidenzia la normalità dei residui
(se esce come istogramma, cambiare
il grafico)
Tracciato approssimazioni
0,0
2,0
4,0
6,0
8,0
10,0
12,0
14,0
16,0
18,0
20,0
0 1 2 3 4 5 6
Y
Variabile X 1
Tracciato delle approssimazioni
Y
Y prevista
Se i valori di Y e Y prevista sono
molto vicini conviene cambiare le
Opzioni indicatore
Correlazione
Correlazione tra variabili due variabili numeriche x e y misurate sugli
stessi individui di una popolazione. In altre
parole abbiamo due campioni di dati dove x_i
e y_i sono i valori delle due variabili misurate
sullo stesso individuo.
Rivediamo il diagramma di dispersione
Abbiamo a disposizione un campione (222)
di misurazioni su due grandezze
D= durata dell’eruzione (in minuti)
T = tempo di attesa per l’eruzione
successiva (in minuti)
Abbiamo calcolato la tabella delle frequenze,
prendendo come classi i singoli valori della
variabile T
Ritorniamo all’esempio del geyser
Osserviamo che i dati sono concentrati in due blocchi
PROVATE VOI: non avete i 222
campioni, ma solo 24
Nella tabella seguente sono stati considerati 12 neonati per i quali è stato misurato
Il peso alla nascita (x)
L’aumento percentuale di peso tra il 70° e il 100° giorno di vita (y)
Altro esempio
Esiste una relazione tra le due variabili?
Rappresentiamo la tabella usando un diagramma cartesiano di dispersione,
in cui consideriamo le coppie (x_i, y_i)
Interpretazione del diagramma
I valori tendono ad allinearsi lungo una retta: c’è correlazione fra i due
valori. Sorprendentemente, si osserva una tendenza “negativa”: ad un
maggior peso alla nascita, corrisponde una minor crescita
Correlazione La correlazione si misura mediante indici, tra cui il
coefficiente di correlazione lineare r, ed esprime la
«forza», o «intensità», del loro legame.
Talvolta l’analisi della correlazione precede lo studio della
regressione, in quanto una variabile viene confrontata con
varie altre per vedere quelle più connesse fra loro.
Covarianza di X e Y (ossia varianza
congiunta di X e Y)
varianza di X e varianza di Y
Coefficiente di correlazione lineare
(o di Pearson): proprietà
Valore compreso tra -1 e 1
r = 1 se dati allineati lungo una
retta crescente
r = -1 se dati allineati lungo una
retta decrescente
r = 0 se non esiste relazione
lineare tra i due caratteri
Coefficiente di determinazione E’ calcolata come differenza
dalla retta di regressione dal
valore medio
Coefficiente di determinazione
Si tratta di un altro coefficiente che indica quale frazione di
varianza totale dipende dalla dipendenza tra Y e X (varianza
spiegata), ossia quale frazione della variazione della variabile
Y è spiegata dalle variazioni della variabile X.
Quanto più è vicino a 1, tanto è maggiore la bontà del modello
lineare
E’ calcolata come differenza
dalla retta di regressione dal
valore medio
In Excel
La covarianza è determinabile dalla funzione:
COVARIANZA(matrice1;matrice2)
[matrice1,matrice2: primo e secondo intervallo di celle di interi]
Il coefficiente di correlazione lineare (r) è calcolato da una delle seguenti funzioni:
CORRELAZIONE(matrice1;matrice2)
PEARSON(matrice1;matrice2)
[matrice1(risp. matrice2): insieme di valori indipendenti (risp. dipendenti)]
Il coefficiente di determinazione (r2) è calcolato dalla funzione:
RQ(y_nota;x_nota)
[y_nota,x_nota: matrici o intervalli di valori]
Esempio 11.4
Mediante uno spettrofotofluorimetro vengono studiate
alcune soluzioni acquose di fluorosceina, la cui
concentrazione viene espressa in picogrammi (pg) per
cm3 di soluzione
concentrazione intensità
0 2,1
2 5,0
4 9,0
6 12,6
8 17,3
10 21,0
12 24,7
Proviamo a calcolare la
dipendenza tra X e Y
Esempio 11.4 Otteniamo i seguenti dati concentrazione intensità
0 2,1
2 5,0
4 9,0
6 12,6
8 17,3
10 21,0
12 24,7
covarianza = 30,8857143
coeff. corr.= 0,99887957
coeff. det.= 0,99776039
Essendo il coefficiente di correlazione prossimo a 1, vuol dire che le due
rette di regressione sono molto vicine.
Inoltre, essendo il coefficiente di determinazione prossimo a 1, possiamo
affermare che circa il 99,7% della varianza di Y dipende da X.
Quindi il modello lineare esprime bene la relazione tra Y e X.
Inserimento dati da file di testo
File testo
Delimitati
Passo 3