26
Strumenti matematici per la statistica descrittiva Gli strumenti matematici, che saranno illustrati, consentono di effettuare l’elaborazione dei dati : questa fase dell’indagine statistica, consiste nella trasformazione dei dati grezzi rilevati, in nuovi dati, ricavati matematicamente, dotati della proprietà di essere sintetici, indicativi ed interpretabili ai fini della scoperta delle leggi che regolano il fenomeno in oggetto. Questo metodo di indagine scientifica, che è caratteristico delle discipline sperimentali, è il metodo induttivo: con tale metodo si passa dal particolare all’universale; infatti, dall’osser- vazione di alcuni fatti particolari, si giunge a formulare una regola, o legge, universale, cioè valida per tutti gli altri fatti analoghi, ma non osservati direttamente. 1. Indici di posizione centrale o medie 1.1 Media aritmetica 1.2 Media geometrica 1.3 Media quadratica 1.4 Media armonica 1.5 Moda 1.6 Mediana 2. Indici di dispersione o di variabilità 2.1 Range o campo di variazione 2.2 Scarto semplice medio 2.3 Scarto quadratico medio 2.4 La distribuzione normale 2.5 Indici relativi di variabilità 3. Rapporti statistici (numeri indici) 4. Metodo dei minimi quadrati - interpolazione 5. Statistica bivariata - Correlazione e regressione 1

Strumenti matematici per la statistica descrittiva · Strumenti matematici per la statistica descrittiva Gli strumenti matematici, che saranno illustrati, consentono di effettuare

  • Upload
    others

  • View
    8

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Strumenti matematici per la statistica descrittiva · Strumenti matematici per la statistica descrittiva Gli strumenti matematici, che saranno illustrati, consentono di effettuare

Strumenti matematici per la statistica descrittiva

Gli strumenti matematici, che saranno illustrati, consentono di effettuare l’elaborazione deidati : questa fase dell’indagine statistica, consiste nella trasformazione dei dati grezzi rilevati,in nuovi dati, ricavati matematicamente, dotati della proprietà di essere sintetici, indicativied interpretabili ai fini della scoperta delle leggi che regolano il fenomeno in oggetto.

Questo metodo di indagine scientifica, che è caratteristico delle discipline sperimentali, è ilmetodo induttivo: con tale metodo si passa dal particolare all’universale; infatti, dall’osser-vazione di alcuni fatti particolari, si giunge a formulare una regola, o legge, universale, cioèvalida per tutti gli altri fatti analoghi, ma non osservati direttamente.

1. Indici di posizione centrale o medie

1.1 Media aritmetica

1.2 Media geometrica

1.3 Media quadratica

1.4 Media armonica

1.5 Moda

1.6 Mediana

2. Indici di dispersione o di variabilità

2.1 Range o campo di variazione

2.2 Scarto semplice medio

2.3 Scarto quadratico medio

2.4 La distribuzione normale

2.5 Indici relativi di variabilità

3. Rapporti statistici (numeri indici)

4. Metodo dei minimi quadrati - interpolazione

5. Statistica bivariata - Correlazione e regressione

1

Page 2: Strumenti matematici per la statistica descrittiva · Strumenti matematici per la statistica descrittiva Gli strumenti matematici, che saranno illustrati, consentono di effettuare

1. Indici di posizione centrale o medie

Definizione: un valore medio di un insieme di dati numerici {x1, x2, ., xn} è unparticolare numero, risultato di una opportuna operazione-funzione f(x1, x2, ., xn),che, da solo, è capace di rappresentare sinteticamente l’intero insieme dei predetti datie che, per scopi prefissati, è ad esso sostituibile, cioè è quel numero che sostituitoalle x i lascia invarito il risultato operato dalla f.

Gli indici di posizione centrale o medie assumono sempre un valore (numero) compresotra il minimo ed il massimo dei dati cnsiderati:

min {xi}6 numero6Max{xi}

1.1 Media aritmetica

Si definisce media aritmetica di più numeri, quel valore che sostituito ai dati, lasciainvariata la loro somma.

• La media aritmetica (semplice) dell’ insieme di dati numerici {x1, x2, ., xn} è:

µ=x1+ x2+ .+ xn

n=

i=1n

xi

n

Esempio - Calcola la media aritmetica µ dei dati riportati nella seguente tabella:

Discipline

Voti di Masssimo

Ita.

7

Lat.

6

Ingl.

8

Fra.

8

Sto.

8

Fil.

7

Sci.

7

Mat.

6

Fis.

6

Ed.A.

8

Ed.F

9

µ=7+6+8+8+8+7+7+6+6+8+9

11F 7, 27

• La media aritmetica ponderata dell’ insieme di dati numerici {x1, x2, ., xn}, aventiciascuno il corrispondente peso {p1, p2, ., pn} è:

µ=x1 · p1+x2 · p2+ .+xn · pn

p1+ p2+ .+ pn=

i=1n

xi · pi∑

i=1n pi

Esempio - Calcola la media aritmetica ponderata µ dei dati riportati nella seguentetabella:

verifiche di Mat.

Voti di Masssimo

Peso dei voti

1^

7

1

2^

6

0,7

3^

8

0,5

4^

8

1

5^

9

0,3

µ=7 · 1+6 · 0, 7+ 8 · 0, 5+8 · 1+8 · 0, 3

1+0, 7+0, 5+1+0, 3F 7, 31

2

Page 3: Strumenti matematici per la statistica descrittiva · Strumenti matematici per la statistica descrittiva Gli strumenti matematici, che saranno illustrati, consentono di effettuare

• Definizione: le differenze (x1−µ), (x2−µ), , (xn−µ) tra ciascun dato e la mediaaritmetica si chiamano scarti semplici degli xi da µ.

Proprietà

• La somma degli scarti è nulla:

(x1− µ)+(x2− µ)+...+(xn− µ)=∑

i=1

n(x1− µ)= 0

La relazione si dimostra e si comprende facilmente, infatti gli scarti positivi e quellinegativi si neutralizzano a vicenda.

• Se su ciascuno degli n valori {x1, x2, , xn} si opera la trasformazione

yi = axi+b (a e b∈R) si ottiene µy= aµ+ b

1.2 Media geometrica

Si definisce media geometrica di più numeri, quel valore che sostituito ai dati, lasciainvariato il loro prodotto.

Si utilizza la media geometrica quando ha senso moltiplicare fra loro i dati ststistici,per esempio nella ricerca del taso medio nella capitalizzazione composta o quando, ingenerale, i dati variano in progressione geometrica.

• La media geometrica (semplice) dell’ insieme di dati numerici {x1, x2, , xn} è:

xG= x1 ·x2 · ·xnn√

Esempio - Nel 2010 un bene costava C1=2000 euro; nel 2011 si è registrato unaumento del 10%, che porta al costo C2; nel 2012 un ulteriore aumento del 15%, cheporta al costo C3 e nel 2013 un aumento del 9%, che porta al costo C4 (aumenti sempre

riferiti all’anno precedente).

Calcolare il costo C4 di quel bene nel 2013 e l’aumento medio annuo i% (media degli

aumenti i1%=10%, i2%=15%, i3%=9%):

C2=C1+C1·0, 1=C1(1+ 0, 1)=C1 · 1, 1; C3=C2 · 1, 15; C4=C3·1, 09

quindi C4=2000 · 1, 1 · 1, 15 · 1, 09 = 2757,70;

Per determinare l’aumento medio annuo i si deve risolvere l’equazione

2000(1+ i)3= 2757, 70 (dalla legge della capitalizzazione composta)

1+i=2000 · 1, 1 · 1, 15 · 1, 09

20003

= 1, 1 · 1, 15 · 1, 093√

=1, 113 ⇒ i=0, 113 , i%=11,3%

Pertanto l’aumento medio annuo è stato dell’ 11,3%.

3

Page 4: Strumenti matematici per la statistica descrittiva · Strumenti matematici per la statistica descrittiva Gli strumenti matematici, che saranno illustrati, consentono di effettuare

Osservo che 1, 1 · 1, 15 · 1, 093√

è la media geometrica di (1+i1), (1+ i2), (1+ i3).

• La media geometrica ponderata dell’ insieme di dati numerici {x1, x2, ., xn}, aventiciascuno il corrispondente peso {p1, p2, , pn} è:

xG= x1p1 · x2

p2 · ·xnpnN

conN =∑

i=1

npi

Proprietà

• La media geometrica (semplice o ponderata)di n numeri positivi coincide con lamedia aritmetica (semplice o ponderata) degli n logaritmi dei singoli numeri:

Log xG=log x1+ log x2+ .+ log xn

n

• Lamedia geometrica delle potenze {x1h, x2

h, , xnh} è (xG)

h .

1.3 Media quadratica

Si definisce media quadratica di più numeri, quel valore che sostituito ai dati, lasciainvariata la somma dei loro quadrati.

Si usa quando ha interesse calcolare un valore medio di superfici.

• La media quadratica (semplice) dell’ insieme di dati numerici {x1, x2, ., xn} è:

xQ=x12+ x2

2+ +xn2

n

=

i=1n

xi2

n

Esempio - Si hanno tre quadrati di lamiera di uguale spessore con i lati di 11 cm,7 cm e 19 cm.

Calcolare il lato l di tre quadrati uguali fra loro in modo che la superficie totale siainvariata:

l 2+l 2+l2= 112+72+ 192 ⇒ l=112+72+ 192

3

= 13, 30 cm

• La media quadratica ponderata dell’ insieme di dati numerici {x1, x2, .,xn}, aventiciascuno il corrispondente peso {p1, p2, ., pn} è:

xQ=x12 · p1+x2

2 · p2+ +xn2 · pn

i=1n pi

=

i=1n

xi2 · pi

i=1n pi

1.4 Media armonica

4

Page 5: Strumenti matematici per la statistica descrittiva · Strumenti matematici per la statistica descrittiva Gli strumenti matematici, che saranno illustrati, consentono di effettuare

Si definisce media armonica di più numeri, quel valore che sostituito ai dati, lasciainvariata la somma dei reciproci.

Si applica quando ha senso calcolare il reciproco dei dati, per es (velocità media,resistenze in parallelo, capacità in serie, potere di acquisto medio di una moneta ...).

• La media armonica (semplice) dell’ insieme di dati numerici {x1, x2, ., xn} è:

xA=n

1

x1+

1

x2+ +

1

xn

=n

i=1n 1

xi

• La media armonica ponderata dell’ insieme di dati numerici {x1, x2, ., xn}, aventiciascuno il corrispondente peso {p1, p2, ., pn} è:

xA=

i=1n

pip1

x1+

p2

x2+ +

pn

xn

=

i=1n

pi∑

i=1n pi

xi

Esempio 1 - Un automobilista ha percorso 150 km alla velocità di 75 km/h, poi 270km alla velocità di 90km/h ed infine 400 km alla velocitò di 80 km/h.

Calcolare la velocità media v :

v=150+ 270+ 400150

75+

270

90+

400

80

=820

2+ 3+ 5= 82 km/h.

Esempio 2 - La formula per la capacità C equivalente a quella di n condensatoriC1, C2, ..., Cn collegati in serie è:

C =1

1

C1+

1

C2+ .+

1

Cn

⇒ C =1

n· n1

C1+

1

C2+ .+

1

Cn

quindi la capacità equivalente èlamedia armonica delle capacità

n.

Proprietà

• La somma degli scarti dei singoli valori dalla media armonica è nulla.

Osservazione: per un insieme di dati numerici positivi {x1, x2, ., xn}, vale laseguente relazione:

xA6xG6 µ6xQ

5

Page 6: Strumenti matematici per la statistica descrittiva · Strumenti matematici per la statistica descrittiva Gli strumenti matematici, che saranno illustrati, consentono di effettuare

1.5 La moda

Definizione: si dice moda o valore normale di una distribuzione di frequenze,la modalità o il valore della variabile al quale corrisponde la massima frequenza.

Una distribuzione statistica può avere più mode o anche nessuna:

La distribuzione 1,2,2,2,3,5,5 ha moda 2

La distribuzione 1,2,2,2,3,5,5,5 ha moda 2 e 5

La distribuzione 1,1,2,2,3,3,5,5 non ha moda perchè nessun termine ha frequenzamaggiore di altri.

Esempio - Dalla seguente tabella si evince che la moda della variabile spesa è2500 euro.

N. famiglieSpesa per ferie (euro)

11500

02000

52500

43000

1.6 La mediana

Definizione: data una successione di valori x1, x2, , xn, ordinati in senso nondecrescente, si dice mediana il valore che bipartisce la successione, ossia ilvalore non inferiore a metà dei valori e non superiotre all’altra metà.

Esempi - Trovare la mediana per le seguenti distribuzioni :

n. dispari di dati 5, 7, 11, 13, 15 mediana 11

n. pari di dati 5, 7, 11, 13, 15, 17 mediana11+ 13

2= 12 .

2. Indici di dispersione o di variabilità

La varabilità è l’attitudine che la grandezza in oggetto ha di assumere valori più omeno diversi fra loro.

In pratica, dopo aver calcolato uno o più valori medi, i dati rilevati si possono pre-sentare in modo più o meno disperso attorno a tali valori medi, quindi si cerca dievidenziare e descrivere in modo sintetico tale dispersione mediante oppurtuni indici.

Esempio - Analizziamo i dati riportati nella seguente tabella:

voti nelle prove scritte di matematica di tre allievi

Filippo

Ilaria

Pietro

5

4

3

6

5

4

6

7

8

7

8

9

6

Page 7: Strumenti matematici per la statistica descrittiva · Strumenti matematici per la statistica descrittiva Gli strumenti matematici, che saranno illustrati, consentono di effettuare

Grafici delle frequenze dei voti:

Si nota che, a parità di media aritmetica (µ=6), le tre successioni di voti presentanouna misura diversa della variabilità - dispersione attorno a tale valore medio:

i voti di Filippo sono quelli meno dispersi, mentre i voti di Pietro sono i più dispersio a variabilità più alta.

Poichè nessuno dei valori medi è in grado di dare informazioni sulla misura della vari-abilità dei dati, è necessario introdurre indici appropriati, detti indici di dispersioneo di variabilità.

2.1 Range o campo di variazione (d)

Def.: il campo di variazione d è dato dalla differenza tra il dato massimo ed il datominimo; tale dato equivale al minimo intervallo che contiene tutti i dati.

d=Max{xi}−min {xi}

7

Page 8: Strumenti matematici per la statistica descrittiva · Strumenti matematici per la statistica descrittiva Gli strumenti matematici, che saranno illustrati, consentono di effettuare

Esempio: il campo di variazione dei voti

- di Filippo è d = 7 - 5 = 2,

- di Ilaria è d = 8 - 4 = 4,

- di Pietro è d = 9 - 3 = 6.

2.2 Scarto semplice medio (S)

Def.: lo scarto semplice medio S è uguale alla media aritmetica, semplice o ponderata,dei valori assoluti degli scarti di ciascun dato xi dalla media aritmetica µ.

S=|x1− µ|+ |x2− µ|+ .+ |xn − µ|

ncioè S=

i=1n |xi − µ|

n

S=

i=1n |xi − µ| · pi∑

i=1n pi

(media ponderata)

Osservazione: si dimostra e si comprende facilmente che

i=1n (xi − µ)

n=0.

Esempio: lo scarto semplice medio dei voti

- di Filippo è S =|5− 6|+ |6− 6|+ |6− 6|+ |7− 6|

4=

2

4=

1

2= 0,5

- di Ilaria è S =|4− 6|+ |5− 6|+ |7− 6|+ |8− 6|

4=

6

4=

3

2= 1,5

- di Pietro è S =|3− 6|+ |4− 6|+ |8− 6|+ |9− 6|

4=

10

4=

5

2=2, 5.

Intepretazione dei risultati: mediamente i voti

- di Filippo si discostano dalla media (6) di una frazione pari a 1/2 di voto,

- di Ilaria si discostano dalla media di una frazione pari a 3/2 di voto,

- di Pietro si discostano dalla media di una frazione pari a 5/2 di voto,

quindi i voti di di Pietro, discostandosi dalla media del 6, mediamente di 2,5, pre-sentano un grado di variabilità maggiore (sono più dispersi) di quelli di Ilaria e diFilippo. I voti di Filippo sono i meno dispersi.

2.3 Varianza e scarto quadratico medio (σ2, σ)

8

Page 9: Strumenti matematici per la statistica descrittiva · Strumenti matematici per la statistica descrittiva Gli strumenti matematici, che saranno illustrati, consentono di effettuare

Def.: la varianza σ2 è la media aritmetica, semplice o ponderata, dei quadrati degliscarti.

σ2=(x1− µ)2+(x2− µ)2+ .+(xn − µ)2

ncioè σ2=

i=1n (xi − µ)2

n

σ2=

i=1n

(xi − µ)2 · pi∑

i=1n pi

(media ponderata)

Osservazione: si dimostra facilmente che

σ2= µx2− µ2

infatti, indicando con µx2 la media aritmetica degli xi2 :

σ2=

i=1n (xi − µ)2

n=

i=1n

xi2

n− 2µ

i=1n

xi

n+ µ2= µx2− 2µ2+ µ2= µx2− µ2 .

Quindi la varianza è uguale alla differenza fra la media aritmetica semplice o pon-derata dei quadrati dei termini e il quadrato della media.

Def.: lo scarto quadratico medio σ (deviazione standard) è la radice quadratata dellavarianza, cioè la media quadratica, semplice o ponderata, degli scarti dei valori dallamedia aritmetica.

σ=(x1− µ)2+(x2− µ)2+ .+(xn − µ)2

n

cioè

σ=

i=1n

(xi − µ)2

n

σ=

i=1n

(xi − µ)2 · pi∑

i=1n pi

(media ponderata)

Esempio : cinque successive rilevazioni della temperatura di una giornata hannofornito il seguente insieme di dati:

x 0C 18 22 24 28 30 , determinare:

a) la media aritmetica µ ;

b) il campo di variazione d;

c) lo scarto semplice medio S;

d) lo scarto quadratico medio σ .

Per rispondere ai quesiti conviene compilare la seguente tabella:

9

Page 10: Strumenti matematici per la statistica descrittiva · Strumenti matematici per la statistica descrittiva Gli strumenti matematici, che saranno illustrati, consentono di effettuare

datix

1822242830

µ= 24, 4

scartix-µ

-6,4-2,4-0,4+3,6+5,6

(x− µ)= 0

val. ass. scarti|x-µ|

6,42,40,43,65,6

∑ |x− µ|= 18, 4

scarti al quadrato

(x-µ)2

40,965,760,1612,9631,36

(x− µ)2= 91, 20

quindi, ecco le risposte:

a) µ= 24, 4 - 24, 4 0C è la temperatura media della giornata;

b) d=xmax−xmin= 30-18=12 - 12 0C è il campo di variazione (escursione termica);

c) S=18, 4

5=3, 68 - 3, 68 0C è di quanto le temperature rilevate si discostano

mediamente dal loro valor medio 24, 4 0C;

d) σ=91, 20

5

=4, 27 - 4, 27 0C è un altro indice di variabilità che dice, con

risultato diverso, di quanto le temperature rilevate si discostano mediamente dalloro valor medio.

Osservazioni sull’importanza dello scarto quadratico medio:

Lo scarto quadratico medio σ (deviazione standard, scarto tipico) è il più importantetra tutti gli indici di variabilità, preferibile al campo di variazione d, perchè troppogrossolano, e allo scarto semplice medio S, perchè σ:

a) è più sensibile di S, dimostrandosi capace di percepire più intensamente anchelievissimi mutamenti della variabilità;

b) è maggiore di S, cosicchè consente di evidenziare meglio anche le più piccoledifferenze delle variabilità allorchè si confrontano due insiemi di dati statistici;

c) è molto importante per lo studio di quella notevole distribuzione di frequenzeche è la distribuzione normale.

Osservazione generale: gli indici di dispersione sono “invarianti per traslazione”,

cioè data la serie di valori x1, x2,..., xn il range d, lo scarto semplice medio S e loscarto quadratico medio σ, rimangono invariati per la nuova serie (traslata di h) x1+h,x2+h,..., xn+h.

2.4 La distribuzione normale

10

Page 11: Strumenti matematici per la statistica descrittiva · Strumenti matematici per la statistica descrittiva Gli strumenti matematici, che saranno illustrati, consentono di effettuare

Esempio di distribuzione di frequenze di tipo normale.

Analizzare il grafico della distribuzione delle frequenze dei seguenti dati (risultato di un

test d’ingresso, assegnato ad un campione casuale di 100 studenti iscritti al 1 anno di Ingegneria):

voti

frequenze

2

3

3

5

4

7

5

22

6

26

7

22

8

7

9

5

10

3

Istogramma corrispondente alla tabella:

analisi del grafico:

• media (µ=6+ 15+ 28+ 110+ 156+ 154+ 56+ 45+ 30

100=6), moda e mediana coincidono

e valgono 6;

• il grafico è a forma di campana;

• la maggior parte dei voti è addensata nelle vicinanze della media.

Perchè il termine “normale”

Tutte le volte che una distribuzione di frequenze porta ad una situazione simile aquella presentata nell’esempio, si dice che essa è una distribuzione normale , perchè lasua rappresentazione grafica tende al grafico (campana perfetta) della funzione nor-male di Gauss, in grado di descrivere molti fenomeni nel campo della fisica, dellamedicina-biologia, della sociologia, della psicologia, che si distribuiscono “normal-mente” con frequenze più elevate nei valori centrali e con frequenze progressivamenteminori verso gli estremi della variabile.

E’ detta anche curva degli errori accidentali in quanto, soprattutto nelle disciplinefisiche, la distribuzione degli errori commessi nel misurare ripetutamente una stessagrandezza, è molto bene approssimata da questa curva.

Funzione normale diGauss:

11

Page 12: Strumenti matematici per la statistica descrittiva · Strumenti matematici per la statistica descrittiva Gli strumenti matematici, che saranno illustrati, consentono di effettuare

y=1

σ 2π√ · e−

(x−µ)2

2σ2

Caratteristiche della curva di Gauss (gaussiana)

a) è simmetrica rispetto al valore medio µ;

b) media, moda e mediana coincidono;

c) è asintotica, con asintoto la retta y=0(

limx→±∞

f(x)= 0)

;

d) è crescente per x<µ , decrescente per x>µ ;

e) presenta due punti di flesso per x=µ± σ ;

f) l’area sotto la curva vale 1, essendo 1 la probabilità che si verifichi un valore xnell’intervallo ]-∞ ;+∞[;

g) posizione, forma e distribuzione delle frequenze sono caratterizzate da µ e σ:

12

Page 13: Strumenti matematici per la statistica descrittiva · Strumenti matematici per la statistica descrittiva Gli strumenti matematici, che saranno illustrati, consentono di effettuare

2.5 Indici relativi di variabilità

Gli indici d, S, σ sono espressi nella stessa unità di misura dei dati da elaborare,quindi servono per confrontare le variabilità di dati omogenei.

Per confrontare successioni di dati non omogenei si devono usare gli indici relatividi variabilità:

• campo di variazione relativo: dr=d

µ

• scarto semplice medio relativo: Sr=S

µ

13

Page 14: Strumenti matematici per la statistica descrittiva · Strumenti matematici per la statistica descrittiva Gli strumenti matematici, che saranno illustrati, consentono di effettuare

• scarto quadratico medio relativo: σr=σ

µ

Facendo riferimento ai dati dell’esempio precedente (in 2.3), si ottiene:

• campo di variazione relativo: dr=12 0C

24, 4 0C=0, 49

• scarto semplice medio relativo: Sr=3, 68 0C

24, 4 0C=0, 15

• scarto quadratico medio relativo: σr=4.26 0C

24, 4 0C=0, 17

Esempio : data la seguente distribuzione di frequenze riguardante una successionedi 10 voti, determinare:

a) la media aritmetica dei voti;

b) la misura della variabilità dei voti, mediante l’uso della deviazione standard (scartoq.m.);

c) il confronto delle variabilità delle due successioni di dati riportate nella tabelladell’esempio 1 e nella seguente.

dati (voti) x 5 6 7 8frequenze f 1 5 2 2

a) media ponderata dei voti µ=

i=14

xi · fi∑

i=14 ·fi

=5+ 30+ 14+ 16

10=6, 5

b) deviazione standard σ=

i=1n

(xi− µ)2 · fi∑

i=1n fi

=8, 50

10

=0, 92

scartix-µ

-1,5-0,5+0,5+1,5

(x− µ) = 0

scarti al quadr.

(x-µ)2

2,250,250,252,25

frequenzef

1522

f = 10

prodotti

(x-µ)2 · f

2,251,250,504,50

(x− µ)2 · f =8, 5

c) Per confrontare le variabilità dei due insiemi non omogenei di dati, si devonousare gli indici relativi di variabilità:

per le temperature dell’esempio 1 si ha σr=σ

µ=

4, 26 0C

24, 4 0C=0, 17 ,

14

Page 15: Strumenti matematici per la statistica descrittiva · Strumenti matematici per la statistica descrittiva Gli strumenti matematici, che saranno illustrati, consentono di effettuare

per i voti dell’esempio 2 si ha σr=σ

µ=

0, 92

6, 5=0, 14 .

Conclusione: gli indici relativi ci informano, in riferimento ai dati analizzati, chela variabilità delle temperature è maggiore di quella dei voti.

Nessun confronto, fra dati non omogenei, è possibile mediante gli indici assoluti.

3. Numeri Indici

I numeri indici sono rapporti, espressi in percentuali, fra intensità di un certofenomeno in tempi o in luoghi diversi e possono essere:

a) numeri indici a base fissa che si calcolano scegliendo un dato come base (o il primo,o l’ultimo, o un valore medio) e dividendo gli altri dati per la base, moltiplicandoloil risultato per 100;

b) numeri indici a base mobile (soprattutto per serie storiche), che si ricavanoprendendo, per ciascuno, come base il dato precedente.

Esempio:

I numeri indici a base fissa mettono in evidenza, meglio dei dati grezzi, la variazionedei dati rispetto alla base.

I numeri indici a base mobile evidenziano la variazione di un dato rispetto al datoprecedente.

4. Metodo dei minimi quadrati - interpolazione

Il metodo dei minimi quadrati è una tecnica molto utile per determinare la funzioneche rappresenti nel migliore dei modi la relazione che può esistere fra due grandezzeX e Y delle quali si conoscono alcuni valori o dati rilevati.

15

Page 16: Strumenti matematici per la statistica descrittiva · Strumenti matematici per la statistica descrittiva Gli strumenti matematici, che saranno illustrati, consentono di effettuare

Procedimento:

a) si rilevano i dati (xi; yi) delle grandezze X e Y (per es.: X peso applicato e Y

allungamento di una molla);

b) si rappresentano le n coppie di dati (xi; yi) mediante tabella e diagramma adispersione;

c) il diagramma a dispersione suggerisce quale tipo di funzione scegliere perl’interpolazione, di solito

polinomiale di 1o grado - y = ax + b

2o grado - y = ax2 + bx + c

3o grado - y = ax3 + bx2 + cx + d

4o grado - y = ax4 + bx3 + cx2 + dx + e

esponenziale - y = a·bx

logaritmica - y = a·lnx + b

iperbole - y =1

ax+ b, ecc. ...

d) Scelta la funzione, si calcolano i parametri a, b, c, ... mediante formulenote, ricavate dall’applicazione di un fondamentale teorema di analisi alla

condizione di accostamento: per ottenere la migliore funzione interpolante(o perequatrice) è necessario e sufficiente determinare i valori dei parametria, b, c, ... in modo che sia minima la somma dei quadrati delle differenze frai valori rilevati yi e i valori teorici yi :

i=1

n(yi− yi)

2 = minima

( per la funzione polinomiale di 10 grado:∑

i=1n (yi− axi− b)2 = minima )

e) Calcolo del coefficiente di determinazione ρ2 (R2) , che indica quanto ilmodello scelto (funzione interpolante) è aderente al fenomeno oggetto di studio(dati rilevati).

Per l’interpolazione lineare R2 è semplicemente il quadrato del coefficiente dicorrelazione:

ρ2 =

(

σxy

σx ·σy

)

2

con σxy= cov(X ;Y )=

i=1n

(xi− µx)(yi− µy)

n

06 ρ2 6 1

ρ2=1 indica un adattamento perfetto del modello ai dati;

ρ2= 0 indica che il modello utilizzato non si adatta ai dati rilevati.

16

Page 17: Strumenti matematici per la statistica descrittiva · Strumenti matematici per la statistica descrittiva Gli strumenti matematici, che saranno illustrati, consentono di effettuare

Esempio 1

Data la seguente tabella di dati rilevati per le grandezze X eY, mediante fogliodi calcolo, tracciare il diagramma a dispersione, richiedendo al software dicalcolare la funzione interpolante e il relativo coefficiente di determinazione.

Soluzione

17

Page 18: Strumenti matematici per la statistica descrittiva · Strumenti matematici per la statistica descrittiva Gli strumenti matematici, che saranno illustrati, consentono di effettuare

Osserva come l’interpolazione lineare si adatti meglio, rispetto a quella

logaritmica, ai dati della tabella: Rlineare2 > Rlogaritmica

2

Formule per l’interpolazione lineare (polinomio di primo grado)

Scelta la funzione del tipo y = ax + b si determinano i parametri a e bmediante le seguenti formule:

a=n∑

xiyi−∑

xi ·∑

yi

n∑

xi2− (

xi)2(∗) calcolato il coeff. ang. a, si ottiene b

b=

yi

n− a

xi

n⇒ b= µy − aµx ⇒ y= ax+ µy− aµx

Concludendo l’equazione della retta interpolante fra punti noti è:

y − µy = a(x − µx)

Osservazioni

• Il punto di coordinate (µx, µy) è il baricentro della distribuzione.

• la formula (∗) può essere scritta in modo più semplice in termini di

scarti xi

= xi−µx e yi′

= yi−µy :

a=

xi

yi′

∑(

xi

′)

2=

σxy

σx2 .

Esempio 2

Calcolare la retta interpolante e il relativo coefficiente di determinazione R2

per i dati riportati nella tabella dell’esempio 1.

Soluzione

xi′

e yi′

sono gli scarti: xi′

=(xi− µx); yi′

=(yi− µy)

18

Page 19: Strumenti matematici per la statistica descrittiva · Strumenti matematici per la statistica descrittiva Gli strumenti matematici, che saranno illustrati, consentono di effettuare

a=σxy

σx2 =

10, 5

16, 5F 0, 636364 ⇒ equazione retta : y − µy =a(x − µx)

y=0, 636364x − 0, 636364 · 7+5 ; y=0, 636364x+ 0.545455

ρ2 =

(

σxy

σx ·σy

)

2

=(10, 5)2

16, 5 · 7 F 0, 954545 ⇒ ρ2 F 1 indica un buon

adattamento del modello ai dati.

5. Statistica bivariata - Correlazione e regressione

La statistica unidimensionale si occupa di studiare una sola variabile o mutabile. Lastatistica bidimensionale o bivariata si occupa dello studio congiunto di due caratteridistinti. In particolare il problema è quello di vedere se esiste fra essi un legameassociativo e in caso positivo di misurarne l’entità.

Il caso più importante è la classificazione rispetto a due caratteri (voto in storia e in

matematica per gli allievi di una classe, peso e altezza per gli atleti di una certa disciplina); ledistribuzioni di frequenza, per rilevazioni di questo tipo, si rappresentano con tabellea doppia entrata, che possono essere:

a) di contingenza se i due caratteri sono entrambi qualitativi (mutabile statistica

doppia); es.: distribuzione degli abitanti di una regione per provincia e sesso;

b) di correlazione se i due caratteri sono entrambi quantitativi (variabile statistica

doppia); es.: distribuzione delle abitazioni di una città per numero dei vani e pernumero dei componenti della famiglia;

c) miste se uno dei due caratteri è quantitavo e l’altro e qualitativo; es.: distribuzionedei suicidi in una regione per età e per sesso.

Esempio di tabella mista:

distribuzione delle frequenze di un campione di allievi di un istituto scolastico, pernumero di lingue straniere conosciute e per le modalità magro regolare, grasso:

19

Page 20: Strumenti matematici per la statistica descrittiva · Strumenti matematici per la statistica descrittiva Gli strumenti matematici, che saranno illustrati, consentono di effettuare

Da ogni tabella a doppia entrata si possono ricavare due tabelle a semplice entratariguardante ognuno dei due caratteri. Infatti, se si considerano i valori dei totali deidati di riga e dei totali di ogni colonna, si hanno due tabelle a semplice entrata chevengono dette distribuzioni marginali:

Dalla tabella a doppia entrata e tenendo conto delle distribuzioni marginali, si puòvalutare se i caratteri considerati sono indipendenti:

Def.: Due caratteri A e B sono indipendenti se le frequenze relative del carattereA (p.es. peso) si mantengono ugualmente distribuite in tutte le modalità con cuicompare il carattere B(p.es. lingue straniere conosciute) e viceversa.

Per esempio, considerato il carattere y di A, si haf2,1B1

=f2,2B2

=f2,3B3

e f2,1+ f2,2+ f2,3=A2 .

Segue inoltre il teorema:

se due caratteri sono indipendenti, allora fi,k=Ai ·Bk

N, con N il totale del campione;

dimostrazione: se i caratteri sono indipendenti, allorafi,1

B1=

fi,2

B2=

fi,n

Bn

per tutta la

riga i-esima, quindi si può scrivere

j=1

nfi,j=

fi,kBk

j=1

nBk ⇒Ai=

fi,kBk

·N ⇒ fi,k=Ai ·Bk

N

20

Page 21: Strumenti matematici per la statistica descrittiva · Strumenti matematici per la statistica descrittiva Gli strumenti matematici, che saranno illustrati, consentono di effettuare

I due caratteri considerati nell’esempio sono indipendenti, infatti:

e dal teorema, per esempio f2,3=A2 ·B3

N=

46 · 1184

F 6; f1,2=A1 ·B2

N=

23 · 1884

F 5.

Correlazione e regressione

Nella Statistica descrittiva è importante lo studio della connessione che è la ricercadi eventuali relazioni, di dipendenza ed interdipendenza, intercorrenti tra due variabilistatistiche X, Y; esso prende il nome di

• correlazione se lo scopo è quello di accertare ed esprimere l’intensità del legame diinterdipendenza tra le variabili, cioè di vedere se esse si influenzano reciprocamente,ed allora si sceglirà, come mezzo tecnico, un indice (coefficiente di correlazione ρ);

• regressione se lo scopo è quello di ricercare ed illustrare legami di dipendenza frale variabili X, Y, determinando, con il metodo dei minimi quadrati, una funzione,detta funzione di regressione, che permetta di valutare le variazioni della Y alvariare della X e viceversa.

Se la funzione prescelta è la retta si parlerà di regressione lineare.

Calcolo della Correlazione

Per misurare la variabilità congiunta di due varibili X e Y si introduce la covarianzadi X e di Y:

σxy= cov(X ;Y )=

i=1n

(xi− µx)(yi− µy)

n

o anche

σxy= µxy− µx · µy con µxy=

i=1n

xi · yin

infatti:

σxy=

i=1

n(xi− µx)(yi− µy)

n=

1

n(∑

(xiyi)−∑

(xiµy)−∑

(yiµx)+∑

(µxµy))= µxy− 2µx · µy+

µx · µy= µxy− µx · µy .

21

Page 22: Strumenti matematici per la statistica descrittiva · Strumenti matematici per la statistica descrittiva Gli strumenti matematici, che saranno illustrati, consentono di effettuare

La covarianza è il valor medio del prodotto degli scarti corrispondenti di X e di Y esi usa per definire il coefficiente di correlazione lineare di Bravais-Pearson,che viene assunto come indice:

ρ=σxy

σx ·σy

=cov(X ;Y )

σx ·σy

Il coefficiente di correlazione di Bravais-Pearson è il rapporto fra la covarianza e ilprodotto degli scarti quadratici medi di X e Y.

Proprietà dell’indice di correlazione lineare:

−16 ρ6 1

• ρ=−1 la correlazione è perfetta inversa (o negativa)

• −1< ρ< 0 la correlazione è inversa (o negativa)

• ρ=0 non esiste correlazione lineare

• 0< ρ< 1 la correlazione è diretta (o positiva)

• ρ=1 la correlazione è perfetta diretta (o positiva)

N.B. se non esiste correlazione lineare (ρ=0) potrebbe, però, sussistere una correlazione curvilinea.

Esempio 3

22

Page 23: Strumenti matematici per la statistica descrittiva · Strumenti matematici per la statistica descrittiva Gli strumenti matematici, che saranno illustrati, consentono di effettuare

Calcolare la covarianza e il coefficiente di correlazione per le variabili X e Y con idati riportati nella tabella dell’esempio 1.

Soluzione

Calcolo delle medie aritmentice µx e µy :

µx=1+ 3+4+6+8+9+ 11+ 14

8=7 ; µy=

1+ 2+4+4+5+7+8+9

8=5

Calcolo gli scarti quadratici medi σx e σy :

σx=

i=1n

(xi− µx)2

n

=(1− 7)2+(3− 7)2+ .+(14− 7)2

8

= 16, 5√

F 4, 062

σy=

i=1n

(yi− µy)2

n

=(1− 5)2+(2− 5)2+ .+(9− 5)2

8

= 7√

F 2, 646

Calcolo la covarianza σxy = cov(X;Y):

σxy=

i=1n

(xi− µx)(yi− µy)

n=

(1− 7) · (1− 5)+ (3− 7) · (2− 5)+ .+(14− 7) · (9− 5)

8= 10, 5

Calcolo il coefficiente di correlazione ρ :

ρ=σxy

σx ·σy

=cov(X ; Y )

σx · σy

F

10, 5

4, 062 · 2, 646 F 0, 977

0< ρ< 1 e anche ρF 1 , quindi fra i dati rilevati, relativi alle grandezze X eY, vi è una buona correlazione diretta (o positiva).

Calcolo della Regressione lineare

Date due variabili statistiche X e Y con associati n dati rilevati xi e y i ci si prefiggedi determinare una funzione matematica, in questo contesto di tipo lineare, cheesprima la relazione fra tali variabili:

y = ax +b retta di regressione di y in x e, se ha senso logico anche

x = a′

y + b′

retta di regressione di x in y.

Si procede applicando le seguenti formule, ricavate mediante il metodo dei minimiquadrati:

23

Page 24: Strumenti matematici per la statistica descrittiva · Strumenti matematici per la statistica descrittiva Gli strumenti matematici, che saranno illustrati, consentono di effettuare

y − µy =a(x − µx) con a=

xi

yi

∑(

xi

′)

2=

σxy

σx2

a è il coefficiente di regressione di y in x

x− µx=a′

(y − µy) con a′

=

xi

yi

∑(

yi

′)

2=

σxy

σy2

a′

è il coefficiente di regressione di x in y

Osservazioni:

• le rette di regressione lineare passano per il baricentro (µx; µy) e rendono minimala somma dei dei quadrati degli scarti.

• ρ=σxy

σx ·σy

=± a · a′

√ (

infatti : a · a′

=σxy

σx2· σxy

σy2=

(

σxy

σxσy

)

2

= ρ2

)

Esempio 4

La seguente distribuzione doppia rappresenta il peso in kg di un neonato nei primi12 mesi:

a) rappresentare il grafico a dispersione;

24

Page 25: Strumenti matematici per la statistica descrittiva · Strumenti matematici per la statistica descrittiva Gli strumenti matematici, che saranno illustrati, consentono di effettuare

b) trovare le coordinate del baricentro;

c) calcolare la covarianza;

d) determinare l’equazione della retta di regressione di y in x (la regressione di x in

y non ha senso logico) e il coefficiente di determinazione ρ2 .

Soluzione

a) Grafico a dispersione

Per rispondere ai quesiti b,c,d basta compilare la seguente tabella:

xi′

e yi′

sono gli scarti: xi′

=(xi− µx); yi′

=(yi− µy)

b) Coordinate del baricentro: (µx ; µy) → (6, 50 ; 6, 23)

25

Page 26: Strumenti matematici per la statistica descrittiva · Strumenti matematici per la statistica descrittiva Gli strumenti matematici, che saranno illustrati, consentono di effettuare

c) Covarianza: σxy= cov(X ;Y )=

i=1n

(xi− µx)(yi− µy)

n= 5,80

d) Retta di regressione di y in x e coefficiente di determinazione:

y− µy= a(x − µx) con a=

xi

yi′

∑(

xi

′)

2=

σxy

σx2 =

5, 80

11, 92F 0, 4866

y− 6, 23F 0, 4866(x − 6, 50) → y F 0, 4866x +3, 06697

ρ2=

(

σxy

σx ·σy

)

2

=(5, 80)2

11, 92 · 2, 95 F 0, 957 ⇒ R2F 1 indica un buon

adattamento del modello ai dati.

26