23
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Misure di Misure di posizione posizione Giovanni Filatrella Giovanni Filatrella ( ( [email protected] [email protected] ) ) Elaborazione Statistica dei Dati Elaborazione Statistica dei Dati Sperimentali Sperimentali Facoltà di Scienze MM FF e NN, Università Sannio

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Misure di posizione Giovanni Filatrella ( [email protected] ) Elaborazione

Embed Size (px)

Citation preview

Page 1: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Misure di posizione Giovanni Filatrella ( filatrella@unisannio.it ) Elaborazione

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali1

Misure di posizioneMisure di posizione

Giovanni Filatrella (Giovanni Filatrella ([email protected]@unisannio.it))

Elaborazione Statistica dei Dati Elaborazione Statistica dei Dati SperimentaliSperimentali Facoltà di Scienze MM FF e NN,

Università Sannio

Page 2: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Misure di posizione Giovanni Filatrella ( filatrella@unisannio.it ) Elaborazione

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali2

Sintesi dei dati

Un istogramma o una tabella di dati contengono molte informazioni

E’ utile talvolta riassumere i dati con degli indicatori (indici)

Page 3: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Misure di posizione Giovanni Filatrella ( filatrella@unisannio.it ) Elaborazione

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali3

1.0 1.2 1.4 1.6 1.8 2.0

Frequenza rel.

0.4

0.2

0.1

0.3

tasso difertilità

D: Esiste un singolo valore che possa dare qualche indicazione su come si distribuisce la variabile casuale?

“Indici” o “misure” di posizione

Page 4: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Misure di posizione Giovanni Filatrella ( filatrella@unisannio.it ) Elaborazione

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali4

A cosa serve questo valore?

• Per riassumere i dati occorre avere in mente una domanda

• A seconda del tipo di analisi che si vuole fare il tipo di “riassunto” dei dati è diverso.

NON vi è una risposta in assoluto “corretta”

Page 5: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Misure di posizione Giovanni Filatrella ( filatrella@unisannio.it ) Elaborazione

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali5

EsempiIl tipo di analisi più comune è la media aritmetica:

Proprietà di cui gode:conserva le trasformazioni di scala operate sui dati:

n

xx

n

ii

1

Page 6: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Misure di posizione Giovanni Filatrella ( filatrella@unisannio.it ) Elaborazione

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali6

Alternative:

Mediana: La mediana divide la distribuzione in due parti uguali. E’ definita come quel valore (centrale) che, una volta ordinati i dati del campione, lascia alla sua sinistra e alla sua destra la metà del campione, cioè divide a metà la distribuzione dei dati.

Per esempio: 2, 5, 6, 8, 13, 15, 19, 22, 38     hanno mediana 13 (il 5° di 9 valori)

3, 4, 8, 9, 13, 16, 17, 20, 21, 22   hanno mediana 14,5 (la media fra il 5° e il 6° di 10 valori)

Page 7: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Misure di posizione Giovanni Filatrella ( filatrella@unisannio.it ) Elaborazione

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali7

Formalmente:

Page 8: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Misure di posizione Giovanni Filatrella ( filatrella@unisannio.it ) Elaborazione

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali8

Procedura:

I valori ordinati sono:

6, 6.7, 3.8, 7, 5.8

3.8, 5.8, 6, 6.7, 7

mediana

Page 9: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Misure di posizione Giovanni Filatrella ( filatrella@unisannio.it ) Elaborazione

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali9

Esempio (2)

6, 6.7, 3.8, 7, 5.8, 9.975

3.8, 5.8, 6, 6.7, 7, 9.975

35.62

7.66

Mediana

I valori ordinati sono:

Page 10: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Misure di posizione Giovanni Filatrella ( filatrella@unisannio.it ) Elaborazione

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali10

Cosa fare se i dati sono già raggruppati in classi:

Page 11: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Misure di posizione Giovanni Filatrella ( filatrella@unisannio.it ) Elaborazione

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali11

Esempio

La classe che contiene la mediana è la numero 3, (58 ┤ 70),Quindi la mediana è:

Page 12: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Misure di posizione Giovanni Filatrella ( filatrella@unisannio.it ) Elaborazione

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali12

Importante

• La mediana non gode delle proprietà matematiche della media!

Page 13: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Misure di posizione Giovanni Filatrella ( filatrella@unisannio.it ) Elaborazione

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali13

III esempio di indice di posizione: la MODA

Si definisce Moda il valore della variabile casuale della classe che si presenta con maggiore

frequenza(rispetto alle classiadiacenti se esiste unordinamento, variabili discrete ocontinue):

0 2 4 6 8 10 120

5

10

15

20

25

30

35

x-Axis

Rel

ativ

e F

requ

ency

(in

%)

Relative Frequency Histogram

Page 14: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Misure di posizione Giovanni Filatrella ( filatrella@unisannio.it ) Elaborazione

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali14

La moda di una distribuzione di dati potrebbe non

corrispondere ad un solo valore:

0 2 4 6 8 10 120

5

10

15

20

25

30

35

40

x-Axis

Rel

ativ

e F

requ

ency

(in

%)

Relative Frequency Histogram

Page 15: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Misure di posizione Giovanni Filatrella ( filatrella@unisannio.it ) Elaborazione

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali15

Moda dai dati grezziPer i dati sperimentali non si può calcolare un indice a

prescindere dalla scelta di “individui” e “variabile casuale”:

 Tasso di fecondità totale per 1.000 donne in età 15-49 per regione di residenza - Anni 1982-1997 Table 10.1 continue - Total fertility rate per 1.000 women aged 15-49 by region of residence - Years 1982-1997 REGIONI E RIPARTIZIONI 1990 1991 1992 1993 1994 1995 1996 1997 (a)Piemonte 1101 1124 1080 1046 1026 1028 1047 1088Valle d'Aosta 1.183 1.160 1.116 1.013 1.082 1.102 1.196 1.314Lombardia 1.147 1.124 1.125 1.100 1.068 1.074 1.099 1.141Trentino-Alto Adige 1.402 1.410 1.420 1.345 1.339 1.335 1.385 1.436Veneto .159 1.115 1.138 1.092 1.064 1.073 1.101 1.150Friuli-Venezia Giulia 1.029 1.024 1.043 950 942 941 975 1.02Liguria 1.011 1.007 1.027 960 928 915 938 969Emilia-Romagna 1.013 1.007 993 968 956 967 1.006 1.035Toscana 1.082 1.052 1.048 1.019 982 979 995 1.03Umbria 1.176 1.162 1.176 1.108 1.074 1.061 1.068 1.097Marche 1.230 1.207 1.187 1.131 1.087 1.107 1.085 1.116Lazio 1.280 1.233 1.259 1.208 1.168 1.109 1.121 1.167Abruzzo 1.394 1.353 1.349 1.296 1.245 1.175 1.191 1.185Molise 1.425 1.406 1.421 1.326 1.280 1.209 1.166 1.211Campania 1.809 1.810 1.794 1.663 1.601 1.499 1.570 1.573Puglia 1.654 1.601 1.584 1.486 1.437 1.369 1.367 1.386Basilicata 1.660 1.557 1.570 1.435 1.363 1.327 1.269 1.284Calabria 1.744 1.668 1.653 1.564 1.432 1.396 1.351 1.329Sicilia 1.853 1.775 1.792 1.670 1.548 1.455 1.468 1.487Sardegna 1.370 1.291 1.223 1.164 1.089 1.055 1.030 1.108Nord 1.117 1.104 1.101 1.064 1.040 1.043 1.075 1.115Centro 1.206 1.169 1.179 1.134 1.094 1.068 1.076 1.116Sud 1.712 1.664 1.654 1.547 1.466 1.391 1.403 1.419ITALIA 1.358 1.328 1.326 1.262 1.215 1.187 1.205 1.217  (a) Dati provvisori.(a) Provisional data.Fonte: ISTAT - Servizio "Popolazione e cultura".Source: ISTAT - Unit "Popolazione e cultura".

Page 16: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Misure di posizione Giovanni Filatrella ( filatrella@unisannio.it ) Elaborazione

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali16

D: A quali dati si possono applicare i vari indici?

• Media: solo alle variabili casuali intere o reali

• Mediana: solo alle variabili casuali intere o reali

• Moda: a qualsiasi distribuzione di dati (anche a quelli nominali)

Page 17: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Misure di posizione Giovanni Filatrella ( filatrella@unisannio.it ) Elaborazione

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali17

Esempi di applicazione delle misure di posizione

I guasti in un sistema produttivo risultano causati da:

1. Errore umano 122. Problemi dell’impianto 223. Malfunzionamenti software 74. Difetti dei materiali 55. Cause sconosciute 6

D.: Cosa scegliereste e perché?

Page 18: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Misure di posizione Giovanni Filatrella ( filatrella@unisannio.it ) Elaborazione

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali18

II esempio di applicazione delle misure di posizione

I guasti in un sistema produttivo hanno provocato delle interruzioni di:

1. 0-1h 262. 1-3h 103. 3h-1d 24. 1-7d 1

D.: Cosa scegliereste e perché? e come procedereste con i calcoli?

Page 19: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Misure di posizione Giovanni Filatrella ( filatrella@unisannio.it ) Elaborazione

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali19

III esempio di applicazione delle misure di posizione

I tempi di attesa di un prodotto da parte dei clienti risultano essere stati:

1. 0-2d 22. 2-4d 113. 4-6d 54. 28d 1

D.: Cosa scegliereste e perché? e come procedereste con i calcoli?

Page 20: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Misure di posizione Giovanni Filatrella ( filatrella@unisannio.it ) Elaborazione

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali20

Attenzione:

Sono riportate spesso delle relazioni empiriche fra moda, mediana e media. Non prendetele troppo sul serio!

Page 21: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Misure di posizione Giovanni Filatrella ( filatrella@unisannio.it ) Elaborazione

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali21

Altra caratterizzazione delle distribuzioni: i percentili

Percentile: il p-mo percentile è il minimo dato di una lista tale che almeno p% dei valori della lista siano minori o uguali ad esso.

Pertanto per ottenere i percentili da un insieme di dati è necessario ordinarli in una lista.

Page 22: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Misure di posizione Giovanni Filatrella ( filatrella@unisannio.it ) Elaborazione

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali22

Nomenclatura:

• 25mo percentile I Quartile, o Lower Quartile

• 50mo percentile Mediana• 75mo percentile III Quartile, o Upper

Quartile

Page 23: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Misure di posizione Giovanni Filatrella ( filatrella@unisannio.it ) Elaborazione

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali23

Esercizio:

Classi di altezza

Numero atleti

171-175 14

176-180 18

181-185 28

186-190 33

191-195 17

196-200 15

Totale 125

Determinare:

1. Media aritmetica

2. Mediana

3. Moda

4. 10°, 50°, 90° percentile

5. 1°, 2°, 3° Quartile