22
Laboratorio di Probabilità e Statistica Massimo Guerriero – Ettore Benedetti lezione 2

Laboratorio di Probabilità e Statistica - di.univr.it · Informazioni utili per il laboratorio • Ogni studente ha a disposizione 120MB di spazio disco in rete. Superata la quota

  • Upload
    ledung

  • View
    217

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Laboratorio di Probabilità e Statistica - di.univr.it · Informazioni utili per il laboratorio • Ogni studente ha a disposizione 120MB di spazio disco in rete. Superata la quota

Laboratorio di Probabilità e Statistica

Massimo Guerriero – Ettore Benedetti

lezione 2

Page 2: Laboratorio di Probabilità e Statistica - di.univr.it · Informazioni utili per il laboratorio • Ogni studente ha a disposizione 120MB di spazio disco in rete. Superata la quota

Informazioni utili per il laboratorio

• Ogni studente ha a disposizione 120MB di spazio disco in rete.

Superata la quota disco si verificano svariati problemi:• Impossibilità di accedere

• Bug grafici della scrivania

• Crash o funzionamento scorretto di programmi (tra cui R)

• Cosa fare quando il problema si presenta?

• Digitare la combinazione "CTRL + ALT + F1" ed effettuare il Log-In.

• Inserire il comando "du –h" per verificare lo spazio occupato

• Se risulta essere >= 100/120Mb digitare i comandi:

• rm –r .cache per rimuovere la cache (file temporanei di scarsa importanza)

• rm –r .mozilla per rimuovere file di configurazione di firefox e file temporanei

che si sono creati navigando sul web.

Altrimenti rivolgersi all’ufficio tecnico.

• E’ possibile prevenire questi errori

• Salvando tutto su supporto media esterno (USB)

• Impostando un limite per la cache di Firefox (Opzioni Avanzate Rete Limita la cache)

Page 3: Laboratorio di Probabilità e Statistica - di.univr.it · Informazioni utili per il laboratorio • Ogni studente ha a disposizione 120MB di spazio disco in rete. Superata la quota

Indice Lezione

• Prerequisiti dalla lezione scorsa

• Spiegazione dettagliata sul dataset che utilizzeremo per queste lezioni.

• Rappresentazioni grafiche

• Funzione di ripartizione

• Poligono di frequenza

• Come scegliere il grafico più adatto

• Indici di Posizione

• Moda

• Mediana, quartili e quantili

• Boxplot

• Media Aritmetica

• Come utilizzare questi strumenti

• Indici di Dispersione

• Varianza

• Scarto quadratico medio e coefficiente di variazione

Page 4: Laboratorio di Probabilità e Statistica - di.univr.it · Informazioni utili per il laboratorio • Ogni studente ha a disposizione 120MB di spazio disco in rete. Superata la quota

Prerequisiti dalla lezione scorsa

• Linguaggio R ed Ambiente di sviluppo (IDE) funzionanti

• Dataset dello scorso anno caricato correttamente in una

variabile nel proprio workspace.

• In queste lezioni chiameremo tale variabile "dataset"

• Confidenza con i comandi base di R e con il suo ambiente di sviluppo

• Realizzazione di script (comandi salvati in un file di testo, editato con l’IDE)

• Trattamento dati (compreso variabile "dataset").

• Salvataggio Output

• Visualizzazione di semplici grafici di frequenza (istogrammi - bastoncini – pie)

Page 5: Laboratorio di Probabilità e Statistica - di.univr.it · Informazioni utili per il laboratorio • Ogni studente ha a disposizione 120MB di spazio disco in rete. Superata la quota

Dataset utilizzato – in dettaglio

Descrizione dello studio

http://benedettiettore.altervista.org/Statistica/

Variabili nel dettaglio

http://benedettiettore.altervista.org/Statistica/html/TabellaDati.html

Page 6: Laboratorio di Probabilità e Statistica - di.univr.it · Informazioni utili per il laboratorio • Ogni studente ha a disposizione 120MB di spazio disco in rete. Superata la quota

Funzione di ripartizione 1/2

Per i fenomeni quantitativi può risultare utile disegnare la funzione di

ripartizione, definita a partire dalle frequenze cumulate.

In R si ottiene con il comando ecdf(variabile)

Nel caso discreto con 4 persone si copre

abbiamo un l’80% della popolazione

diagramma a scala

plot(ecdf(dataset$nucleo), verticals=TRUE, main="Nucleo Famigliare")

Page 7: Laboratorio di Probabilità e Statistica - di.univr.it · Informazioni utili per il laboratorio • Ogni studente ha a disposizione 120MB di spazio disco in rete. Superata la quota

Funzione di ripartizione 2/2

Nel caso continuo…

X = rnorm(100) # X è una variabile che contiene 100 numeri casuali normalmente distribuiti

plot(ecdf(X), verticals=TRUE, main="Ecdf Continua")

Page 8: Laboratorio di Probabilità e Statistica - di.univr.it · Informazioni utili per il laboratorio • Ogni studente ha a disposizione 120MB di spazio disco in rete. Superata la quota

Poligono di Frequenza

• Si usa per fenomeni raccolti in classi.

• Confrontare linee risulta a volte più semplice di confrontare istogrammi.

In R non esiste già implementata, creiamola noi!

hist.poligono <- function(x){

ist <- hist(x)

lines(c(min(ist$breaks), ist$mids,

max(ist$breaks)), c(0,ist$counts,0))

}

Chiamiamola ora con il comando:

hist.poligono(dataset$nucleo)

Page 9: Laboratorio di Probabilità e Statistica - di.univr.it · Informazioni utili per il laboratorio • Ogni studente ha a disposizione 120MB di spazio disco in rete. Superata la quota

Come scegliere il grafico più adatto

Fenomeno Qualitativo

Scala NominaleTorta – Rettangoli –

Bastoncini

Scala OrdinaleTorta – Rettangoli –

Bastoncini

Fenomeno Quantitativo

DiscretoBastoncini –Torta –

Ripartizione – Boxplot (se dati molto dispersi)

ContinuoIstogrammi (a causa delle

classi) – Boxplot

Page 10: Laboratorio di Probabilità e Statistica - di.univr.it · Informazioni utili per il laboratorio • Ogni studente ha a disposizione 120MB di spazio disco in rete. Superata la quota

Consegna

1) Prendere confidenza con il Dataset

2) Plottare la funzione di ripartizione su:

• anni

• hlav

• hlib_lv

3) Plottare altri 2-3 grafici per tipi di dati diversi

Page 11: Laboratorio di Probabilità e Statistica - di.univr.it · Informazioni utili per il laboratorio • Ogni studente ha a disposizione 120MB di spazio disco in rete. Superata la quota

Indice Lezione

• Prerequisiti dalla lezione scorsa

• Spiegazione dettagliata sul dataset che utilizzeremo per queste lezioni.

• Rappresentazioni grafiche

• Funzione di ripartizione

• Poligono di frequenza

• Come scegliere il grafico più adatto

• Indici di Posizione

• Moda

• Mediana, quartili e quantili

• Boxplot

• Media Aritmetica

• Come utilizzare questi strumenti

• Indici di Dispersione

• Varianza

• Scarto quadratico medio e coefficiente di variazione

Page 12: Laboratorio di Probabilità e Statistica - di.univr.it · Informazioni utili per il laboratorio • Ogni studente ha a disposizione 120MB di spazio disco in rete. Superata la quota

Moda

E’ definito come quel valoredi un fenomeno statisticoche presenta frequenzapiù elevata.

Se il fenomeno è raggruppato in classi, è definito come il punto medio dell’intervallocon densità di frequenzapiù elevata.

Se ci sono più valori con densità di frequenza "più elevata", la distribuzione è detta plurimodale.

Moda = 1

= Per Nulla

Moda = punto centrale

20 -| 40

= 30

Page 13: Laboratorio di Probabilità e Statistica - di.univr.it · Informazioni utili per il laboratorio • Ogni studente ha a disposizione 120MB di spazio disco in rete. Superata la quota

Mediana, quartili e quantili 1/2

La mediana è definita come quel valore che, una volta ordinati i dati del

campione, lascia alla sua destra e alla sua sinistra la metà del campione.

In R si utilizza il comando median(vettore sequenza)

Es.

median(c(4,3,4,1,7)) [1] 4

median(c(4,3,1,7)) [1] 3.5

E’ legata al concetto di "funzione di ripartizione":

Cumulando i valori del campione fino alla mediana,

si arriva infatti a considerare il primo 50% di tutte le osservazioni.

50%

50%

0.5

F(4) = 0.5

Page 14: Laboratorio di Probabilità e Statistica - di.univr.it · Informazioni utili per il laboratorio • Ogni studente ha a disposizione 120MB di spazio disco in rete. Superata la quota

Mediana, quartili e quantili 2/2

Quartili e quantili sono anch’essi legati analogamente al concetto

di "funzione di ripartizione“:

• Cumulando i valori del campione fino al primo quartile

si arriva a considerare il 25% di tutte le osservarzioni. (F(Q1)=0.25)

• Cumulando fino al secondo quartile si ha la mediana. (F(Q2)=0.5)

• Cumulando fino al terzo quartile si considerano il 75% delle osservazioni. (F(Q3)=0.75)

In generale un quantile di una distribuzione di dati è quel valore xp tale per

cui F(xp) = p con p ∈ (0 , 1).

Page 15: Laboratorio di Probabilità e Statistica - di.univr.it · Informazioni utili per il laboratorio • Ogni studente ha a disposizione 120MB di spazio disco in rete. Superata la quota

Boxplot

I quartili e la mediana sono molto informativi dal punto di vista grafico.

Riguardiamo il boxplot della scorsa lezione:

Gli estremi della scatola sonoQ1 e Q3, la linea più marcata rappresenta la mediana Q2.

I «baffi» vengono posti ad unadistanza da Q1 e da Q3 pari a 1.5 * (Q3-Q1). Se questa distanza supera gli estremi, il baffo viene accorciato.

Es. Baffo inferiore dell’immagine a lato

25%

50%

75%

100%

Q1

Q2

Q3

Page 16: Laboratorio di Probabilità e Statistica - di.univr.it · Informazioni utili per il laboratorio • Ogni studente ha a disposizione 120MB di spazio disco in rete. Superata la quota

Media Aritmetica

La media aritmetica si calcola in R con il comando mean(vettore)

E’ estremamente sensibile a valori atipici:

Es. Media vs Mediana

X<-c(10,20,30)mean(X) [1] 20median(X) [1] 20

X<-c(10,20,300)mean(X) [1] 110median(X) [1] 20

X<-c(0,20,30)mean(X) [1] 16.66median(X) [1] 20

Page 17: Laboratorio di Probabilità e Statistica - di.univr.it · Informazioni utili per il laboratorio • Ogni studente ha a disposizione 120MB di spazio disco in rete. Superata la quota

Come utilizzare questi strumenti

Indice Carattere qualitativo nominale

Carattere qualitativo

ordinale

Carattere quantitativo

Moda SI SI SI

Mediana NO SI SI

Quartili NO SI SI

Boxplot NO NO SI

Media NO NO SI

Range NO NO SI

Page 18: Laboratorio di Probabilità e Statistica - di.univr.it · Informazioni utili per il laboratorio • Ogni studente ha a disposizione 120MB di spazio disco in rete. Superata la quota

Consegna

1) Studiare il Boxplot di 4 variabili a scelta

2) Verificare il comando summary(variabile)

3) Sviluppare una funziona che calcola la moda di una certa variabile

Suggerimento: Vedi la funzione wich.max(variabile)

Page 19: Laboratorio di Probabilità e Statistica - di.univr.it · Informazioni utili per il laboratorio • Ogni studente ha a disposizione 120MB di spazio disco in rete. Superata la quota

Indice Lezione

• Prerequisiti dalla lezione scorsa

• Spiegazione dettagliata sul dataset che utilizzeremo per queste lezioni.

• Rappresentazioni grafiche

• Funzione di ripartizione

• Poligono di frequenza

• Come scegliere il grafico più adatto

• Indici di Posizione

• Moda

• Mediana, quartili e quantili

• Boxplot

• Media Aritmetica

• Come utilizzare questi strumenti

• Indici di Dispersione

• Varianza

• Scarto quadratico medio e coefficiente di variazione

Page 20: Laboratorio di Probabilità e Statistica - di.univr.it · Informazioni utili per il laboratorio • Ogni studente ha a disposizione 120MB di spazio disco in rete. Superata la quota

Varianza

L’idea è di utilizzare un indice che tenga conto di come i valori si distribuiscano intorno alla propria media, per misurare in modo oggettivo quello che ci appare graficamente.

Varianza 𝜎2 =1

𝑛 𝑖=1𝑛 (𝑥𝑖 − 𝑥𝑛)

2

Varianza campionaria 𝑆𝑛2=

1

𝑛−1 𝑖=1𝑛 (𝑥𝑖 − 𝑥𝑛)

2

R prende in considerazione solo la varianza campionaria con il comando var(vettore) .

Si ottiene facilmente da questa 𝜎2 moltiplicando per 𝑛−1

𝑛.

Page 21: Laboratorio di Probabilità e Statistica - di.univr.it · Informazioni utili per il laboratorio • Ogni studente ha a disposizione 120MB di spazio disco in rete. Superata la quota

Scarto quadratico medio e coefficiente di variazione

Se dovessimo calcolare la varianza del peso di una popolazione avremmo tale indice espresso come Kg2. Per rendere più leggibile la variabilità di un fenomeno si ricorre allo scarto quadratico medio.

Definito come: 𝜎 = 𝜎2

Regola del 3-Sigma (empirica) l’89% dei dati di un campione si trovanell’intervallo [ 𝑥𝑛 − 3𝜎 ; 𝑥𝑛 + 3𝜎]. I dati al di fuori di questo intervallopossiamo chiamarli outlier.

Il coefficiente di variazione CV, essendo adimensionale, viene utilizzato per confrontare la variabilità di fenomeni diversi.

E’ definito come: CV= 𝜎

𝑥𝑛∙ 100 Se CV > 49% siamo portati

a pensare che la variabilità è alta

Page 22: Laboratorio di Probabilità e Statistica - di.univr.it · Informazioni utili per il laboratorio • Ogni studente ha a disposizione 120MB di spazio disco in rete. Superata la quota

Consegna

1) Creare una funzione che calcola la varianza

2) Creare una funzione che calcola il coefficiente di variazione

3) Verificare la regola del 3-Sigma sulla variabile "dataset$valogg"

4) Valutare il CV su:

• valogg

• hlav

• genere

• spesa_mese