35
G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni Le distribuzioni di probabilità di probabilità discrete discrete Giovanni Filatrella Giovanni Filatrella ( ( [email protected] [email protected] ) ) Elaborazione Statistica dei Dati Elaborazione Statistica dei Dati Sperimentali Sperimentali Facoltà di Scienze MM FF e NN, Università Sannio

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( [email protected]

Embed Size (px)

Citation preview

Page 1: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali1

Le distribuzioni di Le distribuzioni di probabilità discreteprobabilità discrete

Giovanni Filatrella (Giovanni Filatrella ([email protected]@unisannio.it))

Elaborazione Statistica dei Dati Elaborazione Statistica dei Dati SperimentaliSperimentali Facoltà di Scienze MM FF e NN,

Università Sannio

Page 2: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali2

Cos’è una distribuzione di probabilità discreta

Abbiamo definito una variabile casuale X una variabile che può assumere diversi valori:{x1, x2, …, xN}Ognuno di questi con probabilità:{p1, p2, …, pN}

La funzione che associa una probabilità pi al valore i-esimo della variabile casuale xi è la distribuzione di probabilità.

Page 3: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali3

Attenzione a non confondere i seguenti 4 concetti:

1. X è il simbolo che denota la variabile casuale che può assumere i valori {xi}

2. L’indice i serve solo a numerare i possibili risultati

3. Le xi sono i valori numerici che si ottengono per l’i-esimo risultato

4. Le pi sono il rapporto fra i casi favorevoli all’i-esimo risultato e tutti i risultati possibili

Page 4: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali4

Attenzione a non confondere i seguenti 4 concetti:

1. X è il simbolo che denota la variabile casuale che può assumere i valori {xi}

2. L’indice i serve solo a numerare i possibili risultati

3. Le xi sono i valori numerici che si ottengono per l’i-esimo risultato

4. Le pi sono il rapporto fra i casi favorevoli all’i-esimo risultato e tutti i risultati possibili

Page 5: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali5

1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4

Pro

babili

0.15

xi

La funzione distribuzioneè la legge che regolale probabilità (le altezze dei rettangoli).

Rappresentazione grafica:

Variabile casuale0.10

0.05

0.20

0.25

Page 6: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali6

Un’importante distinzione

• Il concetto di distribuzione discreta vuol dire che solo un numero intero di differenti valori è possibile, e si riferisce all’indice i;

• Il valore della variabile xi non è necessariamente un intero.

Page 7: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali7

Esempio: la distribuzione di probabilità uniforme:

Se supponiamo che tutti valori della variabile casuale siano equiprobabili:

Nippi ,...,1

Allora la distribuzione è detta uniforme.

D.: Quanto vale p?

Page 8: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali8

Valore aspettato e varianza

Per le variabili discrete è possibile definire un valore aspettato E[x] ed una varianza Var[x] che sono analoghe alle misure di posizione e dispersione valore medio e scarto quadratico medio:

max

1

][i

iii pxxE

max

1

22 )(][i

iii pxxVar

Page 9: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali9

Valore aspettato e varianzanon coincidono con media e

scarto quadratico medio

max

1

][i

iii pxxE

max

1

22 )(][i

iii pxxVar

max

1

i

iii fxx

max

1

22 )(i

iii fxxS

Per un numero di tentativi molto elevato è ragionevole che si identifichino le fi e le pi.

Page 10: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali10

Esercizio:

• *Quanto vale il valore aspettato per la distribuzione uniforme?

• ***Quanto vale la varianza per la distribuzione uniforme?

Si provi prima con un intervallo specifico (ex, 4) e poi con un N generico.

Page 11: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali11

Definizione formale di processo binomiale o

bernoulliano1) Ciascuna prova ha solo due esiti, che

chiameremo successo e insuccesso2) La probabilità p di un successo in

ciascuna prova resta costante per tutte le prove e non è influenzata dagli esiti precedenti (le prove sono indipendenti). La probabilità di un insuccesso è q = 1 - p.

Page 12: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali12

Diagramma ad albero per la distribuzione binomiale

Si può derivare la distribuzione binomiale immaginando che il processo avvenga in sequenza, e che ad ogni “scelta” sia associata una probabilità elementare

Page 13: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali13

Calcolo esplicito delle probabilità per l’albero

binomialeLa probabilità degli

eventi può essere trovata osservando che ognuno dei risultati è la combinazione di eventi indipendenti non necessariamente equiprobabili, ovvero pq S: un cliente sceglie “soup”, F: sceglie “fish”.

Prob. diavere:

3S

2S2S

1S2S1S

1S

0S

Page 14: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali14

Probabilità non identiche fra le più scelte

Notare: i diagrammi ad

albero possono essere utilizzati per il calcolo di probabilità di sequenze generiche, ma non sono distribuzioni binomiali!

Page 15: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali15

Distribuzione binomiale in formule

Dato un esperimento che si può verificare solo in due modi (“successo” ed “insuccesso”) mutuamente esclusivi e complementari, quindi con probabilità p e 1-p. Qual è la probabilità di avere n successi su N misure?

)!(!

!

)1()(,

nNn

N

N

n

ppN

nnB nNn

Np

Page 16: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali16

Definizione di fattoriale

Il fattoriale di un numero intero n si indica con n! ed è definito come:

1!0

1!1

,...,321!

nn

Page 17: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali17

Esempi di distribuzione binomiale

1. Quante teste si ottengono lanciando 10 monete?2. Se il 23% della popolazione della provincia di

Benevento risiede nel capoluogo, su 4 persone quante risiederanno nel capoluogo?

3. Se una fabbrica produce l’1% di pezzi difettosi, in un lotto di 20 quanti sono difettosi?

D1.: Sono distribuzioni binomiali? Perché?D2.: Trovare per ognuno degli esempi i parametri

della distribuzione binomiale.

Page 18: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali18

Proprietà della distribuzione binomiale: il valore aspettato

N

n

nNni

i

ii Nppp

N

nnpxxE

01

)1(][max

Coincide, come intuibile, con il prodotto del numero di tentativi per

la probabilità di successo.

Page 19: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali19

Proprietà della distribuzione binomiale: la varianza

N

n

nNn

i

iii

pNpppN

nNpn

pxxVar

0

2

1

22

)1()1()(

)(][max

E’ proporzionale al numero di tentativi, moltiplicata per la

probabilità di successo e per la probabilità di insuccesso.

Page 20: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali20

Esempi di distribuzioni binomiali

Ciò che conta e’ il prodotto Np

Infatti:0.5X160 = 80

0.3X270 = 80

p=0.5

p=0.3

Page 21: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali21

Un esempio numerico

Se si lanciano dieci monete supposte perfettamente simmetriche (o non truccate), cosa si può dire dei possibili esiti?

1) La probabilità di successo p=1/2

2) Il numero di tentativi è N=10

3) Il valore aspettato è Np=5

4) La varianza è Np(1-p)=2.5

5) La deviazione standard è √(Np(1-p))=1.58

Page 22: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali22

Risultati del calcolo della formula binomiale per N=10,

p=0.5Successi B0.5,10(n) n0 0.00101 0.00982 0.04393 0.11724 0.20515 0.24616 0.20517 0.11728 0.04399 0.009810 0.0010 

Il valore aspettato (5) è il più probabile

Attorno al valore aspettatoin un intervallo di semiampiezzala deviazione standard (1.5) si trovano circa il 70% dei casi.

Page 23: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali23

Un’applicazione

Le finali di alcuni tornei di calcio si decidono calciando 6 rigori.

D.: il pareggio dopo sei rigori succederà più spesso se:

a) La probabilità di segnare per entrambe le squadre è alta (ex, p=0.8)

b) La probabilità di segnare per entrambe le squadre è media (ex, p=0.5)

c) La probabilità di segnare per entrambe le squadre è bassa (ex, p=0.2)

Page 24: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali24

Distribuzione di PoissonSupponiamo di avere una variabile binomiale dove 1. Il numero molto elevato di tentativi (N)2. La probabilità è molto bassa (p0), ma in modo

tale che il valore aspettato sia finito: Np=.Qual è la distribuzione di probabilità?In principio si potrebbe sempre calcolare la

Binomiale, ma i fattoriali rendono il calcolo estremamente laborioso.

La distribuzione di Poisson è il limite della Binomiale nelle ipotesi 1) e 2).

Page 25: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali25

Esempi di distribuzione di Poisson

1. Quanti studenti iscritti in questa Facoltà hanno un altezza superiore al 95mo percentile?

2. Una malattia rara colpisce l’1% della popolazione. Quante persone sono colpite in una città come Benevento?

3. Quanti dei residenti in Benevento sono nati il 29 febbraio?

Page 26: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali26

Distribuzione di Poisson: formulazione matematica

La distribuzione di Poisson ha un solo parametro: . Ovviamente se il valore aspettato è: Np=.

D.: Trovare le distribuzioni di probabilità per gli esempi precedenti.

en

nPn

!)(

Page 27: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali27

Distribuzione di Poisson: formulazione matematica

La distribuzione di Poisson ha un solo parametro: Ovviamente se il valore aspettato è: Np=:

en

nPn

!)(

01 !

][max

n

n

i

i

ii e

nnpxxE

0

2

1

22

!)()(][

max

n

ni

iii e

nnpxxVar

La varianza anche vale :

Page 28: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali28

Confronto con la distribuzione di Bernoulli

Bernoulli• = Np si ricava da

due parametri indipendenti

• = Np(1-p) si potrebbe anche scrivere come:

= (1-p) • Per p molto piccola

Poisson• é l’unico

parametro che caratterizza la distribuzione

• si trova che la varianza dipende dal parametro e

=

Page 29: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali29

Osservazioni (1)

Un processo per essere poissoniano dovrebbe ammettere un numero infinito di tentativi e quindi ammettere un numero infinito di successi.

In pratica si applica a casi in cui questo è solo approssimativamente vero.

D: negli esempi di distribuzione di Poisson precedente c’è un limite al numero di successi? Quale?

Page 30: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali30

Osservazioni (2)

Anche se tutti i processi reali sono solo approssimativamente poissoniani è assai comodo utilizzare questa distribuzione perché è più semplice da valutare. Di fatto per N molto grande i fattoriale della distribuzione di Bernoulli sono enormi.

D: qual è l’intero più grande di cui potete calcolare il fattoriale con la calcolatrice da tasca?

Page 31: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali31

Estensione della distribuzione di Poisson

Supponete che per un evento non si conosca davvero il numero di tentativi:

Es.: Supponiamo che una persona guardi mezz’ora di una qualsiasi partita di un turno di serie A. Se sono state segnate 22 reti nelle 9 partite, qual è la probabilità che questa persona assista a 2 reti?

Page 32: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali32

Perché si può usare la distribuzione di Poisson

• Si può immaginare che nell’intervallo di tempo considerato vi siano N tentativi di fare goal.

• La probabilità p di fare goal per ogni tentativo è sconosciuta, ma è bassa perché in tutto si sono segnate solo 22 reti in 9 partite.

• Se supponiamo che i tentativi siano molti (al limite, infiniti) in principio possiamo usare la distribuzione di Poisson, e per farlo basterebbe conoscere il suo valore medio Np.

D.: Come si può stimare Np?

Page 33: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali33

Soluzione• In tutte le 9 partite vi sono 27 periodi di

mezz’ora.• Se sono stati segnati 22 goal in tutto, in

media in ogni periodo sono stati segnati:

%1515.0

!2

815.0)2(815.0

27

22 815.02

815.0 eP

D.: ** Come verifichereste che il metodo funziona? Provare a casa con i risultati di un qualsiasi turno di serie A.

Page 34: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali34

Descrizione formale dei processi di Poisson

Un processo di Poisson si può quindi definire come un processo caratterizzato da n eventi che in un intervallo di tempo t :

1. Si possono verificare nell’intervallo di tempo indipendentemente da quanto è avvenuto negli intervalli precedenti;

2. La probabilità che si verifichi un evento è proporzionale alla durata dell’intervallo t, con costante di proporzionalità ;

Allora si avrà un processo di Poisson con valore aspettato t:

tn

en

ttnP

!

)(),(

Page 35: G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali 1 Le distribuzioni di probabilità discrete Giovanni Filatrella ( filatrella@unisannio.it

G. Filatrella: Corso di Elaborazione Statistica dei Dati Sperimentali35

Esercizi

1. * Nell’esempio precedente dei goal segnati in mezz’ora, identificare le varie quantità n, t,

2. ** Supponiamo che in un lago artificiale senza altro cibo vengono immesse trote, una ogni 10 minuti. Se ci sono 10 pescatori:

a) Quante trote prenderanno ogni ora?b) Trovare i parametri del processo di Poisson.