42
Distribuzioni discrete di Probabilità Ma la biologia di laboratorio che cosa ha a che fare con le distribuzioni discrete di probabilità? Consideriamo questo gedankenexperiment*: in una fiasca per coltura cellulare abbiamo una popolazione eterogenea di cellule solo le cellule di un certo tipo (es. le cellule T) possono proliferare se stimolate tutte le altre cellule non proliferano affatto non ci sono modi per misurare direttamente le cellule T Il problema è: come posso stimare quante cellule del tipo T ci sono nella popolazione cellulare? es. reale: stimare quanti linfociti T attivi ci sono nella milza di un topo dopo una immunizzazione...

Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzioni discrete di Probabilità

Ma la biologia di laboratorio che cosa ha a che fare con le distribuzioni discrete di probabilità?

Consideriamo questo gedankenexperiment*:

● in una fiasca per coltura cellulare abbiamo una popolazione eterogenea di cellule

● solo le cellule di un certo tipo (es. le cellule T) possono proliferare se stimolate

● tutte le altre cellule non proliferano affatto

● non ci sono modi per misurare direttamente le cellule T

Il problema è: come posso stimare quante cellule del tipo T ci sono nella popolazione cellulare?

es. reale: stimare quanti linfociti T attivi ci sono nella milza di un topo dopo una immunizzazione...

Page 2: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

gedankenexperiment

Page 3: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzioni discrete di Probabilità

cellule T

altre celluleseminare le cellule

aggiungere lo stimolo

Proliferazione: - - - -+

seminare le cellule

aggiungere lo stimolo

Proliferazione: - - - --

diluire il campione

Page 4: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzioni discrete di Probabilità

Qual è la probabilità di ottenere pozzetti in cui le cellule proliferano?

Se distribuiamo a caso e indipendentemente c cellule in w pozzetti (da eng. wells) qual è la probabilità che un dato pozzetto contenga esattamente un certo numero di cellule?

NB assunzioni: siamo in grado di distribuire le cellule nei pozzetti in modo casuale e in modo tale che nessuna cellula influenzi il destino dell'altra (ad es. NON ci devono essere aggregati cellulari)

variabili:

(da: I.Lefkovits and H.Waldmann, Limiting dilution analysis of cells in the immune system, Cambridge University Press, 1979)

Page 5: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzioni discrete di Probabilità

prendiamo a caso un pozzetto tra i w disponibili. Qual è la probabilità che una data cellula finisca esattamente in quel pozzetto?

poiché O una cellula finisce nel pozzetto O lo manca (tertium non datur), allora:

dunque la probabilità che la cellula manchi il dato pozzetto è:

ma questo vale anche per la seconda, la terza, la quarta,..., la c-esima cellula. Poiché ogni cellula si comporta in modo indipendente da tutte le altre:

Page 6: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzioni discrete di Probabilità

Dunque, la probabilità P0 che tutte le cellule manchino un pozzetto è:

Qual è la probabilità che una data cellula entri nel pozzetto e che tutte le altre lo manchino?

Ma questo vale anche per la seconda cellula, la terza, la...., c-esima cellula. Dunque:

Page 7: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzioni discrete di Probabilità

Qual è ora la probabilità che due cellule entrino nel pozzetto e che tutte le altre lo manchino?

Ma questo deve valere per tutte le possibili coppie di cellule:

e dunque:

1 2 3 ... c

1 - + + ... +

2 - - + ... +

3 - - - ... +

... - - - ... +

c - - - - -

Page 8: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzioni discrete di Probabilità

Allo stesso modo calcoliamo la probabilità che tre cellule entrino in una dato pozzetto, che tutte le altre lo manchino, ed estendiamo questo conto a tutte le possibili terne di cellule (senza ripetizioni):

e infine calcoliamo la probabilità per un numero qualsiasi r di cellule:

Ancora un passo (trucchetto): moltiplico e divido per la quantità

Page 9: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzioni discrete di Probabilità

Distribuzione BINOMIALE

probabilità di ottenere k successi in n prove indipendenti (del tipo vero o falso) e in cui la probabilità per ogni singolo successo è p

Page 10: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzioni discrete di Probabilità

Distribuzione BINOMIALE in biologia?

es. suddivisione degli organelli cellulari alla mitosi!

Page 11: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzioni discrete di Probabilità

es.

Page 12: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzioni discrete di Probabilità

Distribuzione BINOMIALE

● distribuzione discreta di probabilità

● parametri p ed n

● media = np

● varianza = np(1-p)

probabilità di ottenere k successi in n prove indipendenti (del tipo vero o falso) e in cui la probabilità per ogni singolo successo è p

Page 13: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzioni discrete di Probabilità

...il problema pratico con la distribuzione binomiale sta nel calcolo dei fattoriali

Page 14: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzioni discrete di Probabilità

riprendiamo questa equazione:

e consideriamo valori di c e w molto grandi

ora, se

e dunque:

ma se: dove u = n. cell/pozzetto è un numero finito.

Dunque:

Page 15: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzioni discrete di Probabilità

distribuzione di Poisson

Page 16: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzioni discrete di Probabilità

distribuzione di Poisson

es.: semino le cellule alla densità di 5 cellule/pozzetto.

6.7 pozzetti su 1000 conterranno r=0 cellule

3.4 pozzetti su 100 conterranno r=1 cellule

8.4 pozzetti su 100 conterranno r=2 cellule

Page 17: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzioni discrete di Probabilità

distribuzione di Poisson

caso particolare: semino le cellule alla densità di 1 cellula/pozzetto.

il 37% dei pozzetti NON conterrà cellule

notiamo che:

dunque:

1)semino le cellule a diversa densità u in tanti pozzetti2)conto quanti pozzetti non presentano cellule3)grafico in modo opportuno il risultato4)a livello del 37% SO che 1 su u cellule seminate prolifera!

Dunque ho risolto il problema iniziale!

Page 18: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzioni discrete di Probabilità

(a real experiment from: I.Lefkovits and H.Waldmann, Limiting dilution analysis of cells in the immune system, Cambridge University Press, 1979)

...a P0=0.37 ci attendiamo che 1

sola cellula proliferi in un dato pozzetto. Ma per arrivare a questo risultato ho dovuto seminare ~38.000 cellule (della popolazione eterogenea di partenza. Dunque 1/38.000 cellule è la frequenza di cellule proliferanti (le cellule T) nella popolazione d'origine.

Page 19: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzioni discrete di Probabilità

Page 20: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzioni discrete di Probabilità

~1/6~1/153

(0.65/15.9=0.04)

Page 21: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzioni discrete di Probabilità

distribuzione di Poisson

es. a che densità cellulare conviene seminare le cellule per sperare di averne solo 1 in un pozzetto ed ottenere così un clone cellulare?

u=0.1 u=0.3 u=1

P0

0.90 0.74 0.37

P1

0.09 0.22 0.37

P2

0.0045 0.033 0.18

P3

0.00015 0.0033 0.06

Page 22: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzioni discrete di Probabilità

distribuzione di Poisson

● limite della distribuzione binomiale

● estremamente comune. Ad esempio permette di calcolare la probabilità che si verifichino n eventi (indipendenti) in un dato intervallo di spazio o di tempo, sapendo che in media se ne verificano λ nello stesso intervallo (es. telefonate ad un call center)

● legge degli eventi rari

Page 23: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzioni continue di Probabilità

calcoliamo per:

osserviamo che la distribuzione diventa sempre più “fitta”

Page 24: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzioni continue di Probabilità

La distribuzione di Poisson viene approssimata da una distribuzione continua detta normale (o di Gauss) con

linea rossa (x=r):

NB eventi NON più rari!!!

Page 25: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzioni continue di Probabilità

Distribuzione normale:

● distribuzione continua e simmetrica attorno alla media

● due parametri: media μ e varianza σ2

● eventi NON rari ma molteplici, casuali ed indipendenti

● somma di variabili aleatorie gaussiane è gaussiana

x1+x

2+x

3=x

tot

Page 26: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzioni continue di Probabilità

Il passaggio al continuo NON è indolore:

● distribuzioni discrete: la variabile aleatoria assume solo un dato valore di probabilità

● distribuzioni continue: la variabile aleatoria assume un continuum di valori di probabilità in un dato intervallo (bin). Dunque la probabilità di una variabile continua è definita solo come somma di tutti i valori di quell'intervallo

es. caso normale:

Page 27: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzioni continue di Probabilità

Dunque, per calcolare la probabilità di un evento nel caso continuo ho bisogno di:

● la PDF che descrive la distribuzione della variabile aleatoria in esame

● calcolare (correttamente) integrali

Page 28: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzione normale

es.:

Page 29: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzione normale

Page 30: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzione normale

Page 31: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzione normale

dunque la probabilità di osservare un evento

è:

dunque un evento MOLTO raro e pertanto ragionevolmente NON dovuto al caso. Tale evento può dunque essere un segnale scientificamente interessante

Page 32: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Distribuzione normale

dove:

Il problema, pertanto, è riuscire a calcolare l'integrale. Ci sono almeno (più di) 3 modi:

● metodo furbo: (imparare ad) usare un software in grado di farlo

● metodo più furbo: normalizzare la PDF gaussiana e fare riferimento a opportune tabelle

● metodo gnucco: usare il PC per quello che è (una volta tanto), ovvero un calcolatore

Page 33: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Calcolo aree: metodo gnucco

Page 34: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Calcolo aree: metodo gnucco

● da usare con attenzione● occhio all'intervallo!● preferire forza bruta

Page 35: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

dove Z è una variabile aleatoria con distribuzione normale standard

Calcolo aree: metodo più furbo

x = {32.9124, 29.8362, 28.0705, 21.1499, 22.9767, 20.5991, 29.3528,30.9007, 35.2792, 33.6456,.....}

Page 36: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Calcolo aree: metodo più furbo

Page 37: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Calcolo aree: metodo più furbo

es.: supponiamo che l'altezza degli italiani sia distribuita normalmente, e che i valori di media e deviazione standard siano rispettivamente

(o in alternativa che la statura media sia di ).

1. Qual è la probabilità di trovare italiani più alti di 189.6 cm?2. Qual è la probabilità di trovare italiani più bassi di 150.4 cm?3. Qual è la probabilità di trovare italiani più alti di 189.6 cm O bassi di 150.4 cm?

Caso 1.: una coda

Page 38: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Calcolo aree: metodo più furbo

Caso 2.: una coda

NB si usa la simmetria della distribuzione normale!

Page 39: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Calcolo aree: metodo più furbo

Caso 3.: due code

Page 40: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Calcolo aree: metodo più furbo

si noti che:

dunque, un generico valore

può essere interpretato come: il dato di partenza dista dalla media

Quindi, se vogliamo che un dato si discosti dalla media di, ad esempio,allora deve essere:

e questo dato viene ottenuto con probabilità

Page 41: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

Verifica ipotesi

● calcolare la distribuzione (PDF) sotto l'ipotesi che la variabile che stiamo studiando sia soggetta solo al caso (variabile aleatoria)

● calcolare la probabilità di uscita della variabile

● falsificare o meno l'ipotesi: la variabile NON è o È soggetta al solo caso

Ma:

● non sempre (praticamente mai) possiamo calcolare la PDF

● ciò significa che non sempre (praticamente mai) abbiamo i valori di e

● dunque dobbiamo stimare in modo furbo questi valori a partire dalle osservazioni

inferenza statistica

Page 42: Distribuzioni discrete di Probabilitàprofs.sci.univr.it/~chignola/statistica3.pdfIl passaggio al continuo NON è indolore: distribuzioni discrete: la variabile aleatoria assume solo

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

see: http://creativecommons.org/licenses/by-nc/4.0/

Roberto ChignolaUniversità di [email protected]