Upload
others
View
9
Download
0
Embed Size (px)
Distribuzioni discrete di Probabilità
Ma la biologia di laboratorio che cosa ha a che fare con le distribuzioni discrete di probabilità?
Consideriamo questo gedankenexperiment*:
● in una fiasca per coltura cellulare abbiamo una popolazione eterogenea di cellule
● solo le cellule di un certo tipo (es. le cellule T) possono proliferare se stimolate
● tutte le altre cellule non proliferano affatto
● non ci sono modi per misurare direttamente le cellule T
Il problema è: come posso stimare quante cellule del tipo T ci sono nella popolazione cellulare?
es. reale: stimare quanti linfociti T attivi ci sono nella milza di un topo dopo una immunizzazione...
gedankenexperiment
Distribuzioni discrete di Probabilità
cellule T
altre celluleseminare le cellule
aggiungere lo stimolo
Proliferazione: - - - -+
seminare le cellule
aggiungere lo stimolo
Proliferazione: - - - --
diluire il campione
Distribuzioni discrete di Probabilità
Qual è la probabilità di ottenere pozzetti in cui le cellule proliferano?
Se distribuiamo a caso e indipendentemente c cellule in w pozzetti (da eng. wells) qual è la probabilità che un dato pozzetto contenga esattamente un certo numero di cellule?
NB assunzioni: siamo in grado di distribuire le cellule nei pozzetti in modo casuale e in modo tale che nessuna cellula influenzi il destino dell'altra (ad es. NON ci devono essere aggregati cellulari)
variabili:
(da: I.Lefkovits and H.Waldmann, Limiting dilution analysis of cells in the immune system, Cambridge University Press, 1979)
Distribuzioni discrete di Probabilità
prendiamo a caso un pozzetto tra i w disponibili. Qual è la probabilità che una data cellula finisca esattamente in quel pozzetto?
poiché O una cellula finisce nel pozzetto O lo manca (tertium non datur), allora:
dunque la probabilità che la cellula manchi il dato pozzetto è:
ma questo vale anche per la seconda, la terza, la quarta,..., la c-esima cellula. Poiché ogni cellula si comporta in modo indipendente da tutte le altre:
Distribuzioni discrete di Probabilità
Dunque, la probabilità P0 che tutte le cellule manchino un pozzetto è:
Qual è la probabilità che una data cellula entri nel pozzetto e che tutte le altre lo manchino?
Ma questo vale anche per la seconda cellula, la terza, la...., c-esima cellula. Dunque:
Distribuzioni discrete di Probabilità
Qual è ora la probabilità che due cellule entrino nel pozzetto e che tutte le altre lo manchino?
Ma questo deve valere per tutte le possibili coppie di cellule:
e dunque:
1 2 3 ... c
1 - + + ... +
2 - - + ... +
3 - - - ... +
... - - - ... +
c - - - - -
Distribuzioni discrete di Probabilità
Allo stesso modo calcoliamo la probabilità che tre cellule entrino in una dato pozzetto, che tutte le altre lo manchino, ed estendiamo questo conto a tutte le possibili terne di cellule (senza ripetizioni):
e infine calcoliamo la probabilità per un numero qualsiasi r di cellule:
Ancora un passo (trucchetto): moltiplico e divido per la quantità
Distribuzioni discrete di Probabilità
Distribuzione BINOMIALE
probabilità di ottenere k successi in n prove indipendenti (del tipo vero o falso) e in cui la probabilità per ogni singolo successo è p
Distribuzioni discrete di Probabilità
Distribuzione BINOMIALE in biologia?
es. suddivisione degli organelli cellulari alla mitosi!
Distribuzioni discrete di Probabilità
es.
Distribuzioni discrete di Probabilità
Distribuzione BINOMIALE
● distribuzione discreta di probabilità
● parametri p ed n
● media = np
● varianza = np(1-p)
probabilità di ottenere k successi in n prove indipendenti (del tipo vero o falso) e in cui la probabilità per ogni singolo successo è p
Distribuzioni discrete di Probabilità
...il problema pratico con la distribuzione binomiale sta nel calcolo dei fattoriali
Distribuzioni discrete di Probabilità
riprendiamo questa equazione:
e consideriamo valori di c e w molto grandi
ora, se
e dunque:
ma se: dove u = n. cell/pozzetto è un numero finito.
Dunque:
Distribuzioni discrete di Probabilità
distribuzione di Poisson
Distribuzioni discrete di Probabilità
distribuzione di Poisson
es.: semino le cellule alla densità di 5 cellule/pozzetto.
6.7 pozzetti su 1000 conterranno r=0 cellule
3.4 pozzetti su 100 conterranno r=1 cellule
8.4 pozzetti su 100 conterranno r=2 cellule
Distribuzioni discrete di Probabilità
distribuzione di Poisson
caso particolare: semino le cellule alla densità di 1 cellula/pozzetto.
il 37% dei pozzetti NON conterrà cellule
notiamo che:
dunque:
1)semino le cellule a diversa densità u in tanti pozzetti2)conto quanti pozzetti non presentano cellule3)grafico in modo opportuno il risultato4)a livello del 37% SO che 1 su u cellule seminate prolifera!
Dunque ho risolto il problema iniziale!
Distribuzioni discrete di Probabilità
(a real experiment from: I.Lefkovits and H.Waldmann, Limiting dilution analysis of cells in the immune system, Cambridge University Press, 1979)
...a P0=0.37 ci attendiamo che 1
sola cellula proliferi in un dato pozzetto. Ma per arrivare a questo risultato ho dovuto seminare ~38.000 cellule (della popolazione eterogenea di partenza. Dunque 1/38.000 cellule è la frequenza di cellule proliferanti (le cellule T) nella popolazione d'origine.
Distribuzioni discrete di Probabilità
Distribuzioni discrete di Probabilità
~1/6~1/153
(0.65/15.9=0.04)
Distribuzioni discrete di Probabilità
distribuzione di Poisson
es. a che densità cellulare conviene seminare le cellule per sperare di averne solo 1 in un pozzetto ed ottenere così un clone cellulare?
u=0.1 u=0.3 u=1
P0
0.90 0.74 0.37
P1
0.09 0.22 0.37
P2
0.0045 0.033 0.18
P3
0.00015 0.0033 0.06
Distribuzioni discrete di Probabilità
distribuzione di Poisson
● limite della distribuzione binomiale
● estremamente comune. Ad esempio permette di calcolare la probabilità che si verifichino n eventi (indipendenti) in un dato intervallo di spazio o di tempo, sapendo che in media se ne verificano λ nello stesso intervallo (es. telefonate ad un call center)
● legge degli eventi rari
Distribuzioni continue di Probabilità
calcoliamo per:
osserviamo che la distribuzione diventa sempre più “fitta”
Distribuzioni continue di Probabilità
La distribuzione di Poisson viene approssimata da una distribuzione continua detta normale (o di Gauss) con
linea rossa (x=r):
NB eventi NON più rari!!!
Distribuzioni continue di Probabilità
Distribuzione normale:
● distribuzione continua e simmetrica attorno alla media
● due parametri: media μ e varianza σ2
● eventi NON rari ma molteplici, casuali ed indipendenti
● somma di variabili aleatorie gaussiane è gaussiana
x1+x
2+x
3=x
tot
Distribuzioni continue di Probabilità
Il passaggio al continuo NON è indolore:
● distribuzioni discrete: la variabile aleatoria assume solo un dato valore di probabilità
● distribuzioni continue: la variabile aleatoria assume un continuum di valori di probabilità in un dato intervallo (bin). Dunque la probabilità di una variabile continua è definita solo come somma di tutti i valori di quell'intervallo
es. caso normale:
Distribuzioni continue di Probabilità
Dunque, per calcolare la probabilità di un evento nel caso continuo ho bisogno di:
● la PDF che descrive la distribuzione della variabile aleatoria in esame
● calcolare (correttamente) integrali
Distribuzione normale
es.:
Distribuzione normale
Distribuzione normale
Distribuzione normale
dunque la probabilità di osservare un evento
è:
dunque un evento MOLTO raro e pertanto ragionevolmente NON dovuto al caso. Tale evento può dunque essere un segnale scientificamente interessante
Distribuzione normale
dove:
Il problema, pertanto, è riuscire a calcolare l'integrale. Ci sono almeno (più di) 3 modi:
● metodo furbo: (imparare ad) usare un software in grado di farlo
● metodo più furbo: normalizzare la PDF gaussiana e fare riferimento a opportune tabelle
● metodo gnucco: usare il PC per quello che è (una volta tanto), ovvero un calcolatore
Calcolo aree: metodo gnucco
Calcolo aree: metodo gnucco
● da usare con attenzione● occhio all'intervallo!● preferire forza bruta
dove Z è una variabile aleatoria con distribuzione normale standard
Calcolo aree: metodo più furbo
x = {32.9124, 29.8362, 28.0705, 21.1499, 22.9767, 20.5991, 29.3528,30.9007, 35.2792, 33.6456,.....}
Calcolo aree: metodo più furbo
Calcolo aree: metodo più furbo
es.: supponiamo che l'altezza degli italiani sia distribuita normalmente, e che i valori di media e deviazione standard siano rispettivamente
(o in alternativa che la statura media sia di ).
1. Qual è la probabilità di trovare italiani più alti di 189.6 cm?2. Qual è la probabilità di trovare italiani più bassi di 150.4 cm?3. Qual è la probabilità di trovare italiani più alti di 189.6 cm O bassi di 150.4 cm?
Caso 1.: una coda
Calcolo aree: metodo più furbo
Caso 2.: una coda
NB si usa la simmetria della distribuzione normale!
Calcolo aree: metodo più furbo
Caso 3.: due code
Calcolo aree: metodo più furbo
si noti che:
dunque, un generico valore
può essere interpretato come: il dato di partenza dista dalla media
Quindi, se vogliamo che un dato si discosti dalla media di, ad esempio,allora deve essere:
e questo dato viene ottenuto con probabilità
Verifica ipotesi
● calcolare la distribuzione (PDF) sotto l'ipotesi che la variabile che stiamo studiando sia soggetta solo al caso (variabile aleatoria)
● calcolare la probabilità di uscita della variabile
● falsificare o meno l'ipotesi: la variabile NON è o È soggetta al solo caso
Ma:
● non sempre (praticamente mai) possiamo calcolare la PDF
● ciò significa che non sempre (praticamente mai) abbiamo i valori di e
● dunque dobbiamo stimare in modo furbo questi valori a partire dalle osservazioni
inferenza statistica
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.
see: http://creativecommons.org/licenses/by-nc/4.0/
Roberto ChignolaUniversità di [email protected]