31
Bioinformatics and statistics in drug discovery company Letizia Magnoni Microarray Data Analysis Letizia Magnoni Junior Scientist Sienabiotech Spa

Microarray Data Analysis

Embed Size (px)

DESCRIPTION

Microarray Data Analysis. Letizia Magnoni Junior Scientist Sienabiotech Spa. Argomenti. Cosa e’ un esperimento di microarray A cosa serve Come si puo’ disegnare un esperimento Normalizzazione Analisi Analisi Cluster Annotazioni dei geni selezionati. Gene expression. - PowerPoint PPT Presentation

Citation preview

Page 1: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

Microarray Data Analysis

Letizia MagnoniJunior Scientist

Sienabiotech Spa

Page 2: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

Argomenti

• Cosa e’ un esperimento di microarray • A cosa serve• Come si puo’ disegnare un

esperimento• Normalizzazione• Analisi • Analisi Cluster • Annotazioni dei geni selezionati

Page 3: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

• Ogni cellula contiene una copia completa del genoma dell’organismo.

• Esistono vari tipi e stati di cellule (cellule di sangue, nervi e pelle, cellule che si dividono, cellule cancerogene, ecc.)

Gene expression

Page 4: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

Variazione dell’espressione

• Cosa rende le cellule diverse tra loro?

• L’espressione differente dei geni, cioe’ quando, dove e quanto ogni gene e’ espresso.

• In media, il 40% dei nostri geni e’ espresso in ogni momento.

Page 5: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

mRNA

cDNA

Page 6: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

Perche’ Microarrays

• In passato solo analisi di un gene (o pochi) alla volta (Northern blot)

• Oggi fino a 40.000 geni su una sola microarray.

Page 7: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

Applicazioni di Microarrays

• Individuazione di target per farmaci e validazione – identificazione di geni modulati in modo specifico rispetto ad una

certa malattia (differential expression)

• Elicidazione dei meccanismi dell’azione– Drug safety profiling– Guilt by association (geni con comportamento connesso tra loro)– Pathway modeling

• Classificazione di nuovi composti• Diagnostica• Identificazione di Biomarkers

Page 8: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

“Disegno” di un esperimento

• Insieme dei trattamenti selezionati per il confronto

• La specificazione delle unita’ a cui verranno somministrati i trattamenti

• Le regole secondo cui i trattamenti vengono assegnati ad ogni unita’ sperimentale

• La specificazione delle misurazioni (R/G)

Page 9: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

Disegno Sperimentale

• Fonti di variazione:– Variazione biologica– Variazione tecnica– Variazione dovuta

alla collocazione degli elementi nelle arrays.

G. A. Churchill in Nature Genetics vol. 32, 2002

Page 10: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

Vari Disegni Sperimentali

• Dye-swap:

• Dye-swap ripetuto:

• Dye-swap con replica biologica:

BA

A B

A1 B1

A2 B2

Page 11: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

Vari Disegni Sperimentali

• Reference:

N.B. Questo disegno sperimentale non mette in luce la variabilita’ introdotta dalla colorazione.

• Per migliorare questo disegno:

N.B. Meta’ delle misurazioni vengono fatte nel campione di minore interesse.

A mix B

Ref

A

B

Ref

A

B

A mix B

Page 12: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

Vari Disegni Sperimentali

• Loop: A1 B1

B2 A2

Page 13: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

Trattamenti: A B

Replicati:

Colorazioni:

Arrays:

Disegno:

G R G R G R G RRNA1 RNA2 RNA3 RNA4

A1 A2 B1 B2

A2

A1 B1

B2

Page 14: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

Trattamenti: A B

Replicati:

Colorazioni:

Arrays:

Disegno:

RGRNA1 RNA2 RNA3 RNA4

A1 A2 B1 B2

RG RG RG

A1 B1

A2 B2

Page 15: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

Normalizzazione

• Si vuole togliere dai dati tutta quella variabilita’ che non ha origine biologica:– Campioni (isolamento, estrazione di RNA,..)– Probe nature (cDNA clones, oligos, ..)– Arrays (substrato, lotto, difetti di superficie, ..)– Colorazione (colore, attivita’ specifica, ..)– Ibridizzazione (tempo, temperatura)– Misurazione (hardware, software, saturation)

Page 16: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

Normalizzazione

• Possibili approcci:

– Housekeeping genes set (which genes, mean value)

– Complete gene set (min./selected/all, fluorescence intensity)

– Spiked exogeneous control mRNAs (mean value)

– Linear regression analysis

Page 17: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

Tecniche di normalizzazione

• Normalizzazione dell’intensita’ totale

– Questo tipo di normalizzazione assume una uguale quantita’ di mRNA per entrambi i campioni etichettati.

– Si cerca una costante “c” che aggiusti i dati in modo tale che i due campioni abbiano media o mediana uguale.

Page 18: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

Normalizzazione dell’intensita’ totale

La trasformazione degli assi coordinati ci permette di visualizzare meglio i dati

i

ii

iii

G

RM

GRA

2

2

log

log

Page 19: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

Tecniche di Normalizzazione

• Tecniche di Regressione:– Regressione lineare dei dati e successiva

normalizzazione in modo tale che il coefficiente lineare della retta di regressione abbia coefficiente angolare unitario.

– Regressione lineare locale (LOWESS)“LOcally WEighted Scatter plot Smooth”

Page 20: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

Normalizzazione con tecniche di regressione locale

Page 21: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

Analisi Statistica dei dati

• Si vuole rispondere alle domande:

– La differenza che vedo nei miei dati e’ significativa?

– Le differenze osservate sono dovute solo alla diversa risposta dei campioni ai trattamenti?

Page 22: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

T-test con due campioni: confronto tra le due medie

• Ipotesi:– I campioni hanno distribuzioni normali;– I campioni sono originati da due variabili

indipendenti;– Due possibili assunzioni sulle varianze:

se o altrimenti.22

21

La statistica test ha una distribuzione t di Student

Page 23: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

Confronto tra medie di due campioni in un esperimento di Microarray• Si vogliono evitare tutte le assunzioni fatte

precedentemente. • Statistica test (Welch Statistic); per ogni gene i

calcoliamo:

1

21

2

22

12

n

s

n

s

xxt

ii

iii

• Per determinarne la distribuzione possiamo utilizzare algoritmi di permutazione o di bootstrap.

B. Efron, R. J. Tibshirani: “An Introduction to the Bootstrap”, Chapman & Hall (1993)

S. Dudoit et al: “Statistical methods for identifying differentially expressed genes in replicated cDNA Microarray Experiments”, Statistica Sinica 12(2002), pp 111-139

Page 24: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

Permutation test

– Stima la distribuzione della statistica test sotto l’ipotesi nulla (che non ci sia differenza tra i due campioni) tramite permutazioni dei campioni etichettati.

– Il p_value e’ dato come frazione delle permutazioni per cui il valore della statistica test e’ (almeno) tanto estremo quanto quello che e’ stato osservato.

gp

Page 25: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

Multiple testing

• Supponiamo di avere un esperimento con 10.000 geni e decidiamo di controllare l’errore di tipo I al 5% (rifiuto l’ipotesi nulla quando il p-value e’ minore di 0.05):

– il valore atteso di rigettare in modo errato l’ipotesi nulla sara’: 10.000 x 0.05 = 500.

Page 26: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

Multiple testing methods

• Dobbiamo considerare il fatto di dovere aggiustare il livello di significativita’ del nostro test (multiple testing procedure)

– Bonferroni (non e’ consigliabile per esperimenti di microarrays)

– Westfall and Young step-down procedure– False Discovery Rates (FDR; Benjamini and

Hochberg, 1995)

Dudoit et al, “Multiple Hypothesis Testing in Microarray Experiments”, U.C. Berkeley Division of Biostatistics Working Paper Series, 2002

Page 27: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

Modelli ANOVA

• Questi modelli cercano di dare una stima delle piu’ importanti fonti di variabilita’ presenti in un esperimento.– Arrays (Ai) i = 1,2,..,#arrays

– Dyes (colorazione) (Dj) j = 1,2

– Varieties (trattamenti) (Vk) k = 1,2,..,#varieties

– Genes (Gg) g = 1,2,..,#genes

ijkgjgkgiggkjiijkg DGVGAGGVDAy )()()()log(

Il modello che si assume e’:

Page 28: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

Modelli ANOVA e disegno sperimentale

• Disegno Dye-Swap

• Disegno reference

ijkgkgiggkjiijkg VGAGGVDAy )()()log(

A B

ijkgkggkiijkg VGGVAy )()log(

RefA

B

Page 29: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

Analisi da un punto di vista Bayesiano

• Entrambe le tecniche presentate hanno un approccio mediante la statistica Bayesiana.

– P. Baldi,”A Bayesian framework for the analysis of microarray expression data: regularized t-test and statistical inferences of gene changes”, Bioinformatics, Vol.17, no 6, pp 509-519 (2001)

– D.A.Henderson, “Bayesian Statistical Methods for the Detection of Differential Gene Expression and Control of Multiple Hypothesis Testing in cDNA and Oligonucleotide Microarray Experiments”, University of Arizona

Page 30: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

Siti interessanti

http://www.stat.berkeley.edu/users/terry/Group/index.html

http://www.jax.org/staff/churchill/labsite/research/index.html

http://www.gene-chips.com/

http://www.nslij-genetics.org/microarray/analy.html

http://www.mged.org/Workgroups/MIAME/miame.html

http://www.bioconductor.org/

http://www.bio.davidson.edu/courses/genomics/chip/chip.html

Page 31: Microarray Data Analysis

Bioinformatics and statistics in drug discovery companyLetizia Magnoni

Grazie