77
Anàlisi de microarrays de DNA Curs de Bioinformàtica Universitat Pompeu Fabra 4t curs de Llicenciatura en Ciències Experimentals i de la Salut 27/02/06 Lauro Sumoy Laboratori de Microarrays Centre de Regulació Genòmica [email protected]

Anàlisi de microarrays de DNA

  • Upload
    adair

  • View
    102

  • Download
    4

Embed Size (px)

DESCRIPTION

Anàlisi de microarrays de DNA. Curs de Bioinformàtica Universitat Pompeu Fabra 4t curs de Llicenciatura en Ciències Experimentals i de la Salut 27/02/06 Lauro Sumoy Laboratori de Microarrays Centre de Regulació Genòmica [email protected]. Continguts. Introducció als microarrays - PowerPoint PPT Presentation

Citation preview

Page 1: Anàlisi de microarrays de DNA

Anàlisi de microarrays de DNA

Curs de BioinformàticaUniversitat Pompeu Fabra

4t curs de Llicenciatura en Ciències Experimentals i de la Salut

27/02/06

Lauro SumoyLaboratori de Microarrays

Centre de Regulació Genò[email protected]

Page 2: Anàlisi de microarrays de DNA

Continguts– Introducció als microarrays– Aplicacions dels microarrays– Comparació de dues mostres – Comparació entre múltiples mostres– Comparació de classes i predicció de classes– Us de bioinformàtica aplicats als microarrays

• Adquisició i anàlisi de imatges• Processat de dades

– Filtrat de intensitat i qualitat– Normalització intraxip– Anàlisi estadístic emprant rèpliques

• Agrupament i clustering

– Eines bioinformàtiques

Page 3: Anàlisi de microarrays de DNA

Introducció: Què són els microarrays?

• Microarray (micromatriu, bioxip): col.lecció de biomolècules ordenades ortogonalment sobre un suport sòlid miniaturitzat

•Alta densitat•Permeten estudis a escala genomica•Apliquen noves eines per a anàlisi massiu de dades:

•bioinformàtica•estadística

Page 4: Anàlisi de microarrays de DNA

• DNA depositat per impressió sobre vidre– Tipus de tecnologia: agulles, plumilles o ink jet– Producte imprès:

• Producte de PCR– primers de vector (cDNA, clons de genòmic)– RAPD primers (RAPD-PCR, differential display)– primers específics de seqüència (genòmic)– linker-primers (ligation mediated-PCR de BACs)

• Clons directament (cDNA, cosmidi, BAC)• Oligonucleòtids (25 a 80nt)• Altres possibilitats de impressió:

– Cèl.lules transfectades– Proteïnes (anticòs, receptors, lisats de llibreries

déxpressió, etc)

Page 5: Anàlisi de microarrays de DNA

Microarrays impresosmRNA 3’5’

One cDNA probe per geneDerived by PCR amplification Size: 500-2000 bp (double stranded)

Vector PCR primers

cDNA clone

Single cDNA probe

cDNA microarrays

mRNA 3’5’

One oligo probe per geneDerived by chemical synthesisSize: 35-70 nt (single stranded)

Longoligonucleotide microarrays

Single oligonucleotide probeDirect spotting

(no need for amplification)

PCR amplificationpurification

Page 6: Anàlisi de microarrays de DNA

Microarrays sintetitzats in situ: Affymetrix DNA chip

Arrays d’alta densitat

Necessiten escaner de més alta resolució

mRNA 3’5’

DNA probe sequence

ATGAGCTGTACCAATGCCAACCTGG PM ATGAGCTGTACCTATGCCAACCTGG MM

PM MM

Perfect Match – MisMatch11-20 parells d’oligonucleòtids per trànscrit gènicMida de sonda: 25 nt (cadena senzilla)

Page 7: Anàlisi de microarrays de DNA

2 colors 1 color(cDNA) (Affymetrix)

mRNA

cDNA-Cy3 cDNA-Cy5

RNAextraction

ReversetranscriptionCy3-dCTP Cy5-dCTP

Competitivenucleic acid

co-hybridization

Referencesample

Testsample

mRNA

cDNA-Cy3 cDNA-Cy5

RNAextraction

ReversetranscriptionCy3- Cy5-

cDNA or long oligo microarray

Competitivenucleic acid

co-hybridization

Referencesample

Testsample

Fluorescentdetection

cDNA-T7

Biotin-cRNA

In vitrotranscription

Biotin-UTP

mRNA

RNAextraction

Reversetranscription

High density oligonucleotide array

Non-competitivenucleic acid

hybridization

sample

Fluorescentdetection

Phycoetrythrin-streptavidin

Page 8: Anàlisi de microarrays de DNA

Aplicacions descrites per a microarrays:

• cDNA: Determinació de perfils d’expressió d’mRNA– Transcriptoma codificant (mRNA)– Transcriptoma total (RNA total)– Proteoma (RNA en polisomes)– Taxa de transcripció in vivo (Run-on)– Splicing alternatiu (mRNA sobre sondes d’exons)– Localització cel.lular (mRNA de fraccions cel.lulars)– Fase cicle cel.lular (mRNA de c’el.lules sincronitzades)

• Genòmic: Determinació de canvis al DNA– Canvis de dosi gènica / reordenaments (≈CGH)– Regions reguladores (precipitació de cromatina, factors de

transcripció, etc.)• Oligonucleòtids: Determinació de canvis a nivell nucleotidic

– Detecció de mutacions, polimorfismes (SNPs), -també expressió, etc

Page 9: Anàlisi de microarrays de DNA

Necessitat d’eines bioinformàtiques

– Selecció de sondes: anàlisi de seqüències– Dades digitalitzades

• Quantificables• Computables

– Alt nombre de punts:• Automatització • Miniaturització

– Gran quantitat de informació acumulada• Seqüències• Publicacions• Sofisticació dels clínics i experimentals

Page 10: Anàlisi de microarrays de DNA

Aplicacions específiques per al processament dels

microarrays

• Anàlisi i quantificació de imatges– Definició d’àrees de senyal– Subtracció de background– Normalització del senyal d’un experiment

• Anàlisi de significació• Normalització entre experiments• Agrupació de gens i d’experiments• Extracció de dades (data mining)

Page 11: Anàlisi de microarrays de DNA

Microarraysde 2 colorsper a estudisd’expressió

mRNA

cDNA-Cy3 cDNA-Cy5

RNAextraction

ReversetranscriptionCy3-dCTP Cy5-dCTP

cDNA microarray

Competitivenucleic acid

co-hybridization

Referencesample

Testsample

mRNA

cDNA-Cy3 cDNA-Cy5

RNAextraction

ReversetranscriptionCy3- Cy5-

cDNA microarray

Competitivenucleic acid

co-hybridization

Referencesample

Testsample

Fluorescentdetection

Page 12: Anàlisi de microarrays de DNA

Principi del mètode de hibridació sobre microarrays (≈Northern)

• Deposició o síntesi localitzada de biomolècules no marcades (sondes fredes o dianes) en ‘spots’ o taques homogènies

• Hibridació / reconeixement específic amb mostres marcades amb fluorescència o radioactivitat

• Rentat de producte que no s’ha unit específicament

• Detecció quantitativa de producte unit

Page 14: Anàlisi de microarrays de DNA

Factors a considerar en el disseny d’experiments

amb microarrays

• Seguiment dels punts: anotació de mostres

• Eficiència de marcatge de mostres• Orientació de la matriu• Controls de normalització• Nº de rèpliques• Estandardització per a bases de dades

de resultats d’experiments de microarrays

Page 15: Anàlisi de microarrays de DNA

Generació d’imatges

• Col.lecció d’emissió fluorescent per fotomultiplicador genera corrent electric

• Conversor analògic a digital dona valor numèric - el nombre de comptes analògic digitals (A/D)

• Resultat: assigna valors de 0 a 65535 per a cada pixel (1 pixel = 5-10 um de imatge .tif 16 bits)

• Generació de imatge (256 colors o tons de l’escala de grisos)

Page 16: Anàlisi de microarrays de DNA

Com s’analitzen les imatges de fluorescència?

Cy5 > Cy3 Cy5 = Cy3Cy5 < Cy3

Page 17: Anàlisi de microarrays de DNA

Senyal de hibridacióImatges de cada canal:

intensitats representades en

color fals

Cy5Cy3

Solapament de les imatges: ratio

representat com a color fals

Page 18: Anàlisi de microarrays de DNA

Mesures derivades de microarrays

• Intensitat total• Intensitat per pixel• Mitjana• Mediana• Desviació standard de intensitats• Desviació standard de background• Desviació standard de intensitats

(en rèpliques)• etc.

Taula

Page 19: Anàlisi de microarrays de DNA

Quantificació del senyal

Ratio representat en color fals

Block Column Row ID F649 Median B649 Mean F550 Median B550 Mean ...1 1 1 gen 1 5356 240 11532 256 ...1 2 1 gen 1 5472 298 12293 221 ...1 3 1 gen 2 8986 279 12788 295 ...1 4 1 gen 2 6729 300 10520 364 ...1 5 1 gen 3 8981 318 18099 276 ...1 6 1 gen 3 9287 391 20459 308 ...1 7 1 gen 4 5138 358 11082 434 ...1 8 1 gen 4 5438 332 9594 257 ...1 9 1 gen 5 7634 356 13316 363 ...1 10 1 gen 5 9056 405 14402 291 ...1 11 1 gen 6 12181 701 16383 433 ...1 12 1 gen 6 15159 552 18793 263 ...1 13 1 gen 7 6805 243 14445 298 ...1 14 1 gen 7 6715 261 13874 199 ...1 15 1 gen 8 6073 319 12385 439 ...1 16 1 gen 8 5041 355 9371 335 ...

... ... ... ... ... ... ... ... ...

Dades quantificades en forma de taula

Page 20: Anàlisi de microarrays de DNA

Representació gràfica de dades crues

Page 21: Anàlisi de microarrays de DNA
Page 22: Anàlisi de microarrays de DNA

Algoritmes de software d’anàlisi d’imatges: Cerca

de taques• Cerca de pixel central• Creació de caixa delimitant de la

taca– Suma de intensitat de tots els pixels– Iteracions per trobar valor màxim– Taca centrada al centre de la caixa

òptima (de intensitat màxima)

Page 23: Anàlisi de microarrays de DNA

Distribució de senyal i background

Page 24: Anàlisi de microarrays de DNA

Algoritmes de software d’anàlisi d’imatges:

background

• Determinació dels pixels corresponents al background (senyal de fons)– Centra-se en pixels de intensitat inferior a

5100 comptes analògic-digitals– Càlcul de la intensitat més frequent– Estimació de la desviació estandard (SD) de

les intensitats de background (assumeix distribució Gaussiana)

Page 25: Anàlisi de microarrays de DNA

Algoritmes de software d’anàlisi d’imatges: senyal• Determinació dels pixels

corresponents al senyal real– Centrar-se en pixels de intensitat

superiors al llindar de comptes analògic-digitals:

– Senyal llindar = background + 3 * SD• Dona intensitat com el valor al

percentil 75 de intensitats en els pixels de la taca

Page 26: Anàlisi de microarrays de DNA

Pas 1: Substracció de background

– Cal fer una substracció a nivell local– La manera de definir el background

pot afectar ls valors per a dades de baixa intensitat de senyal

Page 27: Anàlisi de microarrays de DNA

Exemple: comparació dues condicions

• Nº de mesures:– Per cada element (o ‘spot’):

• Cercle of ~15 pixels de diàmetre (200 pixels)

• Mesures a cada spot:– Mitja del senyal real

-‘foreground’ (FG)

– Mediana del senyal de fons - ‘background’ (BG)

– (6 arrays) X (2 spots/array)

• = 12 punts de dades

A

B

11

22A’

B’

3344

B’’

55

66A’’

Rèplica biològica 1

Rèplica biològica 2

Rèplica biològica 3

FG

BG

Spots duplicats

Page 28: Anàlisi de microarrays de DNA

Pas 2: Normalització interna (entre spots d’un microarray)

• Correcció de diferències entre les intensitats de senyal dels dos canals degudes a:

• Quantitat inicial de mostra • Aspectes qualitatius (classes d’RNA)• Degradació parcial• Eficiència de marcatge fluorescent• Eficiència a la detecció de fluorescència• Variació de incroporació deguda a seqüència

gènica• Variació entre pins d’impressió• No uniformitat del vidre o substrat

Page 29: Anàlisi de microarrays de DNA

Mètodes de normalització• Mètodes de regressió

– Regressió linial (sobre simplificació)– Mètodes de regressió lineal robusta local (lowess)– Mètodes de regressió no linial

• Estimació estadística dels valors no canviants (ratio statistics), i de llindars d’expressió significativament diferencial– Ranking– Bayesians

• Es essencial tenir rèpliques per poder fer tractaments estadístics!!!

Page 30: Anàlisi de microarrays de DNA

Opcions de normalització

• Valor relatiu respecte a intensitat total• Ajust per regressió

– Del senyal global (Si hi ha més de 103 punts)• Asumeix: majoria de gens no canvia, nombre similar de gens

puja i baixa – Tots els spots– Només spots filtrats de bona qualitat (preferible)

– De senyal de gens de referència (amb menys de 103 punts)

• Si a l’experiment no es pot assumir que la majoria de gens no varia o si hi ha activació o repressió general de la transcripció (molts gens pujen o molts gens baixen)

– Controls interns: gens housekeeping– Controls externs: spiked-in controls (gens artificials)

Page 31: Anàlisi de microarrays de DNA

Data analysis pipeline Check linearity

Median centralization Lowess centralization

2Replicates

Gene lists

Expression change

List of significant co-regulated genes

Further analysis (data mining)

Promoter analysis

Function prediction

Gene regulatory networks

Literature searches

Annotation searches

Reporting results

Gene lists

T-test

Replicates

>2

Calculate logratios

Non-linearLinear

yes yesnono

Filter bad data

Data from image analysis

Calculate average within genes

ANOVAClassificationClusteringPCA

Number of conditions compared

‘NORMALIZATION’

‘MICROARRAY DATA’

‘DATA MINING’

Page 32: Anàlisi de microarrays de DNA

La millor manera de mesurar ‘soroll’ experimental: experiments de hibridació self-self

HeLa vs HeLa

Hibridació control self-self

HEK293 vs HeLa

Hibridació test

Page 33: Anàlisi de microarrays de DNA

Valors d’expressió relativa

• Quocient d’expressió:ratio=NormInt1/NormInt2

• Logaritme del quocient d’expressióLog ratio=log2(NormInt1/NormInt2)

– Transformació logaritmica converteix en una distribució normal (Gaussian) de quocients centrats en el valor 0 (zero).

– Logaritme en base 2 emprat sovint perque una inducció del doble (2X) o repressió a la meitat és la diferència mínima considerada mesurable

– Hi ha maneres alternatives de mirar les dades (intensitats, log intensitats, etc)

Page 34: Anàlisi de microarrays de DNA

0-1 +1

1 20.5

12

__

=

Log2(0.5)=-1

Log2(2)=1Log2(1)=0

Ratio(R/G)

log2ratio(R/G)

Transfromació logarítimica

half

doub

le

equa

l

mei

tat

dobl

e

igua

l

11

__

=

21

__=

Page 35: Anàlisi de microarrays de DNA
Page 36: Anàlisi de microarrays de DNA

-1-2-2(-1) = -2

Quan log2ratio > 0: FC = 2 Log2(R/G)

(= ratio)

Quan log2ratio < 0: FC = -2 -Log2(R/G)

Foldchange(R/G)

Escala simètrica càlcul de taxa de

canvi – ‘fold change’ (FC)

half

doub

le

equa

l

0-1 +1Log2(0.5)=-1

Log2(2)=1Log2(1)=0

M

half

doub

le

equa

l

+1 +221 = 2

Page 37: Anàlisi de microarrays de DNA

1 20.5

12

__

=

Ratio(R/G)

Transfromació simètrica

half

doub

le

equa

l

11

__

=

21

__=

-1-2-1/0.5 = -2

Quan ratio > 1: FC = ratio

Quanratio < 1: FC = -1/ratio

Foldchange(R/G)

half

doub

le

equa

l

+1 +2

Page 38: Anàlisi de microarrays de DNA

La relació entre intensitat NO és linial

• Per això s’estilen mètodes de regressió locals:– Lowess (locally weighted robust linear regression)– Regressió no linial

Page 39: Anàlisi de microarrays de DNA

Valors d’expressió normalitzada

• Quocient d’expressió (expression ratio):ratio=NormInt1/NormInt2

• Logaritme del quocient d’expressió (expression log ratio)

Log ratio=log2(NormInt1/NormInt2)– La transformació logarítmica permet establir una

distribució normal (Gaussiana) dels ratios amb valors centrats en 0.

– Log base 2 emprat perque es considera sovint 2X com el nivell mínim de diferència acceptable com a significativa

– Els ratios suposen pèrdua de informació (intensitat)

Page 40: Anàlisi de microarrays de DNA

Histogrames de ratios i scatterplots (gràfiques de dispersió)

Page 41: Anàlisi de microarrays de DNA

Gràfiques de intensitat MA plots

Page 42: Anàlisi de microarrays de DNA

Gràfiques de intensitat Gràfiques MA

Page 43: Anàlisi de microarrays de DNA

Normalització per lowess (locally weighted linear regression)

• Centra a valor logratio igual a 0• Compensa comportament no linial

Page 44: Anàlisi de microarrays de DNA

Avantatges dels gràfics MA / RI i aplicació de lowess

– Mostren estructura de les dades que permet avaluar la qualitat de les dades d’expressió

– Mesures log2(ratio) mostren una major variació en

rangs de baixa intensitat

– Molts dels estudis publicats empren un únic valor limit determinat (per exemple 2X o 0.5X).

– Emprar lowess permet fixar límits de significació variables dependents de intensitat (basats en desviació estándar local)

Page 45: Anàlisi de microarrays de DNA

Pas 3: Filtratge de dades previ a l’anàlisi

• Eliminació de dades no tractables:– Amb intensitats baixes– Amb intensitat per sota de

background (càlcul de ratio impossible; poden fer-se conversions)

– Amb coeficient de variació excedint un llindar entre rèpliques

Page 46: Anàlisi de microarrays de DNA

Pas 4: Tests de significació estadística

– t-test– Two component error model (Rocke-

Lorenzato)– Z-scores (Chen)– SAM (significance analysis of microarrays;

Tusher et. al)• SAM score (T-statistics value), valor ‘d’ de

significació• q value, mesura de la taxa de falsos positius

– IMPORTANT: Iniciativa CAMDA (Critical Assessment of Microarray Data Analysis)

Page 47: Anàlisi de microarrays de DNA

Tests de significació estadística

• t-test (amb ajust per a nombre alt de sondes)– Compara els valors de les rèpliques de

dues condicions diferents– Estableix si la diferencia pot haver estat

per atzar (amb una probabilitat d’acceptar un fals positiu de p=0.05)

Page 48: Anàlisi de microarrays de DNA

Tests de significació estadística

• Hipòtesi a tots els tests:– No hi ha cap diferència entre les

mitjanes de intensitat d’expressió gènica per al gen X entre els grups (condicions) testats.

– En altres paraules, tots els grups tenen mitjanes equivalents per al gen X.

Page 49: Anàlisi de microarrays de DNA

Correcció per a tests múltiples

• Si es testen 10.000 gens amb un valor de tall de significació de (p-value) de 0.05 voldrà dir que el nombre de gens que es trobi amb expressió diferencial per atzar –encara que no hi hagi expressió diferencial veritablement- seria de:

10,000 x 0.05 = 500 gens• La correcció per atests múltiples fa un ajust del

p-value individual de cada gen per fer l’error menor o igual que un valor de tall especificat per l’usuari

Page 50: Anàlisi de microarrays de DNA

Step 4: Test de significació estadística

• IMPORTANT: Iniciativa CAMDA (Critical Assessment of Microarray Data Analysis)

Page 51: Anàlisi de microarrays de DNA

Replicació– Replicació d’elements o spots (al mateix xip)

• Controlen l’homogeneitat de la hibridació (dins d’un mateix xip)

– Rèpliques tècniques (emprant xips diferents)• Hibridacions repetides a partir dels mateixos extractes

– Controlen la robustesa del protocol de hibridació (de xip a xip, entre diferents dies, entre diferents mans)

• Repliques de reversió de fluorocrom (Dye reversal) – Corregeixen diferències de senyal degudes a fluorocrom

– Rèpliques biològiques (xip diferent / mostra diferent)• Hibridacions repetides a partir d’extractes diferents però

equivalents (d’experiments o mostres diferents)• Es poden considerar mostres de la mateixa classe com a una

variació de rèpliques biològiques quan hi ha un nombre elevat de mostres

Page 52: Anàlisi de microarrays de DNA

Validació sempre necessària!

• Replicar! Replicar!! Replicar!!! –el poder dels grans nombres

• Validació experimental:– Plataforma de microarrays alternativa– rt-PCR a temps real– Northern– Protecció d’RNAses– Hibridació in situ

• Altres dades– Literatura– Digital differential display– Bases de dades de microarrays

Page 53: Anàlisi de microarrays de DNA

Altres formes de validació

• Validació creuada amb altres tipus de informació– Dades no d’RNA: expressió de proteïnes– Expressió de molècules interactuants (RNA

o proteïna) – Informació de coexpressió:

dianes/reguladors/co-regulats gens/vies de senyalització/rutes metabòliques, etc

...té sentit tot plegat?

Page 54: Anàlisi de microarrays de DNA

Pistes

• És possible àcceptar valors per sota de 2X com a indicadors fiables de diferències d’expressió sempre que es faci servir el següent model per a l’analisi:– Normalització per lowess – Filtrat i anàlisi estadístic emprant rèpliques– Estimació de valors de Z (desviació estándar)

locals per determinar expressió diferencial estadísticament significativa

Page 55: Anàlisi de microarrays de DNA

Múltiples experiments:

cDNA-Cy3 cDNA-Cy5 cDNA-Cy3 cDNA-Cy5 cDNA-Cy3 cDNA-Cy5cDNA-Cy3 cDNA-Cy5cDNA-Cy3 cDNA-Cy5

A B A A A AC D E F

A

B

C

D

E

F

PoolA, B, C, D, E, F

B

C

D

E

F

A

B

C

D

E

F

A

Page 56: Anàlisi de microarrays de DNA

Valor afegit d’analitzar múltiples experiments

– Assumint: que gens participants en processos similars es regulen de manera semblant

– Podem extreure informació sobre:• Funció gènica (vies senyalització, metabolisme,

etc.)• Classificar condicions experimentals d’acord amb

patrons d’expressió (prognosi de tumors, resposta a fàrmacs, relació amb stress metabòlic, cicle cel.lular, localització subcel.lular, etc.)

• Correlacionar amb altres paràmetres (localització cromosòmica, background genètic, factors ambientals)

Page 57: Anàlisi de microarrays de DNA

Dos tipus de pregunta:– 1. Quins gens estan expressats diferencialment en un grup de

condicions?• Cerca de gens co-regulats

– Predicció de funció gènica per associació a altres gens– Emprar ontologies gèniques (GO) per cercar enriquiment en una determinada

» Funció molecular» Component cel.lular» Procés

– Estudi de regions promotores– Modelatge de rutes metabòliques / vies de transducció de senyals / xarxes de

regulació transcripcional...

– 2. Quines condicions s’agrupen per compartir patrons d’expressió similars?

– Classificació de condicions– Predicció de condicions– Assignació d’una mostra a una classe: diagnosi basat en patrons d’expressió

gènica

Page 58: Anàlisi de microarrays de DNA

Pas 1: Escalat• Centra totes

distribucions a mitjana de logratio = 0

• Fer la desviació estándar de la distribució = 1

Page 59: Anàlisi de microarrays de DNA

Pas 2: Normalització entre xips

• Establir valors relatius a referència comuna

• Valor a l’estat basal (tipus salvatge, temps zero, no tractat, etc)

• Línia cel.lular d’us comú• Pool de línies cel.lulars• RNAs de referència

– En el cas d’arrays de vidre hibridats per fluorescència normalment els valors de logratios ja són relatius a una condició de referència.

Page 60: Anàlisi de microarrays de DNA

Estratègies d’agrupació• Comparació:

– Comparem expresió gènica mesurada en log ratios

– Construïm distàncies entre punts (elements o gens) per resta de vectors (coordenades del vector de cada punt corresponen a valors d’expressió gènica en cada condició)

• Agrupació de dades:– Agrupem gens o experiments en base a

proximitat de distàncies– Distàncies calculables fent servir mètriques

diverses (euclidiana, etc)

Page 61: Anàlisi de microarrays de DNA

Tipus de clustering

– Jeràrquic (clustering jeràrquic per mètodes filogenètics) o no jeràrquic (K-means, SOMs)

– Supervisat (emprant informació biològica prèviament coneguda) o no supervisat

– Divisiu (K-means, SOMs) o aglomeratiu (clustering jeràrquic)

– IMPORTANT: Els resultats poden ser molt variables de mètode a mètode (i dependent del tipus de normalització, mètrica de la distància, etc)

Page 62: Anàlisi de microarrays de DNA

Clustering jeràrquic

• Aglomeratiu• Genera arbre jeràrquic• Simple• Representació fàcil de visualitzar• Variacions:

• Single-linkage (minimum, nearest neighbor)• Complete-linkage (maximum, farthest neighbor)• Average-linkage (o bé centroid-linkage, o median-

linkage)• Altres (Weighted pair-group average -per clusters

amb nombres molt diferents d’elements, etc)

Page 63: Anàlisi de microarrays de DNA

Clustering K-means

• Divisiu• Parteix d’un nombre predeterminat

de grups de gens o condicions• Calcula un vector d’expressió

promig que es va refinant per càlcul reiteratiu.

• No produeix arbres

Page 64: Anàlisi de microarrays de DNA

SOMs(Self Organizing Maps)

• Divisiu• Basat en xarxes neuronals (mètodes de

computació auto-entrenants)• Optimitza la separació de grups en base

a geometria predefinida sobre la qual s’entrenen vectors de referencia.

• Maximitza la convergència entre vectors i punts de cada cluster

Page 65: Anàlisi de microarrays de DNA

PCA(Principal Component

Analysis)• Divisiu• Assumeix que hi ha redundància en les

dades d’expressió gènica• Projecta conjunts de dades complexes

en espais fàcils de visualitzar (redueix la dimensió de l’espai)

• Cerca les vistes que aporten una millor separació de dades

Page 66: Anàlisi de microarrays de DNA

Extracció d’informació(data mining)

– Aprofita accés a bases de dades biològiques per:• Obtenir dades relacionades (gens homòlegs, dades

bibliogràfiques, dades estructurals, interacció de proteïna, etc)

• S’extrapolen dades tot fent cerques damunt de cerques

– Pot generar-se sistema automatitzat de recerca:• Entrenar un sistema intel.ligent amb col.lecció de dades.

– IMPORTANT: És extremadament útil generar un repositori de dades d’experiments amb microarrays a partir de formats estandaritzats (Iniciativa MIAME)

Page 67: Anàlisi de microarrays de DNA

Formes de visualització de múltiples experiments

• Matrius de color fals• Arbres o dendrogrames (clustering

jeràrquic)• Gràfiques de patrons d’expressió i

centroids (K means o SOMs)• Visió en 3D (PCA)• Matrius d’expressió

Page 68: Anàlisi de microarrays de DNA

Matrius d’expressi

ó:

taules de logratios

d’expressió

condicions

tumor 1 tumor 2 ... tumor n

gen 1 a1 b1 ... z1

gens gen 2 a2 b2 ... z2

... ... ... ... ...

gen n an bn ... zn

vectors de perfils d'expressió de cada gengen 1 (a1, b1, ..., z1)gen 2 (a2, b2, ..., z2)

... ...gen n (an, bn, ..., zn)

vectors de perfils d'expressió a cada condiciótumor 1 (a1, a2, ..., an)tumor 2 (b1, b2, ..., bn)

... ...tumor 3 (z1, z2, ..., zn)

Page 69: Anàlisi de microarrays de DNA

Arbres

Page 70: Anàlisi de microarrays de DNA

Gràfiques de patrons d’expressió

Page 71: Anàlisi de microarrays de DNA

Plots 3D

Page 72: Anàlisi de microarrays de DNA

Diferències

– Segons mètodeveiem diferentsagrupaments:

Page 73: Anàlisi de microarrays de DNA

Paquets de software d’accés públic

• Anàlisi i quantificació d’imatges– Scanalyze, SpotFinder-ArrayViewer,

ChipSkipper

• Estudi de significació estadística– R, BRB-Tools, GP-QA-processor, SAM

• Comparació i agrupació de resultats– Cluster/Treeview, Expression profiler,

Multiple expression Viewer (MeV)

• Bases de dades de microarrays– Nomad, Madam

Page 74: Anàlisi de microarrays de DNA

Paquets de software comercials

• Anàlisi i quantificació d’imatges– GenePix, Scanarray, Jaguar, Pathways,

ImaGene, Quantarray, Spot

• Estudi de significació I estadística– MatLab, SSPS

• Comparació i agrupació de resultats– GeneSight, Acuity, GeneSpring, GenePlus

• Bases de dades de microarrays– GeneSight, Acuity, GeneSpring, GenePlus

Page 75: Anàlisi de microarrays de DNA

Referències - WWWInfobiochip - Instituto de Salud Carlos III

(http://infobiochip.isciii.es/)Literature on Microarray Data Analysis - Max Planck Institute

(http://www.molgen.mpg.de/~heydebre/explit.html)Papers on Microarray Data Analysis - Rockefeller University

(http://linkage.rockefeller.edu/wli/microarray/index.html)Statistics for Microarray Data Analysis - Terry Speeds UC Berkeley

(http://www.stat.berkeley.edu/users/terry/zarray/Html/index.html)Critical Assessment of Microarray Data Analysis - CAMDA

(http://bioinformatics.duke.edu/CAMDA/CAMDA01/papers.asp)Expression Analysis Seminars – Heydebreck/Vingron DKFZ

(http://www.dkfz-heidelberg.de/tbi/people/heyde/expsem.html)Seminar on Clustering Algorithms - Enrique Blanco GRIB-IMIM

(http://www1.imim.es/~eblanco/seminars/docs/clustering/index_clustering.html)

Page 76: Anàlisi de microarrays de DNA

Referències – bibliografia –anàlisi de dadesQuackenbush J.

Computational analysis of microarray data.Nat Rev Genet. 2001 Jun;2(6):418-27. Review.

Beissbarth T, Fellenberg K, Brors B, Arribas-Prat R, Boer J, Hauser NC, Scheideler M, Hoheisel JD, Schutz G, Poustka A, Vingron M.Processing and quality control of DNA array hybridization data.

Bioinformatics. 2000 Nov;16(11):1014-22.Schuchhardt J, Beule D, Malik A, Wolski E, Eickhoff H, Lehrach H, Herzel H.

Normalization strategies for cDNA microarrays.Nucleic Acids Res. 2000 May 15;28(10):E47.

Tseng GC, Oh MK, Rohlin L, Liao JC, Wong WH.Issues in cDNA microarray analysis: quality filtering, channel normalization, models of variations and assessment of gene effects.

Nucleic Acids Res. 2001 Jun 15;29(12):2549-57.Smyth GK, Yang YH, Speed T

Statistical issues in cDNA Micorarray data analysis. In Functional Genomics: Methods and Protocols, Brownstein MJ, Khodursky AB Eds. Methods in

Molecular Biology Series, Humana Press, Totowa, NJ USA 2003. In press.Brazma A, Hingamp P, Quackenbush J, Sherlock G, Spellman P, Stoeckert C, Aach J, Ansorge W, Ball CA, Causton HC,

Gaasterland T, Glenisson P, Holstege FC, Kim IF, Markowitz V, Matese JC, Parkinson H, Robinson A, Sarkans U, Schulze-Kremer S, Stewart J, Taylor R, Vilo J, Vingron M.Minimum information about a microarray experiment (MIAME)-toward standards for microarray data.

Nat Genet. 2001 Dec;29(4):365-71.

Page 77: Anàlisi de microarrays de DNA

Bioinformàtica i GenòmicaMicroarrays

Laboratori de Microarrays Centre de Regulació Genòmica

http://www.crg.esLauro Sumoy

Cy3 dCTP- Cy5-dCTP

cDNA-Cy3 cDNA-Cy5

BA