Download pdf - Einführung in die Bioinformatik - ab.inf.uni-tuebingen.de · 7 DNA-Microarrays •Ein DNA-Microarray besteht aus einer kleinen Membran oder Glasplatte auf der DNA-Sonden in geordneter

WSI/ZBIT, Eberhard Karls Universität Tübingen

Einführung in dieBioinformatik

Kay NieseltSS 2012

8. It‘s hip to chip - von Microarrayszu personalisierter Medizin

2

Das menschliche Genom

TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAA...

2% 0.1%22.000 Gene

nur 0.1% Variation!

(~ 3.000.000.000 Basenpaare)

3

Hautkrebs

Gesunde Haut

4

Was unterscheidet ...

• Hautkrebs und gesunde Haut?• Behandelbare und unheilbare Tumore?• Menschen mit und ohne Krebsrisiko?• Patienten mit und ohne Cystischer

Fibrose?

Und was unterscheidet eigentlich ...

5

...Mensch

...und Schimpanse?

6

Was ist ein Microarray?

Ein Microarray ist ein Miniatur-Labor auf einemChip, das erlaubt, sehr große Mengenbiologischen Materials in einem sogenanntenHochdurchsatzverfahren zu untersuchen.

Es gibt sehr viele Varianten:- DNA-Microarrays- Protein-Microarrays- Gewebe-Microarrays- Antikörper-Microarrays

7

DNA-Microarrays• Ein DNA-Microarray besteht aus einer kleinen

Membran oder Glasplatte auf der DNA-Sondenin geordneter Weise aufgebracht sind.

• Markierte cDNA-Sequenzen aus einerbiologischen Probe hybridisieren mit ihremkomplementären Gegenpart auf dem Array

• Microarrays erlauben u.a. die paralleleAnalyse der Expression mehrerer tausendGene bzw. des gesamten Transkriptoms einerZelle

• Synonyme: Chip, Biochip, DNA-Array, Gene-Array, GeneChip® (geschützter Name derFirma Affymetrix)

8

Definition Microarray:

Prinzip von DNA-Microarrays:komplementäre Hybridisierungseigenschaftenvon Nukleinsäuren

www.affymetrix.com

9

DNA-Microarrays

AffymetrixGeneChip

Agilenthttp://www.agilent.com/about/newsroom/lsca/imagelibrary/images/cag_43_microarray_dna.jpg

ABI IlluminaBeadChip

http://www.xconomy.com/wordpress/wp-content/images/2008/03/dna_cartridge_earth_icon.jpg

FebitNimblegenhttp://www.nimblegen.com/

10

Zwei Typen von Microarrays

• Spotted Arrays: Sonden (cDNA mit 500-5,000 Basen oder25-60bp Oligos) werden mit Hilfe von Robotern auf Arrayaufgebracht und immobilisiert.

http://www.digitalapoptosis.com/archives/science/Microarray_Printer.jpg

11

Zwei Typen von Microarrays

• in situ Arrays: Proben = Oligos werden in situ viaPhotolithographie auf dem Array direktsynthetisiert.Beispiel: GeneChip® von Affymetrix

Image courtesy of Affymetrix

12

Einsatz

• Ein häufiger Gebrauch von DNA-Arraysist die Expression zwei Zellpopulationenzu vergleichen:– welche Gene sind aktiviert (hochreguliert)– welche Gene sind reprimiert

(herunterreguliert)

• Dabei werden alle Gene gleichzeitiggemessen

13

Beispiele

• Vergleich der Expressionstätigkeit vonGenen in gesunden Zellen und inTumorzellen

• Vergleich der Expressionstätigkeit vonGenen in Hefe, wenn diese unteraeroben (Bier) bzw. anaeroben (Brot)Bedingungen wächst.

14

Experimente

Signal

Expressionsprofile

Gen: unveränderte Expression

Gen: hochreguliert

15

Versuchsablauf• Wir isolieren mRNA aus den

jeweiligen Proben• Diese wird in cDNA umgewandelt

und mit Farbstoffen markiert• Dann wird jede markierte cDNA in

einem speziellen Ofen mit demMicroarray für ca. 16 Stunden ...

• … „gebacken“ (hybridisiert).• Mit Laserlicht wird das Ergebnis

beleuchtet: an jeder Stelle, an dercDNA auf dem Microarraygebunden wurde, leuchtet es.

16

Zwei Typen von Experimenten

• Zweifache Farbstoffexperimente:– auch Dual-Kanalexperiment genannt– zwei Proben werden gleichzeitig hybridisiert, jede

mit einem anderen Farbstoff markiert;– gleichzeitiges Messen möglich (komparatives

Experiment)– meist wird Cy3 (“grün”) und Cy5 (“rot”)

verwendet.

• Einfaches Farbstoffexperiment:– auch Ein-Kanalexperiment genannt– nur eine Probe gleichzeitig hybridisiert,– ein Farbstoff (absolutes Experiment).

17

Microarrays und Bioinformatik

Bioinformatik auf verschiedensten Ebenennotwendig:

• Bildanalyse• Visualisierung• Clustering• Statistik• Datenbanken• ...

18

Schwarz:Gen nicht exprimiert

Rot:Gen nur in A exprimiert

Grün:Gen nur in B exprimiert

Gelb:Gen in A und Bexprimiert

Bildverarbeitung: Dual Channel Arrays

•Zwei Samples, zwei Farbmarkierungen(mit spez. Anregungs-Wellenlänge ≠Emissions-Wellenlänge)

•Pro Farbkanal ein Scan• Integration beider „Kanäle“ -> ein Bild

mit „Pseudofarben“.•Typischerweise werden die Farben rot,

gelb, grün und schwarz benutzt, dadiese die eingesetzten Farbstoffe Cy3(grün) und Cy5 (rot) symbolisieren.

19

Bildverarbeitung: Single-Channel Array

Hier: GeneChip von Affymetrix

20

Bildverarbeitung

• Schwierig für spottedarrays

• Leichter für in situ arrays

21

Normalisierung• Microarrayexperiment: gesucht sind Gene, die

z.B. zwischen zwei Bedingungenunterschiedliche Expression zeigen

• Jedes Microarray-Experiment birgt technischbedingte Fehlerquellen, die zur Variation desgemessenen Signals beitragen• Falsche Kalibrierung der Messgeräte• Scanning-Parameter sind unterschiedlich• Farbstoffeigenschaften

• Computergestützte Datentransformation umsystematische Fehler zu korrigieren

22

feature

Profil eines Gens

Gene

Proben/Arrays

Expressionsmatrix

Wertebereich: 0-2^16 bzw. nach log2-Transformation zwischen 0-16

23

Expressionsprofile: Profilplot• Problem: zu viele Profile in einem Plot => Profile mit gemeinsamem

Muster werden verdeckt

24

Expressionsprofile: Profilplot

• Profilplots vonGruppen von Genenmit ähnlichem Profil-> Clustering

25

Heatmaps

• Tabellarische Visualisierung derExpressionsmatrix:– Zeilen entsprechen Genen– Spalten entsprechen

Experimentbedingungen– Zelle repräsentiert gemessene

Expressionsintensität• Jede Zelle der Matrix wird mit

einer Farbe gefüllt =Expressionsintensität

Exp 1 Exp 2 Exp 3Gene 1 14.0 12.0 10.0Gene 2 2.0 8.0 14.0Gene 3 8.0 6.0 4.0

26

Heatmaps

Heatmaps großer Experimente erst sinnvoll, wenn Zeilen so sortiertwerden, dass die mit ähnlichem Expressionsprofil nah beieinanderliegen -> Clustering

Zeilen sortieren

27

Clustering: Definition

• Gegeben eine Menge von n Objekten, diejeweils p Werte aufweisen

• Ein Clustering ist eine Klassifikation derObjekte in Klassen = Cluster derart, dass

• Objekte innerhalb eines Clusters eine kleineDistanz haben

• Objekte in verschiedenen Clustern eine großeDistanz haben

28

Clustering

Zwei Zutaten:

• Distanzmaßz.B. Euklidische Distanz

• Cluster-Algorithmusz.B. k-means

29

k-means (Lloyd’s) Algorithmus1) Wähle zufällig k Datenpunkte als Clusterzentren

µ1,…,µk aus

2) Für jedes Gen x berechne seinen nächstgelegenenClusterzentroiden:

C(i)=argmin1≤ l≤ k d(xi,µl)2

3) Für jeden Cluster berechne neuenClusterzentroiden

4) Wiederhole Schritte 2-3 bis Algorithmus konvergiert

30

k-means Algorithmus - Demo

0

1

2

3

4

5

0 1 2 3 4 5

Experiment 1

Exp

erim

ent 2 µ1

µ2

µ3

Setze k, hier k=3, Initialisierung: hier zufällige Punkte als Zentroide

31

k-means Demo: Schritt (2)

0

1

2

3

4

5

0 1 2 3 4 5

Experiment 1

Expe

rimen

t 2 µ1

µ2

µ3

32


0

1

2

3

4

5

0 1 2 3 4 5

Experiment 1

Expe

rimen

t 2 µ1

µ2

µ3

33

k-means Demo: Erg. Schritt (3)

0

1

2

3

4

5

0 1 2 3 4 5

Experiment 1

Expe

rimen

t 2

µ1

µ2

µ3

34


0

1

2

3

4

5

0 1 2 3 4 5

Experiment 1

Expe

rimen

t 2

µ1

µ2

µ3

35


0

1

2

3

4

5

0 1 2 3 4 5

Experiment 1

Expe

rimen

t 2

µ1

µ2

µ3

36

k-means Demo: Erg. Schritt (3)

0

1

2

3

4

5

0 1 2 3 4 5

Experiment 1

Expe

rimen

t 2

µ1

µ2µ3

37

Ergebnis

38

Vorhersage Prävention Früherkennung Therapie

Anwendung: Personalisierte Medizin

Genetische Merkmale berücksichtigen

• Risiken vorhersagen• Risiken minimieren• Krankheiten früh erkennen• Bessere Therapie

39

Personalisierte Medizin• Jeder Mensch ist einzigartig, auch

molekularbiologisch:– Welche der individuellen Unterschiede sind für die

Krebsentstehung entscheidend?– Welche der individuellen Unterschiede sind dafür

verantwortlich Krebs bei einem Patienten aggressiver ist alsbeim anderen,

– Welche der individuellen Unterschiede sind dafürverantworktlich, dass bestimmte Medikamente bei einemMenschen wirken und bei einem anderen nicht?

• Behandlung bestmöglich auf die Patientenzuschneiden

• Personalisierte Therapie erhöht Heilungschance,verringert Risiko von Nebenwirkungen

40

Jeder Mensch ist einzigartig

0,1% von 3.000.000.000ergeben 3.000.000 Unterschiede

Polymorphismen einzelner Basenpaare(SNPs)

• Häufigster Typ von genomischer Variation beiMenschen

• Erbkrankheiten (6000 bekannt)

Unverändert SNPGen: AAG-CGA-ATT-AGG AAG-GGA-ATT-AGGProtein: Lys - Gln -Ile -Arg Lys - Gly -Ile -Arg

41

Microarray-Variante: SNP-Arrays

Sonden enthaltenbekannte (bis zu ca.500.000) SNPs

Beispiel BRCA1 und BRCA2

- „breast cancer susceptibility gene“ 1 und 2.

- Hohes Risiko für Brustkrebs bei bestimmten Mutationen

- Vorsorge möglich

42

Viele Aufgaben - eine Plattform

Statistik

Visualisierung Muster-Erkennung

MachineLearningBiologische

Systeme

Datenbanken

Data MiningOntologienNormalisierung &Vergleichbarkeit

http://www-ps.informatik.uni-tuebingen.de/mayday