WSI/ZBIT, Eberhard Karls Universität Tübingen
Einführung in dieBioinformatik
Kay NieseltSS 2012
8. It‘s hip to chip - von Microarrayszu personalisierter Medizin
2
Das menschliche Genom
TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAA...
2% 0.1%22.000 Gene
nur 0.1% Variation!
(~ 3.000.000.000 Basenpaare)
3
Hautkrebs
Gesunde Haut
4
Was unterscheidet ...
• Hautkrebs und gesunde Haut?• Behandelbare und unheilbare Tumore?• Menschen mit und ohne Krebsrisiko?• Patienten mit und ohne Cystischer
Fibrose?
Und was unterscheidet eigentlich ...
5
...Mensch
...und Schimpanse?
6
Was ist ein Microarray?
Ein Microarray ist ein Miniatur-Labor auf einemChip, das erlaubt, sehr große Mengenbiologischen Materials in einem sogenanntenHochdurchsatzverfahren zu untersuchen.
Es gibt sehr viele Varianten:- DNA-Microarrays- Protein-Microarrays- Gewebe-Microarrays- Antikörper-Microarrays
7
DNA-Microarrays• Ein DNA-Microarray besteht aus einer kleinen
Membran oder Glasplatte auf der DNA-Sondenin geordneter Weise aufgebracht sind.
• Markierte cDNA-Sequenzen aus einerbiologischen Probe hybridisieren mit ihremkomplementären Gegenpart auf dem Array
• Microarrays erlauben u.a. die paralleleAnalyse der Expression mehrerer tausendGene bzw. des gesamten Transkriptoms einerZelle
• Synonyme: Chip, Biochip, DNA-Array, Gene-Array, GeneChip® (geschützter Name derFirma Affymetrix)
8
Definition Microarray:
Prinzip von DNA-Microarrays:komplementäre Hybridisierungseigenschaftenvon Nukleinsäuren
www.affymetrix.com
9
DNA-Microarrays
AffymetrixGeneChip
Agilenthttp://www.agilent.com/about/newsroom/lsca/imagelibrary/images/cag_43_microarray_dna.jpg
ABI IlluminaBeadChip
http://www.xconomy.com/wordpress/wp-content/images/2008/03/dna_cartridge_earth_icon.jpg
FebitNimblegenhttp://www.nimblegen.com/
10
Zwei Typen von Microarrays
• Spotted Arrays: Sonden (cDNA mit 500-5,000 Basen oder25-60bp Oligos) werden mit Hilfe von Robotern auf Arrayaufgebracht und immobilisiert.
http://www.digitalapoptosis.com/archives/science/Microarray_Printer.jpg
11
Zwei Typen von Microarrays
• in situ Arrays: Proben = Oligos werden in situ viaPhotolithographie auf dem Array direktsynthetisiert.Beispiel: GeneChip® von Affymetrix
Image courtesy of Affymetrix
12
Einsatz
• Ein häufiger Gebrauch von DNA-Arraysist die Expression zwei Zellpopulationenzu vergleichen:– welche Gene sind aktiviert (hochreguliert)– welche Gene sind reprimiert
(herunterreguliert)
• Dabei werden alle Gene gleichzeitiggemessen
13
Beispiele
• Vergleich der Expressionstätigkeit vonGenen in gesunden Zellen und inTumorzellen
• Vergleich der Expressionstätigkeit vonGenen in Hefe, wenn diese unteraeroben (Bier) bzw. anaeroben (Brot)Bedingungen wächst.
14
Experimente
Signal
Expressionsprofile
Gen: unveränderte Expression
Gen: hochreguliert
15
Versuchsablauf• Wir isolieren mRNA aus den
jeweiligen Proben• Diese wird in cDNA umgewandelt
und mit Farbstoffen markiert• Dann wird jede markierte cDNA in
einem speziellen Ofen mit demMicroarray für ca. 16 Stunden ...
• … „gebacken“ (hybridisiert).• Mit Laserlicht wird das Ergebnis
beleuchtet: an jeder Stelle, an dercDNA auf dem Microarraygebunden wurde, leuchtet es.
16
Zwei Typen von Experimenten
• Zweifache Farbstoffexperimente:– auch Dual-Kanalexperiment genannt– zwei Proben werden gleichzeitig hybridisiert, jede
mit einem anderen Farbstoff markiert;– gleichzeitiges Messen möglich (komparatives
Experiment)– meist wird Cy3 (“grün”) und Cy5 (“rot”)
verwendet.
• Einfaches Farbstoffexperiment:– auch Ein-Kanalexperiment genannt– nur eine Probe gleichzeitig hybridisiert,– ein Farbstoff (absolutes Experiment).
17
Microarrays und Bioinformatik
Bioinformatik auf verschiedensten Ebenennotwendig:
• Bildanalyse• Visualisierung• Clustering• Statistik• Datenbanken• ...
18
Schwarz:Gen nicht exprimiert
Rot:Gen nur in A exprimiert
Grün:Gen nur in B exprimiert
Gelb:Gen in A und Bexprimiert
Bildverarbeitung: Dual Channel Arrays
•Zwei Samples, zwei Farbmarkierungen(mit spez. Anregungs-Wellenlänge ≠Emissions-Wellenlänge)
•Pro Farbkanal ein Scan• Integration beider „Kanäle“ -> ein Bild
mit „Pseudofarben“.•Typischerweise werden die Farben rot,
gelb, grün und schwarz benutzt, dadiese die eingesetzten Farbstoffe Cy3(grün) und Cy5 (rot) symbolisieren.
19
Bildverarbeitung: Single-Channel Array
Hier: GeneChip von Affymetrix
20
Bildverarbeitung
• Schwierig für spottedarrays
• Leichter für in situ arrays
21
Normalisierung• Microarrayexperiment: gesucht sind Gene, die
z.B. zwischen zwei Bedingungenunterschiedliche Expression zeigen
• Jedes Microarray-Experiment birgt technischbedingte Fehlerquellen, die zur Variation desgemessenen Signals beitragen• Falsche Kalibrierung der Messgeräte• Scanning-Parameter sind unterschiedlich• Farbstoffeigenschaften
• Computergestützte Datentransformation umsystematische Fehler zu korrigieren
22
feature
Profil eines Gens
Gene
Proben/Arrays
Expressionsmatrix
Wertebereich: 0-2^16 bzw. nach log2-Transformation zwischen 0-16
23
Expressionsprofile: Profilplot• Problem: zu viele Profile in einem Plot => Profile mit gemeinsamem
Muster werden verdeckt
24
Expressionsprofile: Profilplot
• Profilplots vonGruppen von Genenmit ähnlichem Profil-> Clustering
25
Heatmaps
• Tabellarische Visualisierung derExpressionsmatrix:– Zeilen entsprechen Genen– Spalten entsprechen
Experimentbedingungen– Zelle repräsentiert gemessene
Expressionsintensität• Jede Zelle der Matrix wird mit
einer Farbe gefüllt =Expressionsintensität
Exp 1 Exp 2 Exp 3Gene 1 14.0 12.0 10.0Gene 2 2.0 8.0 14.0Gene 3 8.0 6.0 4.0
26
Heatmaps
Heatmaps großer Experimente erst sinnvoll, wenn Zeilen so sortiertwerden, dass die mit ähnlichem Expressionsprofil nah beieinanderliegen -> Clustering
Zeilen sortieren
27
Clustering: Definition
• Gegeben eine Menge von n Objekten, diejeweils p Werte aufweisen
• Ein Clustering ist eine Klassifikation derObjekte in Klassen = Cluster derart, dass
• Objekte innerhalb eines Clusters eine kleineDistanz haben
• Objekte in verschiedenen Clustern eine großeDistanz haben
28
Clustering
Zwei Zutaten:
• Distanzmaßz.B. Euklidische Distanz
• Cluster-Algorithmusz.B. k-means
29
k-means (Lloyd’s) Algorithmus1) Wähle zufällig k Datenpunkte als Clusterzentren
µ1,…,µk aus
2) Für jedes Gen x berechne seinen nächstgelegenenClusterzentroiden:
C(i)=argmin1≤ l≤ k d(xi,µl)2
3) Für jeden Cluster berechne neuenClusterzentroiden
4) Wiederhole Schritte 2-3 bis Algorithmus konvergiert
30
k-means Algorithmus - Demo
0
1
2
3
4
5
0 1 2 3 4 5
Experiment 1
Exp
erim
ent 2 µ1
µ2
µ3
Setze k, hier k=3, Initialisierung: hier zufällige Punkte als Zentroide
31
k-means Demo: Schritt (2)
0
1
2
3
4
5
0 1 2 3 4 5
Experiment 1
Expe
rimen
t 2 µ1
µ2
µ3
32
k-means Demo: Schritt (3)
0
1
2
3
4
5
0 1 2 3 4 5
Experiment 1
Expe
rimen
t 2 µ1
µ2
µ3
33
k-means Demo: Erg. Schritt (3)
0
1
2
3
4
5
0 1 2 3 4 5
Experiment 1
Expe
rimen
t 2
µ1
µ2
µ3
34
k-means Demo: Schritt (2)
0
1
2
3
4
5
0 1 2 3 4 5
Experiment 1
Expe
rimen
t 2
µ1
µ2
µ3
35
k-means Demo: Schritt (3)
0
1
2
3
4
5
0 1 2 3 4 5
Experiment 1
Expe
rimen
t 2
µ1
µ2
µ3
36
k-means Demo: Erg. Schritt (3)
0
1
2
3
4
5
0 1 2 3 4 5
Experiment 1
Expe
rimen
t 2
µ1
µ2µ3
37
Ergebnis
38
Vorhersage Prävention Früherkennung Therapie
Anwendung: Personalisierte Medizin
Genetische Merkmale berücksichtigen
• Risiken vorhersagen• Risiken minimieren• Krankheiten früh erkennen• Bessere Therapie
39
Personalisierte Medizin• Jeder Mensch ist einzigartig, auch
molekularbiologisch:– Welche der individuellen Unterschiede sind für die
Krebsentstehung entscheidend?– Welche der individuellen Unterschiede sind dafür
verantwortlich Krebs bei einem Patienten aggressiver ist alsbeim anderen,
– Welche der individuellen Unterschiede sind dafürverantworktlich, dass bestimmte Medikamente bei einemMenschen wirken und bei einem anderen nicht?
• Behandlung bestmöglich auf die Patientenzuschneiden
• Personalisierte Therapie erhöht Heilungschance,verringert Risiko von Nebenwirkungen
40
Jeder Mensch ist einzigartig
0,1% von 3.000.000.000ergeben 3.000.000 Unterschiede
Polymorphismen einzelner Basenpaare(SNPs)
• Häufigster Typ von genomischer Variation beiMenschen
• Erbkrankheiten (6000 bekannt)
Unverändert SNPGen: AAG-CGA-ATT-AGG AAG-GGA-ATT-AGGProtein: Lys - Gln -Ile -Arg Lys - Gly -Ile -Arg
41
Microarray-Variante: SNP-Arrays
Sonden enthaltenbekannte (bis zu ca.500.000) SNPs
Beispiel BRCA1 und BRCA2
- „breast cancer susceptibility gene“ 1 und 2.
- Hohes Risiko für Brustkrebs bei bestimmten Mutationen
- Vorsorge möglich
42
Viele Aufgaben - eine Plattform
Statistik
Visualisierung Muster-Erkennung
MachineLearningBiologische
Systeme
Datenbanken
Data MiningOntologienNormalisierung &Vergleichbarkeit
http://www-ps.informatik.uni-tuebingen.de/mayday