126
UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE HEILBRONN DIPLOMARBEIT ERKENNUNG VON PROMOTOREN IN PRO- UND EUKARYONTISCHEN DNA-SEQUENZEN DURCH KÜNSTLICHE NEURONALE NETZE Martin Reese angefertigt am Deutschen Krebsforschungszentrum Heidelberg Abteilung Molekulare Biophysik Referent: Priv. Doz. Dr. Suhai Korreferent: Prof. Dr. Schlegel Betreuer: Dipl. Inform. Martin Reczko 30.4.1994

UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

UNIVERSITÄT HEIDELBERG

FACHHOCHSCHULE

HEILBRONN

DIPLOMARBEITERKENNUNG VON PROMOTOREN IN

PRO- UND EUKARYONTISCHEN

DNA-SEQUENZEN DURCH

KÜNSTLICHE NEURONALE NETZE

Martin Reese

angefertigt am Deutschen Krebsforschungszentrum Heidelberg

Abteilung Molekulare Biophysik

Referent: Priv. Doz. Dr. Suhai

Korreferent: Prof. Dr. Schlegel

Betreuer: Dipl. Inform. Martin Reczko

30.4.1994

Page 2: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Felix qui potuit rerum cognoscere causas.

VERGIL, GEORGICA 2, 490

Page 3: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Abstract

Eine spezielle Neuronale-Netzwerk-Architektur wird benutzt, um Promotoren sowohlauf prokaryontischen als auch eukaryontischen Genomen mit einer hohen Genauigkeitvorherzusagen. Diese spezielle Art Neuronaler Netze, time-delay-Neuronale Netze, be-rücksichtigt in den sogenannten linked receptive fields die Geometrie der gesamtenPromotorregion, zum Beispiel die bekannten Signalboxen wie die "-10"-Box bei pro-karyontischen Promotoren oder die "TATA"-Box bei Eukaryonten. Diese NeuronalenNetze bilden den physikalischen Bindungprozeß durch die Architektur des Netzes nach.Durch die Analyse der Gewichtsmatrizen dieser time-delay-Netze kann man sowohlwichtige Informationen über die Struktur einer Promotorregion bekommen als auch dieVorhersagegenauigkeit verbessern. Das mit den prokaryontischen Promotorsequenzentrainierte Neuronale Netz sagt alle sechs bekannten Promotoren auf dem gesamtenGenom des Plasmids pBR322, die für das Netz unbekannt sind, mit einer falsch positivenErkennungsrate von 0,15% vorher. Das mit eukaryontischen Mustersequenzen trainierteNetz erreicht auf dem strukturell komplexeren adenovirus type 2-Genom eine korrektpositive Vorhersagegenauigkeit von ebenfalls 100% bei 2,5% falsch positiverKlassifikation. Resultate auf größeren Testmengen, die mehrere positive Promotorbei-spiele von DNA-Sequenzen enthalten, erzielen eine Vorhersagegenauigkeit für die pro-karyontischen Promotoren von bis zu 88% und für die eukaryontischen Promotoren von55,12% bei einer falsch positiven Klassifikation von weniger als 1%. Die Korrelationbeträgt bei Prokaryonten 0,82 sowie 0,66 bei Eukaryonten.

Page 4: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Inhaltsangabe 4

Inhaltsangabe

Inhaltsangabe........................................................................................ 4

1 Einleitung .......................................................................................... 7

2 Molekularbiologische Grundlagen...................................................... 10

2.1 Die Einordnung des Transkriptionsprozesses in dasbiologische Umfeld ..................................................................... 11

2.1.1 Einteilung in Prokaryonten und Eukaryonten .......................... 11

2.1.2 Die Speicherung der genetischen Information.......................... 12

2.1.3 Der Fluß der genetischen Information ..................................... 13

2.2 Der Transkriptionsprozeß - Synthese der RNA ..................... 14

2.2.1 Die Bedeutung des Transkriptionsprozesses............................ 14

2.2.2 Der Transkriptionsprozeß bei Prokaryonten............................ 14

2.6.2 Der Transkriptionsprozeß bei Eukaryonten ............................. 19

3 Methoden .......................................................................................... 24

3.1 Allgemeine Vorüberlegungen zur DNA-Analyse ................... 24

3.1.1 Musterabgleich-Methode ........................................................ 25

3.1.2 Statistische und mathematische Methoden............................... 25

3.1.3 Neuronale Netze-Methode...................................................... 26

3.2 Neuronale Netze ................................................................... 26

3.2.1 Was sind Neuronale Netze? .................................................... 28

3.2.2 Die Entwicklung Neuronaler Netzwerkmodelle....................... 31

3.2.3 Beschreibung Neuronaler Netze.............................................. 32

Page 5: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Inhaltsangabe 5

3.3 Transformation der Struktur eines Promotors in dieArchitektur eines physikalischen Neuronalen Netzes (Beispiel:der prokaryontische Promotor).................................................... 43

4 Erkennung prokaryontischer Promotoren ........................................... 48

4.1 Existierende Methoden.......................................................... 48

4.1.1 Statistische Methoden............................................................. 48

4.1.2 Neuronale Netze-Methoden.................................................... 49

4.2 Daten .................................................................................... 52

4.2.1 Promotoren ............................................................................ 52

4.2.2 Die Zusammensetzung der Trainings- und Testmenge ............. 54

4.2.3 Die Originalgenome pBR322 und phage fd als weitereTestmengen..................................................................................... 59

4.2.4 Datenrepräsentation................................................................ 61

4.3 Training ................................................................................ 61

4.3.1 Messung der Qualität eines trainierten Neuronalen Netzesals Vorhersagesystem ...................................................................... 61

4.3.2 Determinierung von Parametern während des Trainings .......... 62

4.4 Ergebnisse der prokaryontischen Promotorvorhersage........... 63

4.4.1 Variationen der Trainingsmenge.............................................. 63

4.4.2 Codierung............................................................................... 68

4.4.3 Topologie............................................................................... 70

4.4.4 Schwellenwerte bei den drei Testmengen ................................ 77

4.4.5 Biologische Erkenntnisse ........................................................ 78

4.4.6 Vergleiche mit anderen Ergebnissen........................................ 83

4.5 Diskussion der prokaryontischen Promotorvorhersage........... 88

5 Erkennung eukaryontischer Promotoren ............................................. 90

Page 6: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Inhaltsangabe 6

5.1 Existierende Methoden.......................................................... 90

5.3 Daten .................................................................................... 92

5.2.1 Promotoren ............................................................................ 92

5.2.2 Zusammensetzung der Trainings- und Testmenge ................... 96

5.2.2 Die Originalgenome adenovirus type 2 und herpes symplexvirus-1 als weitere Testmengen........................................................ 100

5.3 Modell des eukaryontischen Promotors ................................. 100

5.5 Ergebnisse der eukaryontischen Promotorvorhersage ............ 103

5.5.1 "TATA"-Box-Modellierung.................................................... 103

5.5.2 Initiator-Modellierung ............................................................ 106

5.5.3 Kombination aus "TATA"-Box und initiator........................... 106

5.5.4 Schwellenwerte ...................................................................... 109

5.5.5 Biologische Erkenntnisse ........................................................ 110

5.5.6 Vergleiche mit anderen Ergebnissen........................................ 117

5.6 Diskussion der eukaryontischen Promotorvorhersage ............ 118

6 Diskussion und Ausblick.................................................................... 120

7 Literaturverzeichnis ........................................................................... 122

Page 7: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 1 Einleitung 7

1 Einleitung

Betrachtet man die wissenschaftliche Arbeit der letzten Jahrzehnte, so fällt auf, daßimmer mehr Fortschritte durch fachübergreifende Zusammenarbeit erzielt werden. Immerhäufiger versuchen Wissenschaftler "über den eigenen Tellerrand hinauszuschauen", umaus anderen Wissenschaftszweigen Erkenntnisse für ihre eigene Forschung zu gewinnen.Ein Beispiel dafür stellen auch die verschiedenartigsten Zusammensetzungen der in derGrundlagenforschung etablierten Gruppen dar. Hier arbeiten Wissenschaftler mit sehr un-terschiedlichen Qualifikationen, wie Physiker, Chemiker, Biologen, Mediziner, Ma-thematiker und neuerdings auch Informatiker zusammen, um die Effizienz ihrer For-schung zu erhöhen. Dadurch sind neue Disziplinen wie Biochemie, Biocomputing,Biophysik oder Medizinische Informatik entstanden. Trotz erster Erfolge ist in diesenjungen Forschungszweigen noch allerhand Grundlagenforschung zu leisten, was be-kanntermaßen in der Physik oder Chemie Jahrhunderte gedauert hat.

Diese Entwicklung wird auch durch das Beispiel der Informatik verdeutlicht. Währendlange Zeit Computer hauptsächlich als Hilfsmittel für die Informationsverarbeitungeingesetzt wurden, ist es durch grundlagenorientierte Forschung möglich geworden,durch Computer Probleme auch induktiv zu lösen.

Dabei wird ein Schwerpunkt in der Analyse natürlicher Phänomene, wie z. B. die Funkti-onsweise des menschlichen Gehirns, die Bedeutung der Proteine als "Moleküle desLebens", oder die Genetik, liegen. Ein gutes Beispiel für den interdiziplinären Charakterder Informatik bei der Analyse von Naturphänomenen stellt der Einsatz von Methodender Informationsverarbeitung in der Krebsforschung dar [1]. Hier scheint die Untersu-chung dieser komplizierten Naturprozesse wohl nur unter Zuhilfenahme von Modellenmit ähnlicher Komplexität erreicht werden zu können. Zum jetzigen Zeitpunkt ist in denmeisten Fällen eine analytische Konstruktion vereinfachender Modelle für diese Phäno-mene noch nicht möglich.

Eine Alternative besteht in der induktiven Erstellung komplexer Lösungskonstruktedurch selbständig lernende Maschinen. Einen vielversprechenden Ansatz stellen hier dieKünstlichen Neuronalen Netze dar, mit denen das Verhalten und die Eigenschaftenkomplizierter Prozesse studiert werden, bei denen mit klassischen Modellen bisher keinebefriedigenden Ergebnisse erzielt werden konnten.

Künstliche Neuronale Netze besitzen außerdem die günstige Eigenschaft, aufgrund ihrerSpeicherungsform von "Wissen" in der Verbindungsstruktur eines Netzes automatischDaten adaptieren zu können und dabei noch eine einfache Parallelisierung der Verarbei-tungsschritte zu erlauben, um effektiv auf parallelen Supercomputern einsetzbar zu sein.

In den letzten Jahren haben sich die Künstlichen Neuronalen Netze als sehr nützlich fürdie Klassifizierung von Daten in der biologischen Wissenschaft erwiesen. Molekularbio-logische Anwendungen, wie z. B. die Einteilung der Proteine in Faltungsklassen [2], dieUnterscheidung zwischen den Sekundärstrukturen α-Helices und β-Faltblättern anhandvon Proteinsequenzen [3-6], oder die Unterscheidung zwischen splice sites/ no splice

Page 8: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 1 Einleitung 8

sites auf DNA-Sequenzen [7], seien hier beispielhaft erwähnt. Dabei hat sich der EinsatzNeuronaler Netze in der Genomforschung als sehr vielversprechend erwiesen [8].

In diesem Rahmen kann die vorliegende Diplomarbeit, die im Studiengang MedizinischeInformatik vergeben und in der Abteilung für Molekulare Biophysik des DeutschenKrebsforschungszentrums angefertigt auch als Beispiel interdiziplinärer wissenschaftli-cher Tätigkeit angesehen werden.

Diese Arbeit soll die Anwendungsmöglichkeiten von Neuronalen Netzen im Bereich derDNA-Sequenzanalyse und hier im speziellen der Promotorerkennung sowohl auf pro- alsauch auf eukaryontischen DNA-Sequenzen aufzeigen.

Die DNA-Sequenzanalyse ist ein wichtiger Teilbereich der Molekularbiologie. Dieexistierenden Sequenzdatenbanken, die aufgrund der vielen biologischen Experimenteimmer umfangreicher werden [9], erfordern den Einsatz neuerer und besserer automati-scher Verarbeitungsmethoden, die der Datenmenge Rechnung tragen. Die meistenMethoden werden bisher eingesetzt, um geeignete Prozeduren für die Suche und Vorher-sage funktionaler und struktureller Motive in der DNA zu entwickeln. Diese Motivehaben eine klare biologische Bedeutung. Die am besten untersuchten Motive auf derDNA sind dabei die Bindungsstellen.

Dabei nehmen die Transkriptionsinitiationsstellen in DNA-Sequenzen, die im Mittelpunktdieser Arbeit stehen, einen besonderen Platz ein, da die Transkriptionsinitiation einwichtiger Vorgang ist, mit der die Genexpression reguliert und gesteuert wird. DasVerständnis der Genexpression ist ein wesentliches Ziel der Molekularbiologie. Um dieFunktionsweise der Genexpression und der DNA-Sequenz besser verstehen zu können,ist es wichtig, mehrere verschiedene Strategien zu entwickeln, die auf die unterschiedli-chen Fragestellungen optimiert sind.

Um die Transkriptionsinitiation angemessen zu modellieren, müssen die relevantenbiologischen Prozesse genauer berücksichtigt werden. Nach der Einleitung folgt dahereine knappe Übersicht über die molekularbiologischen Vorgänge.

Die vielversprechendsten Entwicklungen in der Forschung mit Neuronalen Netzen sinddabei modulare Netzwerkarchitekturen, die versuchen, "problemorientierte" Verbindung-stopologien, wie z. B. die linked rezeptiven Felder bei time-delay neural networks, auf-zubauen. Um das Verständnis zu erleichtern, gibt Kapitel 3 eine allgemeine Einführung indie benutzten Methoden der DNA-Analyse, bei der die als Methoden der KünstlichenIntelligenz einzuordnenden Neuronalen Netze detailliert vorgestellt werden. Unteranderem wird auf die benutzten Netzarten, die time-delay-Neuronalen Netze, nähereingegangen.

Auf dieser Grundlage wird am Schluß von Kapitel 3 die Möglichkeit demonstriert, einmodulares, physikalisches Neuronales Netz zu konstruieren, daß den Polymerasebin-dungsprozeß simuliert, indem die Geometrie oder Struktur des prokaryontischen Promo-tors beispielhaft in die Architektur des Netzes transformiert wird.

Danach werden mit einem physikalischen Neuronalen Netz separate Untersuchungen fürprokaryontische (Kapitel 4) und eukaryontische (Kapitel 5) Transkriptionsstellen durch-geführt, wobei das Modell für die prokaryontischen Promotoren sehr detailliert ist, dadiese Promotoren am besten untersucht sind. Für die eukaryontischen Promotoren sollen

Page 9: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 1 Einleitung 9

die Analysen als eine Art Einführung dienen, die zu zeigen versuchen, ob sich diesephysikalischen Neuronalen Netze auch zur Erkennung für die komplexeren Strukturendieser Promotoren und deren Modellierung eignen.

Zu Beginn der Kapitel werden zunächst kurze Übersichten über die Methoden und dieErgebnisse bereits existierender Arbeiten gegeben. Anschließend wird erläutert, wie dieAuswahl des Datenmaterials aus gegebenen genetischen Datenbanken erfolgt und diesesgeeignet vorverarbeitet wird. Um die Effizienz der trainierten Neuronalen Netze zudemonstrieren, werden die extrahierten Sequenzen von bekannten Promotorsequenzen ineine getrennte Trainings- und Testmenge aufgeteilt.

In Kapitel 5 folgt nach der Darstellung des Datenmaterials die Beschreibung der Trans-formation des prokaryontischen, physikalischen Modells auf die eukaryontische Promo-torstruktur.

Durch überwachtes Training werden verschiedene Neuronale Netze mit den Datensystematisch adaptiert und validiert, wobei die Zusammensetzung der benutzten Datenund die Topologien der Neuronalen Netze variiert werden. Bei der Optimierung derVorhersagegenauigkeit dieser Netze soll jeweils eine für die großen Datenmengen in derGenomforschung angepaßte geringe Zahl von falsch positiven Klassifikationen von unter1% angestrebt werden.

Neben der automatischen Klassifizierung von DNA-Mustern, die biologische Experi-mente unterstützen soll, besteht ein weiteres Ziel dieses analytischen Ansatzes darin, Pa-rameter zu bestimmen, die der besseren Beschreibung und einem besseren Verständnisbiologischer Vorgänge dienen können. Solche Ergebnisse, die für weitere biologischeUntersuchungen nützlich sein können, werden in jedem Kapitel zu Beginn der Ergebnis-diskussion aufgeführt (Kapitel 4.4.5 und 5.5.5).

Die Vorhersagegenauigkeit des physikalischen Netzes wird dann mit der von existieren-den sowohl statistischen als auch Neuronale Netze Methoden verglichen, wobei dieVerbesserung der Vorhersage durch die Verwendung dieser speziellen physikalischenStruktur aufgezeigt wird.

Für eine objektive Evaluierung wird das Neuronale Netz dazu benutzt, eine Vorhersagefür jede Position in einem ganzen Genom durchzuführen. Die benutzten Genome sind beider prokaryontischen Promotorvorhersage der Plasmid-Vektor pBR322 und der Phage fdund bei der eukaryontischen Vorhersage der adenovirus type 2 und der herpes symplexvirus-1.

Die spezifischen Erkenntnisse und Ergebnisse sowohl für die pro- als auch eukaryonti-sche Promotorvorhersage werden in den jeweils letzten Abschnitten der Kapitel 4 und 5diskutiert und beurteilt.

In Kapitel 6 erfolgt nach einer kurzen Zusammenfassung der zentralen Ergebnisse eineabschließende Diskussion, bei der auch ein Ausblick auf weitere Anwendungen Neuro-naler Netze in der Genomforschung gegeben wird.

Page 10: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 2 Molekularbiologische Grundlagen 10

2 Molekularbiologische Grundlagen

Die Molekularbiologie befaßt sich mit der Untersuchung der molekularen Grundlagendes Lebens. Dieser Forschungszweig liefert heute einen großen Beitrag für ein besseresVerständnis des Phänomens Leben. Die Erkenntnisse der Molekularbiologie zeigen, daßdie Grundlagen des Lebens im molekularen Bereich liegen [10-13].

Die Entwicklung der Molekularbiologie hat dazu geführt, daß heute die chemischenGrundlagen vieler zentraler Lebensvorgänge bekannt sind.

Die Entdeckung der Doppelhelixstruktur der Desoxyribonucleinsäure (DNA) [14], dieAufklärung des Informationsflusses vom Gen zum Protein, die Struktur- und Funktions-aufklärung einiger Proteinmoleküle sowie die Erforschung der DNA-Rekombinations-technik seien hier als wesentliche Punkte genannt. All diese Entdeckungen haben gezeigt,daß den unterschiedlichsten Ausdrucksformen des Lebens stets gemeinsame molekulareMuster und Prinzipien zu Grunde liegen. Sowohl Bakterien, wie z. B. Escherichia coli,als auch Menschen benutzen die gleichen molekularen Bausteine zur Herstellung vonMakromolekülen. Auch der genetische Informationsfluß von der DNA über die RNA zuden Proteinen ist im wesentlichen allen Lebewesen gemeinsam. Dieser Umstand hat dazugeführt, daß man zur Aufklärung eines molekularbiologischen Problems erst mitUntersuchungen an einfacheren Organismen begonnen hat und später zu komplexerenOrganismen, wie z. B. dem Menschen, übergegangen ist. Diese gängige Vorgehensweiseist auch in dieser Arbeit gewählt worden, indem erst DNA-Sequenzen von Zellen ohneZellkern (prokaryontische Zellen) und anschließend von Zellen mit Zellkern(eukaryontische Zellen) untersucht werden.

Neben diesen Verständnisfragen erlaubt es die Molekularbiologie mit Hilfe ihrer lei-stungsfähigen biochemischen Werkzeugen (z. B. Rekombination) in zunehmendemMaße, fundamentale Probleme der Medizin anzugehen und diese zu beeinflussen, indemversucht wird, in die natürlichen molekularen Vorgänge einzugreifen.

Um die vorliegende Arbeit richtig einordnen und ihre Aufgabenstellung besser verstehenzu können, sollen die molekularbiologischen Abläufe sowohl in einer pro- als aucheukaryontischen Zelle erläutert werden. In beiden Fällen spielen die Transkription unddie Promotoren eine wichtige Rolle.

Wie wir heute wissen, sind alle Lebewesen - Bakterien, Pflanzen, Tiere und Menschen -aus einfachen chemischen Verbindungen aufgebaut, die aber als Ganzes ein komplexesGebilde darstellen.

Die für lebende Systeme charakteristische Klasse organisch-chemischer Verbindungen istdie Gruppe der Aminosäuren. Bei Lebewesen kommen zwanzig verschiedene Amino-säuren besonders häufig vor. Sie sind in wechselnder Anzahl und in unterschiedlichenKombinationen zu langen Ketten verknüpft. Diese Ketten nennt man Proteine(griechisch: proteios = "erstrangig"). Proteine spielen in nahezu allen biologischenProzessen eine entscheidende Rolle. Ihre Bedeutung und die bemerkenswerte Bandbreiteihrer Aktivität zeigt schon eine Aufzählung ihrer Funktionen:

Page 11: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 2 Molekularbiologische Grundlagen 11

- enzymatischer Katalysator bei den meisten im Körper vorkommenden chemischenReaktionen

- Transport und Speicherung chemischer Stoffe

- Koordination der Bewegung (sowohl mikroskopisch als auch makroskopisch)

- Mechanische Stützfunktion des Gewebes

- Immunabwehr

- Erzeugung und Übertragung von Nervenimpulsen

- Kontrolle von Wachstum und Differenzierung.

Die Struktur von Proteinen mit gleicher Funktion ist bei Individuen derselben Art annä-hernd konstant. Während der Evolution hat sich für jede biologische Spezies ein spezifi-scher und optimaler Satz von Proteinen entwickelt. Der Bauplan für die Struktur jedeseinzelnen Proteins wird von einer Generation zur nächsten genetisch weitergegeben.Dieser Bauplan liegt in der DNA verschlüsselt vor. Der genetische Code beschreibt denZusammenhang zwischen den Nucleotiden der DNA und den Aminosäuren, die wieder-um als Strukturuntereinheiten der Proteine die Information für den Bau der Proteinetragen. Die exakte Aufklärung dieses Informationsflusses von der DNA zu den Struktu-ren der Proteine ist ein zentrales Thema der Molekularbiologie. Ein Teilschritt diesesInformationswegs, die Erkennung der Transkriptionsstelle (Promoter) von der DNA zurRNA, soll in dieser Arbeit untersucht werden.

2.1 Die Einordnung des Transkriptionsprozesses in das biologi-sche Umfeld

In diesem Kapitel werden zu Erleichterung des Verständnis des Transkriptionsprozessesdie molekularbiologischen Grundlagen vorgestellt.

2.1.1 Einteilung in Prokaryonten und Eukaryonten

Vergleicht man tierische Zellen mit pflanzlichen Zellen, so werden eine Reihe vonGemeinsamkeiten, aber auch eine Reihe von Unterschieden deutlich. DieseEigenarten haben zu einer Einteilung der zellulären Lebewesen in Prokaryontenund Eukaryonten geführt. Prokaryonten sind alle Bakterien (z. B. Escherichiacoli (E.coli)) und Eukaryonten alle Spezies des Pflanzen- und Tierreichs sowieProtisten und Pilze. Die beiden wichtigsten Unterschiede sind:

Page 12: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 2 Molekularbiologische Grundlagen 12

1. Vorkommen der DNA: Bei Prokaryonten existiert die DNA als freies, nichtvon Proteinen bedecktes Molekül, während sie bei Eukaryonten in Form vonChromosomen existiert, d. h. als Komplex von DNA und basischen Proteinen(Histonen).

2. Lokalisation der DNA: Bei Prokaryonten ist die DNA ein dichtes Knäuel imZytoplasma, während sie sich bei Eukaryonten in dem von einer festen Membranumschlossenen Zellkern befindet.

Die DNA eines Bakteriums braucht nicht die gleiche Fülle an Information zu ent-halten, wie zum Beispiel eine menschliche DNA, was sich in der Komplexität desDNA-Codes niederschlägt. Eine höhere Komplexität besitzen auch signifikanteMerkmale und Muster funktioneller Einheiten, wie z. B. DNA-Bindungsstellen,wodurch deren Abgrenzung und Entdeckung erschwert wird. Ein weiterer Unter-schied besteht in der Länge der DNA, die ebenfalls stark in den Zellen von Pro-und Eukaryonten differiert. Die DNA des Bakteriums E.coli ist z. B. vier Millio-nen Basenpaaren (bp) lang, während die menschliche DNA eine Länge von 2.900Millionen Basenpaare aufweist. Die Länge einer DNA ist allerdings kein exaktesMaß für ihre Komplexität. Ein Paradebeispiel für diese These erhält man, wennman die DNA einer Seerose mit der eines Menschen vergleicht. Die DNA einerSeerose ist 1.000mal länger als die eines Menschen, obwohl der Organismus desMenschen viel komplexer ist. In dieser Arbeit werden sowohl prokaryontische alsauch eukaryontische DNA-Sequenzen untersucht.

2.1.2 Die Speicherung der genetischen Information

Die Grundbausteine lebender Organismen sind die Zellen. Der Zellkern bei Eu-karyonten ist der Aufbewahrungsort für die genetische Information. Er bestehtaus einem dichtgepackten Knäuel von Desoxyribonucleinsäure- und Proteinfäden(kurz: DNA), das insgesamt Chromatin genannt wird. Bei der Zellteilung gehenaus den Chromatinfäden die Chromosomen hervor.

Die DNA ist ein sehr langes, fadenförmiges Makromolekül aus zahlreichenDesoxyribonucleotiden, die jeweils aus einer Base, einem Zucker und einerPhosphatgruppe bestehen [15]. Die Basen der DNA tragen die genetische Infor-mation, während Phosphat- und Zuckergruppe strukturelle Aufgaben erfüllen. Inder DNA kommen jeweils zwei Purinbasen, Adenin (A) und Guanin (G), undzwei Pyrimidinbasen, Thymin (T) und Cytosin (C), vor.

Wie James Watson und Francis Crick 1953 zeigen konnten [14], sind die Nucleo-tide zu langen, unverzweigten Ketten verknüpft und formen eine Doppelhelix.Die zwei Stränge dieser Doppelhelix verlaufen in gegensätzlicher Richtung undsind durch komplementäre Nucleotide (G-C, A-T) zueinander gepaart. Die Auf-klärung der dreidimensionalen Struktur der DNA und der daraus unmittelbar ab-geleitete Mechanismus ihrer Replikation zählen zu den herausragenden Leistun-gen in der Geschichte der Biologie, weil sie von entscheidender Bedeutung fürdas Verständnis der Genfunktion auf molekularer Ebene waren.

Page 13: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 2 Molekularbiologische Grundlagen 13

Jede Zelle eines Organismus enthält in ihrem Zellkern die gesamte genetische In-formation für den Organismus.

2.1.3 Der Fluß der genetischen Information

Im folgenden soll die Weitergabe der genetischen Information erläutert werden.

Als Gen definiert man denjenigen Bereich der DNA, der für den Bau eines be-stimmten Proteins benötigt wird. Somit bestimmen die Gene, welche Arten vonProteinen in einer Zelle gebaut werden. Der genetische Informationsfluß geht je-doch nicht direkt von der DNA zu den Proteinen, sondern über die Ribonuclein-säure-Moleküle (RNA-Moleküle) als "Boten". Die RNAs sind ebenfalls unver-zweigte Ketten von Nucleotiden. Der Unterschied zu der DNA besteht darin, daßdie RNA als Zuckerbestandteil Ribose (statt Desoxyribose) und als PyrimidinbaseUracil (statt Thymin) enthält. Ihre Aufgabe besteht also darin, die genetische In-formation der DNA abzuschreiben, wobei das Enzym RNA-Polymerase als Kata-lysator wirkt, sie zu den Ribosomen zu transportieren, an denen die Proteinsyn-these abläuft, und die dort synthetisierten Proteinmoleküle zu codieren.

Den Prozeß der Synthese der RNA aus der DNA nennt man Transkription undden Codierungsprozeß der Proteine von der RNA heißt Translation. Der normaleInformationsfluß, der lange Zeit als der einzig mögliche Weg angesehen wurde,sieht also wie folgt aus:

DNA RNA Protein

Transkription Translation

Wie codiert nun aber die in der Reihenfolge der Basen liegende genetische Infor-mation der DNA ein Protein? Die oben erwähnte Zusammensetzung der Proteineaus Aminosäuren würde die Frage beantworten, fände man eine Beziehung zwi-schen der Basensequenz der DNA und der Aminosäuresequenz der Proteine.Diese Beziehung führt zum Genetischen Code. Er ist nahezu für alle Organismenidentisch und von großer Einfachheit.

Den zwanzig Aminosäuren, aus denen ein Protein besteht, stehen nur vier Basen-bauelemente gegenüber. Daraus folgt, daß ein einzelnes Nucleotid allein eineAminosäure im Protein nicht codieren kann. Nur eine Sequenz aus drei Nucleoti-den, ein sogenanntes Codon, spezifiziert eine Aminosäure. Wie man sehen kann,lassen sich mit vier Bauelementen 4 643 = mögliche Dreierkombinationen bilden.

Somit stehen 20 Aminosäuren ein Code mit 64 Ausprägungen gegenüber, was zuRedundanzen in der Codierung führt. Diese Redundanzen hat man genau ent-schlüsselt und darüber hinaus weitere spezifische Codons gefunden, die als solchekeine Aminosäure codieren, allerdings andere zentrale Aufgaben bei derTranskription erfüllen (z. B. Stopsignal der Transkription). In der Regelmäßig-keit, mit der ein Codon immer ein und dieselbe Aminosäure codiert, zeigt sich die

Page 14: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 2 Molekularbiologische Grundlagen 14

Großartigkeit der Natur. Die genaue Zugehörigkeit der Codons zu den Ami-nosäuren ist in der Code-Wort-Tabelle dokumentiert.

2.2 Der Transkriptionsprozeß - Synthese der RNA

Dieser Abschnitt stellt die große Bedeutung des Transkriptionsprozesses in der gesamtenGenomforschung heraus. Um ein besseres Verständnis der mit Neuronalen Netzenkonstruierten Modelle zu ermöglichen, werden anschließend die beiden Transkriptions-vorgänge bei Prokaryonten und Eukaryonten beschrieben, die sich zwar ähneln, aber inentscheidenden Punkten klare Unterschiede aufweisen.

2.2.1 Die Bedeutung des Transkriptionsprozesses

Um die Bedeutung des Transkriptionsprozesses und dessen korrekter Initiationdeutlich werden zu lassen, soll an dieser Stelle auf die Probleme der DNA-Deco-dierung eingegangen werden.

Die genetische Information für alle Proteine eines Individuums liegt als Ganzesauf der DNA. Die Gene, jedes einzelne Ursprung für ein bestimmtes Protein, be-finden sich ungeordnet auf der DNA. Die Initiation der Transkription, d. h. dieErkennung des Starts eines Gens, ist somit von großer biologischer Bedeutung,da die RNA-Synthese nicht irgendwo auf der DNA, sondern unmittelbar vor denGenen beginnen sollte. Daraus ergeben sich folgende zentrale Fragen: Wie voll-zieht sich die Lageerkennung der Gene? Wann werden welche Gene exprimiert?Wie hoch ist die Expressionshäufigkeit einzelner Gene? Wer steuert die Genex-pression? Diese Fragen sind besonders entscheidend für die weitere Genomfor-schung, weil mögliche Antworten direkten Einfluß z. B. auf die Gentherapie hät-ten. Die Expression eines bestimmten Gens mit negativen Auswirkungen auf denOrganismus könnte durch äußere Eingriffe eingedämmt werden. Ein Beispiel fürsolch ein für den Organismus schadhaftes Gen ist das tat-Gen des HIV-Virus, dasnach der Translation als Regulatorprotein (Tat) die Transkription des Provirusdurch die RNA-Polymerase II um das 1.000fache beschleunigt und somit dieAusbreitung des Virus erheblich vorantreibt. Künstlich hergestellte Wirkstoffe,welche die Funktion von Tat oder noch besser die Expression des Gens tat zumProtein Tat hemmen, könnten in der AIDS-Therapie erfolgreich sein. Dieses Bei-spiel zeigt sehr gut, wie wichtig somit die weitere Erforschung des Transkripti-onsprozesses ist.

2.2.2 Der Transkriptionsprozeß bei Prokaryonten

Das entscheidende Enzym bei der Transkription ist wie oben erwähnt die RNA-Polymerase. Sie ist bei Prokaryonten ein sehr großes und komplexes System aus

Page 15: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 2 Molekularbiologische Grundlagen 15

vier Arten von Proteinuntereinheiten. Das Holoenzym, wie man das gesamte En-zym bezeichnet, hat eine Untereinheitstruktur von α ββ σ2 ′ . Wie man heutzutageweiß, findet die σ-Untereinheit dort eine Promotorstelle, wo die Transkriptionbeginnt. Wie dieser Erkennungsprozeß im einzelnen abläuft und woran die σ-Un-tereinheit die Promotorstelle erkennt, ist allerdings noch ungeklärt. Das restlicheEnzym, also α ββ2 ′, wird als Core-Enzym bezeichnet und enthält das katalytischeZentrum. Die Synthese der RNA läuft wie bei fast allen biochemischen Po-lymerisationsreaktionen in drei Schritten ab: Initiation, Elongation und Termi-nation.

Die Funktionen der RNA-Polymerase können so zusammengefaßt werden:

1. Absuchen der DNA nach Promotorstellen;

2. Entwinden der doppelhelikalen DNA (jeweils immer ca. 17 bp), um ineiner sogenannten Transkriptionsblase eine Matrize einzelsträngiger DNAherzustellen;

3. Bindung an die DNA-Matrize durch Phosphordiesterbindung;

4. Suche der zu der DNA-Matrize passenden RNA-Nucleotide und Bildungdes RNA-Einzelstranges;

5. Elongation der Polymerase an der DNA-Matrize, da die gesamte Trans-kription durch nur ein Polymeraseenzym katalysiert wird;

6. Erneute Windung der DNA-Doppelhelix;

7. Erkennung des Terminationssignals für die Transkription;

8. Wechselwirkungen zu Aktivator- und Repressorproteinen, die die Ge-schwindigkeit der Transkription steuern.

Da sich die vorliegende Arbeit mit der Erkennung von Promotoren beschäftigtund versucht, die Funktion und die Vorgehensweise der Untereinheit σ zu mo-dellieren, soll auf die Initiation näher eingegangen werden.

Die Transkription beginnt an Promotoren auf der DNA-Matrize. Als Promotorbezeichnet man die Signalsequenz vor einem Gen, die die Transkription durch dieRNA einleitet. Das erste Nucleotid (der Startpunkt; transcription initiation site)einer DNA-Sequenz, die als Matrize den RNA-Strang codiert, wird mit +1, daszweite mit +2 und das Nucleotid vor dem Startpunkt, also "stromaufwärts"(upstream), mit -1 bezeichnet. Durch biologische Experimente, bei denen mantranskribierte RNA mit der als Matrize dienenden DNA verglichen hat, konntenPromotoren auf einfache Weise bestimmt werden.

Die Sequenzen vieler prokaryontischer Promotoren zeigen ein auffälliges Muster:"Stromaufwärts" vom Startpunkt (auch 5'-Seite genannt) treten zwei immer wie-derkehrende Motive auf. Sie werden als "-10-Box" (Pribnow-Box) und als "-35-Box" bezeichnet, da sich ihre Zentren etwa 10 bzw. 35 bp stromaufwärts desStartpunktes befinden (siehe Abbildung 2.1). Jede dieser Sequenzen ist etwa 6 bplang. Durch statistische Vergleiche existierender Promotoren haben sich folgendeConsensus-Sequenzen ergeben: "TTGACA" für die "-35-Box" und "TATAAT"

Page 16: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 2 Molekularbiologische Grundlagen 16

für die "-10-Box". Transkriptionsexperimente haben gezeigt, was bei vielenanderen biologischen Prozessen ebenfalls bekannt ist, daß die so wichtigeBeziehung zwischen Struktur und Funktion der DNA für ein besseres Verständnisdes biologischen Transkriptionsprozesses von entscheidender Bedeutung ist.

Ein Ergebnis dieser Experimente war die Aufklärung der Wirksamkeit eines Pro-motors. Man hat herausgefunden, daß starke Promotoren häufig eine Initiationder Transkription hervorrufen, in E.coli z. B. einmal alle zwei Sekunden. Im Ge-gensatz dazu werden Gene mit schwachen Promotoren nur etwa einmal in zehnMinuten transkribiert. Starke Promotoren zeichnen sich dadurch aus, daß sie Se-quenzen in den Signalregionen -10 und -35 besitzen, die weitgehend den Consen-sus-Sequenzen entsprechen. Mutationsexperimente in diesen Consensus-Boxenhaben tatsächlich gezeigt, daß bereits eine Basenmutation in einer Box zu einemVerlust an Promotoraktivität führt. In diesen Box-Consensus-Sequenzen wie-derum ist die Bedeutung der einzelnen Basen nicht gleichverteilt, d. h., bestimmteBasen haben einen stärkeren Einfluß auf die Signalfunktion als andere. Dieseskann sogar soweit führen, daß eine einzige Mutation in einer Promotorbox zumgänzlichen Verlust der Signalfunktion eines Promotor führt. Chemisch betrachtet,zeichnet sich die Stärke eines Promotors in der Stärke der Bindung an die DNA-Matrize aus, was durch eine Bindungskonstante beschrieben werden kann. Jegrößer die Konstante ist, um so häufiger wird ein nachgeschaltetes Gen transkri-biert.

Abgesehen von diesen zwei Consensus-Boxen existiert noch ein weiteres, jedochviel schwächeres Signal, der Transkriptionsstart (+1). Er wird auch häufig alsCAP-Signal bezeichnet, wobei das konservierte Muster homolog zu "CA" ist.Genaue Einzelheiten, z. B. über den Einfluß dieses Signal auf die Transkriptions-rate, sind nicht genau bekannt. Die Kürze des Signals (2 bp) und die fünf ver-schiedenen Abstände des Signals zur "-10-Box" lassen den Schluß zu, daß seineBedeutung nur sehr gering sein kann.

Weiterhin haben Analysen der Promotorregionen [16] gezeigt, daß der relativeAbstand zwischen den beiden konservierten Regionen ebenfalls von besondererBedeutung bei der Initiation ist. Bei allen bekannten Promotoren variiert der Ab-stand (spacer) zwischen diesen Boxen zwischen 15 und 21 bp, was zu einer ent-sprechenden Klasseneinteilung führt (spacing classes). Statistische Analysen ha-ben nachgewiesen, daß eine Trennung der Boxen durch 17 Nucleotide (spacingclass 17) am häufigsten auftritt. Inwieweit die verschiedenen Abstände allerdingsdie Stärke eines Promotors beeinflussen, ist noch weitgehend ungeklärt, dochsprechen erste Ergebnisse dafür, daß die spacing class 17 optimal für die Häufig-keit der Transkription ist. Weitere Regulatorproteine, wie die in verstärkteremMaße bei den Eukaryonten auftreten, binden sich ebenfalls an den DNA-Matri-zenstrang und beeinflussen die Transkriptionsrate. Allerdings sind ihre genauenBindungsstellen noch nicht bekannt.

Wie man erkennt, ist der Transkriptionsprozeß und im speziellen der Initiations-prozeß sehr komplex und durch viele Faktoren beeinflußt, deren genaue Funktio-nen noch nicht vollständig bekannt sind. Aus diesem Grund wird versucht, dieStruktur in einem künstlichen Neuronalem Netz als 1:1-Abbildung darzustellen

Page 17: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 2 Molekularbiologische Grundlagen 17

und aus diesem Schlüsse für das tiefere Verständnis des Initiationsprozesses wäh-rend der Transkription zu ziehen. Darüber hinaus ist die Bedeutung für eine au-tomatische Klassifizierung, die das Neuronale Netz vornehmen soll, von sehrgroßer Bedeutung und würde die Arbeit der Biologen während des Sequenzie-rungsprozesses sehr erleichtern.

Page 18: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 2 Molekularbiologische Grundlagen 18

A G G C A C C C C A G G C T T G A C A C T T T A T G C T T C C G

G C T C G T A T A A T G T G T G G A A T T G T G A G C G G A T A

A C A A T T T C A C A C A G G A A A C A G C T A T G A C C A T G

T C C G T G G G G T C C G A A C T G T G A A A T A C G A A G G C

C G A G C A T A T T A C A C A C C T T A A C A C T C G C C T A T

T G T T A A A G T G T G T C C T T T G T C G A T A C T G G T A C

+1-10

-20-30-40

-1 +10

+20 +30 +40

5'

3'

5'

3'

5'

3'

Erkennungsstelle für RNA -Polymerase

-35 - Box

-10 - Box

DNA

DNA

DNA

ppp A A U U G U G A G C G G A U A RNA

A C A A U U U C A C A C A G G A A A C A G C U A U G A C C A U G RNA

met metthr

Exon

Intron

Intron

Protein:

Abbildung 2.1:

Musternucleotidsequenz eines Promotors: Der erste Kontakt der RNA-Polymera-se mit dem Promotor erfolgt im Bereich "Erkennungsstelle für RNA-Polymera-se". Die "-10-Box" ("TATAAT"-Box) und die "-35-Box" ("TTGACA") sind ein-gerahmt. Der Startpunkt der mRNA-Synthese liegt bei +1. Diesen Bereich, derdas Protein noch nicht direkt codiert, nennt man Intron. Die endgültige Protein-codierung beginnt ca. bei +40, was mit dem Start des Exons gleichbedeutend ist.Drei Nukleotide codieren eine Aminosäure ("AUG" => met).

Page 19: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 2 Molekularbiologische Grundlagen 19

2.6.2 Der Transkriptionsprozeß bei Eukaryonten

Die Transkription bei Eukaryonten ist ein weitaus komplizierterer Prozeß als beiProkaryonten, auch wenn die Grundelemente Initiation, Elongation und Termi-nation bestehen bleiben. Eukaryonten enthalten definitionsgemäß einen von einerMembran umhüllten Zellkern, in dem die Transkription erfolgt. Damit ist dieTranskription räumlich und zeitlich von der Translation, die im Zytoplasma anden Ribosomen erfolgt, getrennt. Diese Trennung ermöglicht den Eukaryonteneine viel kompliziertere Regulation der Genexpression und trägt dadurch zurVielfalt eukaryontischer Formen und Funktionen bei.

Ein zweiter wichtiger Unterschied von Prokaryonten und Eukaryonten bestehtdarin, daß das primäre Transkriptionsprodukt (pre-mRNA) bevor es den Zellkernverläßt, noch mal gespleißt wird. Spleißen bedeutet, daß aus der pre-mRNAdurch Herausschneiden bestimmter nicht direkt codierender Bereiche, den Int-rons, die reife mRNA prozessiert wird. Der gesamte Bereich, der abgeschriebenwird und somit die pre-mRNA codiert, nennt man auch Open Reading Frame(ORF) oder primäres Transkript (in Datenbanken prim_transcript). Das Gegen-stück zu den Introns, jene Teilstücke auf der pre-mRNA, die letztlich die reifeRNA ausmachen und damit später die Proteine direkt codieren, heißen Exons.Durch alternatives Spleißen einiger Primärtranskripte (Beispiel: Formen von An-tikörpermolekülen) vergrößert sich das Repertoire von möglichen Proteinen inEukaryonten. Interessanterweise besitzen einige reife mRNA nur 1/10 der Längeder primären Transkripte.

Während in Prokaryonten die RNA aus der DNA durch eine einzigen Polymerasesynthetisiert wird, enthält der Zellkern in Eukaryonten drei Typen von RNA-Po-lymerasen, die mit Polymerase I bis III bezeichnet werden und sich in bezug aufMatrizenspezifität, Lokalisation und Empfindlichkeit gegenüber Inhibitoren un-terscheiden. Die Vorläufer der mRNA werden durch die Polymerase II gebildet,welche somit die eigentliche Transkription katalysiert.

Wie bei Prokaryonten liegen die eukaryontischen Promotoren, die die Transkrip-tion initiieren sollen, auf der 5'-Seite des Transkriptionsstartpunktes. Auch in denPromotoren von Eukaryonten ist durch statistische Vergleiche bekannter Geneherausgefunden worden, daß bestimmte Teilsequenzen in der Promotorregioneine markante Funktion bei der Initiation haben. Die dem Startpunkt am nächstenliegende Sequenz wird "TATA-Box" genannt, weil ihre Struktur der Consensus-Sequenz "TATA" gleicht (manchmal auch Hogness-Box genannt) [17].

Statistische Analysen mit einer eher kleinen Zahl bekannter eukaryontischer Pro-motoren haben gezeigt [18], daß die "TATA-Box" in Eukaryonten sogar häufigervorzukommen scheint als die "-10-Box" in E.coli-Promotoren, die ebenfalls ein"TATA" ähnliches Muster aufweist ("TATAAT"). Unterschiede zwischen beidenBoxen bestehen darin, daß die eukaryontische "TATA-Box" weiter entfernt vomStartpunkt vorkommt (ca. -25 bis -30 bp upstream vom Transkriptionsstart) undauch der Abstand zwischen "TATA-Box" und Transkriptionsstart in stärkeremMaße variiert als bei Prokaryonten (ca. 10 verschiedene spacings möglich). Ein

Page 20: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 2 Molekularbiologische Grundlagen 20

weiteres Merkmal der "TATA-Box" besteht darin, daß sie von "GC"-reichen Re-gionen umgeben zu sein scheint. Außerdem haben Mutationsversuche gezeigt,daß down-mutations, welche die "TATA-Box" verändern, die Promotoraktivitätvermindern.

Ein weiteres wichtiges Element für die Promotorfunktion ist der Transkriptions-start als solcher, der meistens eine Sequenz homolog zu "CA" aufweist, die alsCAP-Signal bezeichnet wird.

Neben diesen beiden "Boxen", die wegen ihrer fast festen Position den Boxen inprokaryontischen Promotoren ähneln, gibt es noch weitere markante Sequenz-muster, die als Signal für die Initiation der Transkription zu fungieren scheinen.Dieses sind die "CAAT"-Box (auch als "CCAAT"-Box bezeichnet [18]) unddie"GC"-Box. Im Gegensatz zu den beiden bisher beschriebenen Boxen, ist diePosition dieser beiden Boxen viel variabler, und sie können sogar auf dem Ma-trizenstrang vorkommen, was die Funktion nicht beeinträchtigt.

Die Mannigfaltigkeit der stromaufwärts liegenden aktivierenden Sequenzen inEukaryontengenen und die Variabilität ihrer Position lassen vermuten, daß sieeher durch spezifische Proteine erkannt werden als durch eine einzige Polymera-se. Dies ist durch biologische Experimente nachgewiesen. Solch spezifische Pro-teine nennt man Transkriptionsfaktoren (general transcription factors, GTFs),die mit der RNA-Polymerase II einen Transkriptionskomplex zu formen scheinen,der die Transkription initialisiert (Übersichten in [19,20]). Ein Modell diesesKomplexes ist in Abbildung 2.2 gezeigt. Man hat herausgefunden, daß für die Er-kennung der Promotoren diese Transkriptionsfaktoren nötig sind, d. h., diePolymerase II allein kann keinen Transkriptionsstart finden. Bekannt sind siebenverschiedene Transkriptionsfaktorproteine. Sechs von diesen, TFIIB, TFIID,TFIIE, TFIIF, TFIIH und TFIIJ formen den Transkriptionskomplex, wobei nichtimmer alle notwendig sind. Der Transkriptionsfaktor TFIIA besitzt dagegen sti-mulierende Aktivität (Review in [21]). Eine promotorspezifische, nachgewieseneBindung, und zwar mit dem "TATA"-Element, geht nur der TranskriptionsfaktorTFIID ein. Neuere Untersuchungen [22] versuchen zu zeigen, daß der Transkrip-tionsfaktor TFIID für die Transkription essentiell ist, auch wenn keine spezifische"TATA-Box"-Sequenz in der Promotorregion enthalten ist [23]. In diesem Fallscheinen entweder andere Hilfsproteine (activator proteins) den Bindungskom-plex um Position -30 zu stabilisieren oder weitere TBP-associated factors eineBindung zu anderen Transkriptionsfaktoren des Transkriptionskomplexes zu for-cieren [22].

Page 21: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 2 Molekularbiologische Grundlagen 21

Abbildung 2.2:

Die Bildung des Transkriptionskomplexes. (aus: Levin, Gene [12])

Page 22: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 2 Molekularbiologische Grundlagen 22

Die Bildung des Transkriptionskomplexes (manchmal auch pre-initiation com-plex genannt) mit TFIID als wichtigstem Protein scheint den exakten Startpunktder Initiation noch nicht zu markieren. Diese Funktion übernimmt der sogenannteinitiator, für den eine signifikante Consensus-Sequenz gefunden wurde[22,24,25]. Diese Consensus-Sequenz umfaßt acht Basen und enthält als am mei-sten konserviertes Muster das CAP-Signal "CA" an der Stelle +1 für "A". Die an-deren acht Positionen sind durch Kombinationsfunktionen aus den vier Basen be-schrieben (Abbildung 2.3).

Consensus-Sequenz des initiators:

KCABHYBY

Abbildung 2.3:

Sequenz vom 5'- zum 3'-Ende. Der Transkritptionsstart ist unterstrichen. B: C oder Goder T; H: A oder C oder T; K: G oder T; Y: C oder T (aus: Bucher [18]).

Experimentelle Mutationsversuche haben gezeigt, daß die Ähnlichkeit einer mu-tierten initiator-Sequenz zur Consensus-Sequenz mit der Transkriptionsrate kor-reliert (Übersicht in [22]).

Der Transkriptionsvorgang kann zusammenfassend wie folgt beschrieben werden:Zuerst wird der pre-initiation complex geformt. Der Transkriptionsfaktor TFIIDals wichtigster Bestandteil dieses pre-initiation complex bezieht daraufhin diePolymerase II in den Transkriptionskomplex mit ein. Anschließend interagiert derinitiator mit diesem Transkriptionskomplex, wahrscheinlich sogar mit derPolymerase II selbst, und determiniert so den exakten Transkriptionsstartpunkt.Neben diesen Transkriptionsfaktoren, die die Aufgabe haben, die Initiation zulokalisieren (initiation factors), existieren in Eukaryonten noch weitere dieTranskription beeinflussende Sequenzelemente, deren Aufgabe darin besteht, dieTranskriptionsrate zu regulieren (regulatory factors). Diese Sequenzen sindbekannt als enhancer-Sequenzen und upstream elements, die eine Transkriptionan Startpunkten, die Tausende von Basen entfernt liegen, stimulieren.

Im Vergleich dazu scheinen die beschriebenen Signalboxen "TATA-Box" undCAP-Signal oder initiator-Sequenz im Bereich um ca. 100 bp um den Trans-kriptionsstart zu liegen. Die ungefähren Positionen und die relative Lage der Bo-xen werden in Abbildung 2.4 veranschaulicht.

Page 23: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 2 Molekularbiologische Grundlagen 23

Abbildung 2.4:

Die Signalsequenzen, die an der Transkription beteiligt sind. (TE = transcriptionelements; aus: Wasylyk [19])

Zusammenfassend kann festgestellt werden, daß der Mechanismus, der die Trans-kription aktiviert, äußerst komplex und in seinen Einzelheiten noch nicht genaubekannt ist, doch scheint der oben beschriebene Ablauf dem tatsächlichen am ehe-sten zu entsprechen. Anzumerken ist, daß das Modell vor allem des initiators mitErkenntnissen aus nur wenigen Versuchen konstruiert wurde. So existierenandere Arbeiten [26], die die Existenz einer für alle Gene allgemeingültigen in-itiator-Consensus-Sequenz anzweifeln. Ob der initiator nicht nur ein Ersatz füreine fehlende "TATA-Box" ist und auch nur dann eine Funktion besitzt, sind wei-tere vieldiskutierte Fragen.

Page 24: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 3 Methoden 24

3 Methoden

3.1 Allgemeine Vorüberlegungen zur DNA-Analyse

Zu Beginn dieses Kapitel soll versucht werden, durch die Erläuterung existierenderMethoden die Anwendung Neuronaler Netze als Sequenz-Analyse-Methode in dasallgemeine Gebiet der theoretischen Analyse von biologischen Sequenzen einzuordnen.Dabei wird gezielt auf die Methode der Neuronalen Netze eingegangen und eine Einfüh-rung in das Gebiet der Neuronalen Netze als eine Form der Künstlichen Intelligenzgegeben. Am Ende des Kapitel soll gezeigt werden, wie das Modell mit NeuronalenNetze beispielhaft für prokaryontische Promotoren als Abbildung des Transkriptionsvor-gangs konstruiert werden kann.

In der molekulargenetischen Forschung gibt es neben dem Problem der effizientenDatenhaltung (sehr große Datenmengen müssen korrekt gespeichert werden; z. B.Nucleotidsequenzen einzelner Gene) weiterhin das Problem, von der Struktur einerbestimmten Sequenz auf deren Funktion zu schließen. Im allgemeinen untersucht man aufdiese Weise DNA-Sequenzen, die die RNA und anschließend die Aminosäuresequenzcodieren, und Aminosäuresequenzen, die die Proteine codieren.

Hierzu werden Methoden der Mathematik, Statistik und in letzter Zeit verstärkt derInformatik herangezogen. Man versucht Algorithmen zu entwickeln, die anhand derInformation, die in einer eindimensionalen Sequenz "steckt", Aussagen über die Funktionmachen. Zwei Kategorien von Analysen lassen sich unterscheiden:

1. Erkennung von ganz bestimmten Mustern (Beispiele: ein ganz bestimmtes Gen oderein ganz bestimmter Promotor, von denen die exakte DNA-Sequenzen bekannt sind);

2. Erkennung von Teilsequenzen, die eine allgemeinere Bedeutung haben (Beispiele:DNA-Analyse: transkribierend / nicht-transkribierend, Exon / Intron, Promotor / Nicht-Promotor; Proteinanalyse: Sekundärstrukturen, wie α-Helix, β-Faltblatt oder loop).

Die in dieser Arbeit durchgeführten Analysen lassen sich demnach in die zweite Katego-rie einordnen. Erkenntnisse und Ergebnisse sollten deshalb auch leicht auf die anderenFragestellungen der zweiten Kategorie übertragbar und weiterverwendbar sein.

Da sich diese Arbeit nur mit der DNA-Analyse beschäftigt, soll dieser Bereich weiterdis-kutiert werden, auch wenn viele Aussagen über die DNA-Analyse ebenfalls für dieAminosäuresequenzanalyse von Proteinen in bezug auf die sich ausbildende Strukturgelten.

Üblicherweise geht man bei der DNA-Analyse so vor, daß exakt definierte DNA-Berei-che, deren Strukturen bekannt sind, sowohl mathematisch als auch biologisch untersuchtwerden, um mit ihnen Aussagen über sequenzierte DNA-Sequenzen machen zu können.

Page 25: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 3 Methoden 25

Geeignete Verfahren für einen solchen Vergleich zu finden, ist das Ziel vieler For-schungsarbeiten.

Bisherige Ansätze lassen sich grob in drei Arten unterteilen:

1. Musterabgleichmethoden

2. Statistische und mathematische Methoden

3. Neuronale Netze-Methoden

3.1.1 Musterabgleich-Methode

Diese Methode wird hauptsächlich bei Problemen der 1. Kategorie nach obigerEinteilung eingesetzt, wenn exakt definierte Teilsequenzen zu bestimmen sind. Esist also bekannt, welche Aufgabe eine bestimmte Teilsequenz der DNA besitzt (z.B.: Erkennung von bestimmten Enzymen). Diese Teilsequenzen definiert man alsMuster und vergleicht sie automatisch mit neu sequenzierten DNA-Sequenzen,um identische Sequenzen oder Sequenzen mit einer bestimmten Homologie zudiesem Muster zu entdecken. Diese Methode ist sehr effizient, doch sicher nur füreinen kleinen Bereich der Erforschung der DNA einsetzbar, weil nur wenigefunktionelle Bereiche der DNA ausreichend definiert sind. Für unsereProblemstellung ist sie deshalb weniger geeignet.

3.1.2 Statistische und mathematische Methoden

Bei der statistischen Methode wird versucht für jede Basenposition der DNA,Rückschlüsse auf funktionale Bereiche zu ziehen. Dies geschieht auf der Grund-lage statistischer Frequenzmatrizen, die aus vielen bekannten DNA-Sequenzenberechnet werden. Vergleiche der einzelnen Matrizen in bezug auf ihre Positionmachen Aussagen darüber, ob bestimmte Teilsequenzen viel oder wenig Infor-mation enthalten. (Eine annähernde Gleichverteilung der vier verschiedenen Ba-sen in bestimmten Teilbereichen der DNA-Sequenzen impliziert einen geringenInformationsgehalt dieses Bereiches.)

Obwohl diese Verarbeitungsform der DNA für Probleme der 2. Kategorie sicherbesser geeignet ist als die Mustervergleichsmethode, besitzt sie auch Nachteile.Diese bestehen in dem hohen Rechenaufwand für derart umfangreiche Matrizenund in der korrekten Segmentierung der Sequenzen.

Dieses Grundprinzip der Berechnung einer statistischen Frequenzmatrix wird invielen Arbeiten weiter spezifiziert und problemangepaßt verbessert.[18,27,28,29].

Explizit soll auf die Arbeiten von Hawley et al. [16] und Harley und Reynolds[30] hingewiesen werden, die durch eine statistische Analyse von E.coli-Pro-motorsequenzen die Signifikanz der Hexanucleotidsegmente für die beidenPromotorboxen belegen, welche in dieser Arbeit eine große Rolle spielen.

Page 26: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 3 Methoden 26

Mathematische Methoden werden hauptsächlich mit der Anwendung der Theori-en der Markov-Ketten durchgeführt. Als Beispiel sei hier die Arbeit von Tautu[31] erwähnt, die sich mit der Markov-Analyse von DNA-Sequenzen befaßt. Die-ser Ansatz geht von der Hypothese aus, daß die Basensequenz eines DNA-Mole-kül durch eine Markov-Informationsquelle endlicher Ordnung erzeugt wird. Imbesonderen werden "mehrfach Markov-Ketten" untersucht. Die Analyse experi-menteller Daten hat gezeigt, daß unter der noch nicht belegten Annahme, daßstrukturelle Einheiten nur Wechselwirkungen von kurzer Reichweite eingehenkönnen, DNA-Sequenzen durch eine Markov-Kette zweiter Ordnung dargestelltwerden können. Diese Arbeit, wie die meisten anderen Arbeiten mit mathemati-sche Methoden, hat mehr eine allgemeine Aufklärung und Beschreibung derDNA-Sequenz als eine praktische Vorhersage für funktionelle DNA-Bereichezum Ziel.

3.1.3 Neuronale Netze-Methode

Diese neuere Methode scheint ein weiterer und möglicherweise effizienterer An-satz für die beschriebene Problematik der Mustererkennung zu sein. Die Vorteileliegen vor allem darin, daß zum einen Neuronale Netze leichter zu entwickelnsind als z. B. statistische Ansätze und sie zum anderen nach abgeschlossenerLernphase direkt zur Erkennung von Merkmalen neusequentierter Sequenzenherangezogen werden können. Weiterhin erhofft man sich, mit Hilfe von komple-xen Neuronalen Netzen mehr Abhängigkeiten und Informationen auch höhererOrdnung der DNA-Sequenz identifizieren und sie für Prognosen nutzen zu kön-nen. Solch komplexe Korrelationen (z. B. Kontextabhängigkeiten, Kreuzkorre-lationen), die in der DNA-Sequenz vorzukommen scheinen, will man mittelsNeuronaler Netze für Mustererkennungsaufgaben nutzen.

Erste Ergebnisse, die durch den Einsatz Neuronaler Netze in der Sequenzanalyseerzielt wurden [7,32-35], sind sehr erfolgversprechend. Neben diesen Arbeitenwird in Kapitel 4.1.2 auf existierende, vielversprechende Arbeiten im Bereich derPromotorerkennung näher eingegangen, um einen direkten Vergleich dieser Ar-beiten zur vorliegenden Arbeit herstellen zu können.

3.2 Neuronale Netze

Sowohl die Entwicklung neuer Lernprozeduren als auch die Verfügbarkeit neuer Hoch-geschwindigkeitsparallelrechner vor allem in den letzten Jahren geben dazu Anlaß, neueModelle zu bauen, bei denen es besonders auf die Vernetzung von Verarbeitungseinhei-ten ankommt. Außerdem hat es sich mit den Standardmethoden der seriellen Program-mierung als sehr schwierig erwiesen, gute Lösungen für Probleme und Aufgaben zu fin-den, die sich besonders durch einen hohen Grad von Ungenauigkeit und Variabilitätauszeichnen. Hierzu müssen die genetischen Probleme mit all ihren Mutationen undunendlichen Kombinationsmöglichkeiten gezählt werden. Eine Lösung scheinen hier

Page 27: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 3 Methoden 27

komplexe Netzwerke (artificial neural networks, auch bezeichnet als connectionistmodels oder parallel distributed processing) zu sein, die aus einfachen Verarbeitungs-einheiten (computing units) zusammengesetzt sind. Sie machen sich die Möglichkeit zuNutze, automatisch "intelligente" Systeme zu konstruieren, die im wesentlichen ihr"Wissen" aus der mannigfaltigen Verbindungsstruktur zwischen diesen einzelnen compu-ting units ziehen. Sie besitzen die Fähigkeit, solch eine Verbindungsstruktur aufzubauen,indem sie adaptieren oder lernen, generalisieren oder Daten clustern oder organisieren,wobei sie parallele Verarbeitungsmethoden benutzen.

Oft werden Neuronale Netze als "gehirn-ähnlich" bezeichnet. Diese Bezeichnung scheintin dem Maße angemessen zu sein, als daß natürliche Nervennetzwerke eine Art Vorbildfür Künstliche Neuronale Netzwerke sind. Die Behauptung allerdings, zur Zeit existie-rende Netzwerke könnten die Komplexität des menschlichen Gehirns simulieren, scheintetwas zu weit gegriffen zu sein. Der Weg, der in dieser Wissenschaftsrichtung einge-schlagen wird, verspricht jedoch in der Zukunft einmal erfolgreich zu sein. Wissenschaft-liche Entwicklungen, im besonderen die technischen, haben sich oft Gegebenheiten derNatur als Vorbild genommen, um mit Modellen neue Fortschritte zu machen. Hier seinur die gesamte Flugzeugentwicklung, bei der immer wieder auf Flugstudien der Vögelzurückgegriffen wurde, erwähnt. Der Versuch, die große "Rechenleistung" des Gehirns,die aufgrund der Verbindungs- und Aufbaustrukturen entsteht, durch ähnliche Modelleals Computersimulation nachzubilden, verdient dementsprechend ebenfalls eine großeAufmerksamkeit. Ergebnisse, die durch den Einsatz der Methoden der Neuronalen Netzein den letzten Jahren erzielt wurden, sind sehr erfolgreich, auch wenn sie oft nur fürbestimmte, ausgewählte Probleme geeignet sind.

All diese Eigenschaften haben dazu geführt, daß in dieser Arbeit Neuronale Netze fürVorhersagen auf DNA-Sequenzen benutzt werden.

Um das Lernen so effektiv wie möglich zu gestalten, ist es sehr wichtig, die Architektureines Netzwerkes einer Problemstellung so nah wie möglich anzupassen. Diese allge-meine Eigenschaft von Lernmethoden und im speziellen von Neuronalen Netzen hat indieser Arbeit dazu geführt, daß versucht wird, das biologische Modell der Transkriptionsowohl in der Architektur des Netzwerkes abzubilden als auch die Art und Weise desLernens entscheidend zu beeinflussen. Somit wurde biologisches Wissen benutzt, um einNeuronales Netzwerk zu konstruieren und gezielt zu adaptieren. Solch eine Art vonNetzwerk, in dem Merkmale eines Problems direkt abgebildet werden, kann man auch als"physikalisches" Netzwerk bezeichnen. Damit wird sogar gegen das negative Paradigma,ein Neuronales Netz sei eine "echte" black box, verstoßen.

Um die in dieser Arbeit angewandten Methoden Neuronaler Netze besser verstehen zukönnen, soll in den nächsten Kapiteln ein kurzer Überblick über die Konzepte, dieFunktion, die Geschichte und die wichtigsten Arten Neuronaler Netze gegeben werden.Dabei wird der in dieser Arbeit benutzte Typ Neuronaler Netze, time-delay-Netzwerke,ausführlicher beschrieben.

Page 28: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 3 Methoden 28

3.2.1 Was sind Neuronale Netze?

Zuerst wird der Ursprung Künstlicher Neuronaler Netze, das biologische Ner-vennetz, erläutert, anschließend die aus diesem abgeleiteten Grundfunktionen desKünstlichen Neuronalen Netzes beschrieben, und am Schluß wird eine allgemeineBeurteilung gegeben.

3.2.1.1 Biologische Neuronale Netze

Unser Nervensystem besteht aus einer großen Anzahl von Nervenzellen, die un-tereinander in Form von Signalen Informationen austauschen. An einem typischenNeuron lassen sich drei Hauptstrukturen unterscheiden, nämlich Dendritenbaum,Zellkörper und Axon, denen in etwa die Aufgaben Eingabe, Verarbeitung undAusgabe zugeordnet werden können. Der Dendritenbaum, eine verästelteStruktur dünner Zellfortsätze, bildet den Haupteingang einer Nervenzelle. (Imfolgenden werden Neuron und Nervenzelle synonym benutzt.) Er dehnt sich umdie Nervenzelle aus und summiert die ankommenden Ausgabesignale derumgebenden Neuronen in Form eines elektrischen Potentials, das er dem Zellkör-per (Soma) des Neurons "sendet". Überschreitet die Summe der ankommendenPotentiale im Zellkörper einen Schwellenwert (threshold), so erzeugt der Zellkör-per einen Impuls (spike), der über das Axon, welches die Verbindung zu dennächsten Neuronen darstellt und bis zu mehreren Metern lang sein kann, weiter-geleitet wird. Auch das Axon verzweigt sich und kann mit mehreren tausend Ziel-neuronen verbunden sein. Die Kontaktstellen des Axons mit dem Zielneuronliegen entweder auf dem Dendritenbaum des Zielneurons oder direkt auf demZielneuron und werden Synapsen genannt. Die meisten Synapsen sind chemisch.Der elektrische Impuls bewirkt eine Ausschüttung des Überträgerstoffes(Neurotransmitter), der dann wiederum zu einer Potentialänderung am Dendri-tenbaum bzw. am Zellkörper führt. Je nach Stärke des elektrischen Impulseskommt es zu einer proportionalen Potentialerhöhung oder -erniedrigung am Ziel-neuron. Das heißt, Synapsen haben entweder erregende (exzitatorische) oderhemmende (inhibitorische) Wirkung.

3.2.1.2 Informationsverarbeitung im menschlichen Gehirn

Bei hohen Reizstärken ist eine Regenerationszeit der Zelle von ca. 1 ms nötig, biseine weitere Information verarbeitet werden kann. Durch diese Verzögerung kannein Neuron höchstens eine "Taktfrequenz" von 1 kHz erreichen. Von den heuti-gen Mikroprozessoren wird dieser Wert bei weitem übertroffen. Die"Rechenleistung" des Gehirns und des gesamten Nervensystems muß also eherauf der Komplexität und der äußerst effizienten Vernetzungsstruktur der Nervenund Nervenfasern beruhen. Weiterhin scheint es im Gehirn eine große Paralleli-sierung von Informationsverarbeitung zu geben. Wenn man sich einen Schnittdurch den Kortex ansieht, kann man sich diese Art von paralleler Verarbeitunggut vorstellen. Jedoch ist es angesichts der geschätzten 1 0 1 3 Synapsen eines Ge-hirns eines Erwachsenen nicht möglich, diese Organisation und erst recht nicht

Page 29: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 3 Methoden 29

die Parallelisierung auf der Basis eines detaillierten Verbindungsschemas zuspezifizieren. Mit hoher Wahrscheinlichkeit ist ein Großteil der Organisation derNervennetze im Gehirn genetisch festgelegt. Die aktuelle Strukturbildung kannentweder schon vor der Geburt erfolgen oder aber Ergebnis einer danach einset-zenden Reifungsphase sein [36]. Experimentelle Untersuchungen haben gezeigt,daß manche Netzstrukturen, sogenannte Karten, auch später keineswegs starrfestliegen, sondern sich in Abhängigkeit von sensorischen Reizen, also abhängigvon der Umwelt und dem Informationsfluß im Körper, langsam verändern kön-nen. Ein weiteres großes Plus dieser Informationsverarbeitung besteht darin, daßbeim Ausfall eines kleinen Bereiches im Gehirn die spezifischen Aufgaben diesesBereiches von benachbarten Regionen übernommen werden können.

Mit dem Versuch einer Nachbildung der Informationsverarbeitung im Gehirn mitKünstlichen Neuronalen Netzen, was nur durch eine starke Vereinfachung mög-lich ist, probiert man, sich alle oben beschriebenen Vorteile des "NeurocomputersGehirn" für die künstliche Informationsverarbeitung zunutze zu machen [37, 38].

Ob Forschungsergebnisse mit Künstlichen Neuronalen Netzen irgendwann einmalzu weiteren Einsichten und Erkenntnissen über das Gehirn führen, bleibt für dieZukunft abzuwarten. Allerdings scheint solch eine Art Rückkopplung nicht aus-geschlossen zu sein.

3.2.1.3 Künstliche Neuronale Netze

Künstliche Neuronale Netze (im folgenden synonym: Neuronale Netze) kann manals Versuch einer Abbildung der Funktionsweise von biologischen NeuronalenNetzen bezeichnen. Das Verhalten eines Neuronalen Netzes kann global als Ab-bildungsfunktion

F : R R n m →

interpretiert werden. Bei näherer Betrachtung wird die Funktion F durch ein Netzvon Funktionen analog zu den biologischen neuronalen Netzstrukturen aufgebaut.Wiederum absolut analog zu den biologischen Netzen besteht solch ein Netz ausVerbindungen (Kanten, connections; biologische Entsprechung: Axon/ Dendri-tenbäume) und Zellen (Neurone, Knoten, units; biologische Entsprechung: Zell-körper (Soma)). In den Verbindungen findet der Informationsaustausch statt undin den Knoten wird die Funktion ausgewertet. Die Netzparameter, z. B. Verbin-dungsgewichtung (biologische Entsprechung: Synapsen, hemmend oder erregend,abhängig von der Impulsstärke; manche "schalten" früher, manche später),werden erst durch die wiederholte Anwendung eines Lernalgorithmus gefunden,welcher in der Regel aus der Präsentation von Eingabe- und Ausgabebeispielender zu approximierenden Funktion und aus einem Korrekturschritt besteht(Analogie zu biologischen Netzen).

Page 30: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 3 Methoden 30

3.2.1.4 Vorteile und Nachteile Künstlicher Neuronaler Netze

Die Vorzüge der Neuronalen Informationsverarbeitung liegen in ihrer

a) Adaptivität,

b) Parallelisierungsmöglichkeit und

c) Robustheit.

Genau diese waren die positiven Eigenschaften der Informationsverarbeitung imGehirn.

a) Das "Wissen" eines Neuronalen Netzes über seinen Anwendungsbereichliegt in der Verbindungsstruktur. Für verschiedene Modelle (z. B. bio-logische, mathematische, aber auch soziologische) lassen sich Verfahrenentwickeln, die mit Hilfe von Musterbeispielen als Eingabe für ein Netzeine adäquate Verbindungsstruktur aufbauen und modifizieren können.So läßt sich ein Netzverhalten an die Anwenderwünsche anpassen. Einexplizites "Programmieren" des Netzes im Sinne einer Beschreibung allerTransformationen innerhalb eines Netzes ist nicht erforderlich.

b) Durch die "parallele Anordnung" der Neuronen ist eine massive Paralle-lisierung möglich. Viele Verarbeitungsschritte und Berechnungen vonNeuronengruppen können völlig unabhängig von anderen Neuronen-gruppen durchgeführt werden. Solche Algorithmen sind geradezu idealfür den Einsatz auf Mehrprozessorarchitekturen mit Parallelisierung.

c) Die dritte positive Eigenschaft von Neuronalen Netzen besteht darin,daß bei Fehlfunktionen die Leistung eines Systems schrittweise und nichtabrupt abnimmt. Das heißt, beim "Ausfall" eines Neurons kann ein ange-messen konfiguriertes Netz mit einer nur leicht verminderten Leistung imVergleich zum Idealfall reagieren.

Der große Nachteil von Neuronalen Netzen ist die ungenügende Transparenz.Mittels Adaption ist das "Wissen" über einen Anwendungsbereich in der Ver-bindungsstruktur und Gewichtung "gespeichert". Diese Art von Wissensspeiche-rung, die - wenn überhaupt - für den Anwender nur schwer nachzuvollziehen ist,wird in der Literatur oft kritisiert (black box-Prinzip). Desweiteren sind Neuro-nale Netze in ihrem Grenzverhalten meist schwer berechenbar, wodurch die Ein-satzmöglichkeiten beschränkt bleiben. Die Frage nach lokalen Minima beispiels-weise ist äußerst schwer zu beantworten.

Besonders wichtig und manchmal sehr aufwendig bei Neuronalen Netzen ist auchsehr die Vorverarbeitung der Eingabedaten. Hier können schon umfangreicheTransformationen mit herkömmlichen Verfahren nötig sein, um zum einen über-haupt adäquate Ergebnisse zu erzielen und zum anderen den Lernvorgang abzu-kürzen.

Page 31: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 3 Methoden 31

In der Literatur findet sich oft die Frage, was Neuronale Netze anderes seien alseine Zusammensetzung altbekannter, mathematischer Methoden (z. B.: Differen-tialgleichungen, Potentiale, Summen, Fehlerberechnungen, usw.) und wie mandamit bessere Ergebnisse als mit herkömmlichen Methoden erzielen solle. Demläßt sich entgegnen, daß die Komplexität eines Neuronalen Netzes (vor allem dieneueren Formen von Neuronalen Netzen), wie man an existierenden Anwen-dungen und Ergebnissen bisheriger Forschung ersehen kann, für komplexe, nicht-lineare Funktionen, die mit herkömmlichen Methoden nicht mehr gelöst oder ad-aptiert werden konnten, zumindest gute Annäherungen an die tatsächlichenLösungen erzielen kann. Bei äußerst schwierigen Fragestellungen ist solch eineapproximierte Lösung oft schon sehr hilfreich. Somit ist dem Wissenschaftler einneues, sehr effektives Instrumentarium an die Hand gegeben, dessen Komplexitäter zwar nicht überschauen kann, welches er jedoch trotzdem benutzen kann. Soist es ja auch mit dem Gehirn: Wir "sehen", was es macht, können schemenhafterklären, wo welche Verarbeitung stattfindet, doch als Gesamtheit können wir esweder beschreiben noch verstehen.

Zusammenfassend kann man sagen, daß es wenig sinnvoll ist, eindeutig geklärteBewertungs- oder Transformationsverfahren mit Künstlichen Neuronalen Netzenzu realisieren. Soll aber eine Beurteilung getroffen werden, so kann man mit Neu-ronalen Netzen beachtenswerte Ergebnisse erzielen.

3.2.2 Die Entwicklung Neuronaler Netzwerkmodelle

Die Entstehung erster Modelle Künstlicher Neuronaler Netze geht auf die vierzi-ger Jahre zurück. Im Jahre 1943 schlagen die beiden amerikanischen Mathemati-ker McCulloch und Pitts erstmals vor, ein Neuron als ein logisches Schwellen-wertelement mit zwei möglichen Zuständen zu beschreiben. Die von ihnen gebau-ten Netze scheitern an der Adaptionsfähigkeit, d. h., der Vorgang des Lernen istnicht geklärt. Außerdem fehlt jegliche Fehlertoleranz, die bei biologischen Ner-vennetzen ja so gut funktioniert.

Einen Lösungsvorschlag zum Problem des Lernen macht 1949 der PsychologeHebb. Seine Lernregel besteht darin, daß die durch eine Synapse bewirkte Ver-schaltung zwischen zwei Neuronen plastisch ist und sich proportional zur kor-relierten Aktivität vor und hinter der Synapse ändert. Diese Hebbsche Lernregelfindet auch heute noch in einer Vielzahl von Netzen ihre Anwendung.

Einen weiteren Meilenstein in der Entwicklung Neuronaler Netze setzt 1958 Ro-senblatt [39], der das erste abgeschlossene Modell eines Neuronalen Netzes, dasPerzeptron, vorstellt (Abbildungen 3.2 und 3.3). Das Perzeptron [40] ordnet einEingabemuster einer Klasse binär zu oder nicht, d. h., für jede Klasse existiert einAusgabeneuron, welches bei Klassenzugehörigkeit eines Eingabemusters"schaltet" und sonst "nicht schaltet". Interessant daher ist folgende mathematischbewiesene Aussage: Wenn die Aufgabe eine Lösung besitzt, d. h., wenn es Ver-bindungsgewichte gibt, für die das Perzeptron fehlerfrei klassifiziert, so findet derAlgorithmus in endlichen Lernschritten eine Lösung. Wegen der beschränkten

Page 32: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 3 Methoden 32

Fähigkeit des Perzeptrons (z. B. ist die "XOR-Funktion" mit einem Perzeptronnicht lösbar; siehe Abbildung 3.3) bleibt der erwartete Erfolg aus.

Nach einer etwas stilleren Zeit um die Neuronalen Netze kommt 1985 der großeDurchbruch, als Rummelhart und Hinton das inzwischen zum universalen Vor-wärtsvermittlungsnetz weiterentwickelte nichtlineare Perzeptron allgemein be-kannt machen [41].

In den letzten Jahren hat die Forschung auf dem Gebiet der Neuronalen Netzestark zugenommen. In mehreren wissenschaftlichen und industriellen Bereichengibt es Anwendungsansätze und bereits fertige Anwendungen, die von Künstli-chen Neuronalen Netzen Gebrauch machen. Einen guten Einblick in bisherigeEinsatzbereiche gibt [42]. Hier soll eine kurze Zusammenfassung dieser Einsatz-bereiche erfolgen:

• Zeichenerkennung (z. B. bei schlechter Schriftqualität)

• Handschrifterkennung

• Bildinterpretation (autonome Fahrzeuge, Robotik)

• Spracherkennung und -generierung

• Medizin (EKG- und EEG-Signalverarbeitung, Erkennung von Tumorzel-len)

• Qualitätssicherung (visuelle und akustische Prüfverfahren)

• Wirtschaft (Börsenvorhersage, Beurteilung, Prognose)

3.2.3 Beschreibung Neuronaler Netze

In diesem Kapitel erfolgt eine mathematische Beschreibung aller wichtigen Kom-ponenten von Künstlichen Neuronalen Netzen, die zum Verständnis der Funkti-onsweise dieser Netze unabdingbar sind. Danach wird auf Lernverfahren, die beiNeuronalen Netzen eingesetzt werden, eingegangen. Das in dieser Arbeit ver-wendete Lernverfahren wird näher erläutert. In den folgenden beiden Abschnittenwerden die zwei benutzten Arten von Neuronalen Netzen, feedforward-Netzeund time-delay-Netze, näher beschrieben.

3.2.3.1 Mathematische Beschreibung

Der Kern des Referenzmodells ist das Verarbeitungselement (Synonyme sind:Verarbeitungseinheit, Neuron, Zelle, unit). Abbildung 3.1 zeigt eine generalisierteForm eines Verarbeitungselements. Jede einzelne Verarbeitungseinheit führt sehreinfache Berechnungen durch.

Zu jeder Verarbeitungseinheit existieren folgende Komponenten:

Page 33: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 3 Methoden 33

• Der Aktivierungszustand (synonym: Aktivierungswert) a ti( ) gibt die Akti-vierung des Neurons i zum Zeitpunkt t an. Aktivierungswerte könnenkontinuierlich oder diskret sein.

• Die Aktivierungsfunktion (synonym: Transferfunktion) fact ermittelt einenneuen Aktivierungszustand a ti( ) für das Neuron i:

a t f net t a ti act i i( ) ( ( ), ( ))= −1 ,

wobei net ti( ) die Netzaktivität zum Zeitpunkt t ist. Die Aktivierungsfunkti-on fact überführt den aktuellen Aktivierungszustand eines Neurons mit deraktuellen Netzaktivität net ti( ) in einen neuen Aktivierungszustand. Die Ak-tivierungsfunktion fact kann eine lineare Abbildung, eine Schwellenwert-oder Treppenfunktion oder eine stochastische Funktion sein. Eine sehrübliche Aktivierungsfunktion ist die sigmoide Fermifunktion:

f net te

act j net ti j( ( )) ( ( ) )=

+ − +1

1 θ

Diese Fermifunktion modelliert bei den Neuronalen Netzen die Abhängig-keit des "feuernden" Ausgabesignals von dem ankommenden Eingabesignalanalog zu einem biologischen Neuron.

• Die Ausgabefunktion wandelt den Aktivierungszustand a ti( ) in ein Ausga-besignal o ti( ) um. Dieses Ausgabesignal wird über die gewichteten Verbin-dungen (links) an die Nachfolgeneurone weitergegeben:

o t f a ti out i( ) ( ( ))=

Diese Funktion f a tout i( ( )) ist bei den meisten Netzwerkmodellen die Identi-tätsfunktion. Sie kann aber auch eine Schwellenwertfunktion o ti( )= 1, wenna ti( )> θ , o ti( )= 0 sonst, mit einem Schwellenwert θi für jede unit¸ sein.

Page 34: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 3 Methoden 34

Aktivierungs-

funktion

Aktivierungs-

zustand

Ausgabe-

funktion Netzeingang Netzausgang

Neuron

netj

fact ajoj

ju

Abbildung 3.1: Modell eines Neurons

Das Ausgangssignal wird an die gewichteten Verbindungen (links) zu den nach-folgenden Neuronen abgegeben. Grundsätzlich kann ein Neuron, wie auch beiden biologischen Neuronalen Netzen, sowohl mehrere Nachfolger als auch meh-rere Vorgänger haben. Die Netzeingabe net ti( ) setzt sich aus allen ankommendenEingangssignalen zusammen. Sie wird mit einer Propagierungsregel(Übertragungsfunktion) berechnet. Diese Regel berechnet normalerweise die ge-wichtete Summe aller Ausgabesignale der Neuronen i , die Verbindung zum Ein-gang des betrachteten Neurons j haben:

net t w o tj ij ii

( ) ( )= ∑

wij ist das Gewicht der Verbindung von Neuron i zu Neuron j . Das Gewicht

beschreibt die "Stärke" der Verbindung zwischen beiden Neuronen. Alle Ge-wichte eines Netzes zusammengenommen ergeben die Verbindungsstruktur einesNetzes. Diese Verbindungsstruktur wird häufig als Gewichtsmatrix W dargestellt,wobei wij ein Eintrag in dieser Gewichtsmatrix ist. Ist wij negativ, hat die Ver-

bindung eine hemmende (inhibitorische), ist wij positiv, eine erregende

(exzitatorische) Wirkung auf die Netzaktivität am Eingang des Neurons j . Manerkennt auch hier wieder die Analogie zu den natürlichen Neuronalen Netzen(Modell der Synapsen).

Page 35: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 3 Methoden 35

In Abhängigkeit davon, welche Art von Problem man betrachtet, findet der Infor-mationsaustausch des Netzes mit der Umwelt entweder durch Eingangsneuronen(input units) oder Ausgangsneuronen (output units) oder durch beide Arten zu-sammen statt. Die Eingangsneuronen dienen durch Übernahme des Aktivierungs-zustandes von externen Daten (Mustern) als Datenquelle. Über die Ausgabeneu-ronen können verarbeitete Informationen, also Ergebnisse, an die "Außenwelt"abgegeben werden. Zwischen diesen beiden Schichten (Eingabe- und Ausgabe-schicht) können weitere interne (versteckte) Neuronen (hidden units) existieren.Diese Neuronen haben keine direkte informatorische Verbindung zur Außenwelt.

3.2.3.2 Lernverfahren

Das Verhalten eines Netzes im Hinblick auf eine bestimmte Aufgabe hängt vorallem von der Netzkonfiguration ab. In dieser Verbindungsstruktur steckt sozusa-gen das "Wissen" eines Neuronalen Netzes. Diese Verbindungsstruktur wirdmittels eines Lernalgorithmus adaptiert. Solch ein Lernalgorithmus bewirkt nor-malerweise iterativ eine Veränderung der Verbindungsstruktur. Diese Verände-rung besteht meistens nur aus der Änderung der Gewichte an den Verbindungen.Bei manchen Verfahren wird auch die Anzahl der Neuronen des Netzes verän-dert, d. h., es werden neue Neuronen hinzugefügt oder gelöscht. Beim Lernvor-gang benutzt man die sogenannte Trainingsmenge, nach deren Muster sich dieGewichte einstellen. Das Netz kann anschließend auf seine Effizienz hin mit einersogenannten Testmenge untersucht werden, die unbekannte Muster enthält.

Es existieren zwei unterschiedliche Hauptformen von Lernverfahren, überwachtesLernen und unüberwachtes Lernen. Überwachtes Lernen wird nochmals in zweiTypen von Lernverfahren unterteilt: Learning with a teacher und learning with acritic (auch reinforcement learning genannt). Da für die Promotorerkennung nurlearning with a teacher, ein überwachtes Lernverfahren, geeignet ist, soll dieFunktion dieses Lernverfahrens erläutert werden. Bei den anderen Lernverfahrenwird auf weitere Literatur verwiesen. Ein Beispiel für Unüberwachtes Lernensind die sogenannten "Kohonen-Netze" [43]. Eine Einführung für learning with acritic wird in [44] gegeben.

3.2.3.2.1 Das Lernverfahren learning with a teacher

Dem Netz werden Eingabemuster mit gewünschten Ausgabeaktivitäten präsen-tiert. Mit diesen Informationen muß das Netz lernen, anhand von Teilen eines Ak-tivitätsmusters am Eingang das vollständige, zugehörige Aktivitätsmuster zu er-kennen.

Die verbreitetste Form von überwachtem Lernen (supervised oder associative le-arning) ist in der Mustererkennung angesiedelt. Ein supervisor trainiert das Neu-ronale Netz mit typischen Paaren von input- und output-Mustern. Mit diesen Mu-stern versucht ein Netz zu lernen, Eingabemuster (inputs) auf die entsprechendenAusgabemuster (outputs) abzubilden. Bei diesem Vorgang versucht das Netzbestimmte, charakteristische Teile eines Musters und Auffälligkeiten in derStruktur eines Musters beim Lernen zu extrahieren, um neue, unbekannte, nicht

Page 36: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 3 Methoden 36

vom supervisor vorgegebene Eingabemuster selbständig und korrekt klassifizie-ren zu können, d. h. den Eingabemustern die richtigen Ausgabeaktivitäten zuzu-ordnen. Dieses Vorgehen nennt man Generalisierung. Für ein solches überwach-tes Lernen gibt es eine Reihe verschiedener Lernalgorithmen.

Der bekannteste Algorithmus ist der backpropagation-Algorithmus [45, 46]. Erwird bei feedforward-Netzen zur Adaptierung der Gewichte der Verbindungeneingesetzt. In den hidden units werden interne Repräsentationen der Eingabemu-ster gespeichert. Hauptsächlich die Information über spezifische Merkmale einerMusterklasse werden in den hidden units abgelegt. Hierbei ist die interne Reprä-sentation nur durch die Anzahl und die Struktur der hidden units beschränkt.Diese beiden Parameter, Anzahl der hidden units und Verbindungsstruktur (z. B.Anzahl der hidden layers oder Anzahl der hidden units pro layer), werden vomsupervisor festgelegt. Die Art der internen Repräsentation wird allein durch dasNetz entwickelt. Mit diesen Arten von feedforward-Netzen können, wie Cybenkozeigt [47], alle linearen und nichtlinearen, stetigen Musterabbildungen vom n in -dimensionalen Eingaberaum in den n out

-dimensionalen Ausgaberaum abgebildetwerden.

Ziel des Lernverfahrens Backpropagation ist es, den quadratischen Abstand zwi-schen erwünschter Netzausgabe (Sollwert) und tatsächlicher Netzausgabe be-züglich sämtlicher im Training behandelter Muster zu minimieren. Hierfür benutztder backpropagation-Algorithmus die Gradientenmethode [46].

Um die Geschwindigkeit des Lernverfahrens zu erhöhen, sind mehrere Sonder-formen des backpropagation-Algorithmus entwickelt worden. Hier seien nur ei-nige erwähnt:

• Standard-Backpropagation

• Backpropagation mit Trägheit (momentum)

• Quickprop

• RPROP

• backpropagation through time (für rekurrente Neuronale Netze)

Je nach Mustergröße, Anzahl der Muster in der Lernmenge, Anzahl der units undEigenschaften der Muster werden die erwähnten unterschiedlichenbackpropagation-Lernalgorithmen eingesetzt. Ziel ist immer, den kleinstenglobalen Fehler mit der geringsten Anzahl an Iterationen zu erreichen.

3.2.3.3 Feedforward-Neuronale Netze

Eine Einteilung der Arten von Neuronalen Netzen läßt sich am besten im Hinblickauf die Topologie der verschiedenen Netze vornehmen.

Ein vorwärtspropagierendes Netz (feedforward network) besitzt nur Verbin-dungen von der Eingabeschicht in Richtung der Ausgabeschicht, d. h., es

Page 37: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 3 Methoden 37

existieren keine Zyklen. Bei diesem Netz werden einzelne hidden units zuGruppen zusammengefaßt. Diese Gruppen bilden die sogenannten internenSchichten (hidden layers). Eine interne Schicht kann aus einem oder mehrerenNeuronen bestehen. Um die oben beschriebene Restriktion - keine Zyklen - zuerfüllen, besitzen Neuronen einer hidden layer von feedforward-Netzen nur Ver-bindungen zu Neuronen der nächsten hidden layer. Die erste Schicht ist dieEingabeschicht und die letzte Schicht ist die Ausgabeschicht. Auch außerhalb derSchichten gibt es keine Zyklen. Das einfachste Beispiel eines solchen Netzes istdas Perzeptron, welches keine hidden layer besitzt (Abbildung 3.2).

Abbildung 3.2:

Ein Perzeptron-Netz mit zwei input units und einer output unit. Die Gewichte an denVerbindungen der units haben sich bei einer zufälligen Initialisierung zwischen 0 und 1ergeben. Bei einem Eingangsmuster von "11" zeigt das noch nicht trainierte Perzeptronals output 0,506 an. Die richtige Vorhersage bei der "XOR-Funktion" wäre 0.

Page 38: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 3 Methoden 38

Abb. 3.3a Abb. 3.3b

Abb. 3.3c Abb. 3.3d

Abbildung 3.3:

Das klassische Problem bei Neuronalen Netzen bei der Realisierung der "XOR-Funk-tion". Abgebildet ist das Perzeptron von Abb. 3.2 nach 10.000 Trainingszyklen. Die"XOR-Funktion" kann vom Perzeptron nicht gelernt werden. Die "XOR-Funktion" siehtfolgendermaßen aus:

00=>0 | 01=>1 | 10=>1 | 11=>0

Das trainierte Netz liefert als Ergebnis (output-Wert) nur Werte um 0,5.

Page 39: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 3 Methoden 39

Abb. 3.4a Abb. 3.4b

Abb. 3.4c Abb. 3.4d

Abbildung 3.4:

Realisierung der "XOR-Funktion" durch Einfügen einer hidden unit. Von Abbildung 3.4abis 3.4d wird die Gewichtsentwicklung der Verbindungen und die erzielten Ausgabewer-te während der Trainingsphase gezeigt. Abb. 3.4a zeigt das Netz direkt nach der Initiali-sierung, Abb. 3.4b nach 100 Trainingszyklen, Abb. 3.4c nach 1.000 Trainingszyklen undAbb. 3.4d nach 2.000 Trainingszyklen.

Page 40: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 3 Methoden 40

Abb. 3.5a Abb. 3.5b

Abb: 3.5c Abb: 3.5d

Abbildung 3.5:

Realisierung der "XOR-Funktion" mit einem feedforward-Netz mit einer hidden unit.Fertig trainiertes Netz nach 50.000 Trainingszyklen. Die "XOR-Funktion" wird fastgenau nachgebildet. Die output units weichen nur geringfügig von den erwartetenErgebnissen ab (0,992 statt 1 oder 0,006 statt 0).

Page 41: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 3 Methoden 41

3.2.3.4 Time-delay-Neuronale Netze

Time-delay-Netze sind eine besondere Art von feedforward-Netzen. Sie sind vonWaibel et al. [48] zum Bearbeiten von Mustersequenzen entwickelt worden. ZumErkennen von bestimmten Mustern werden gewöhnlich große Sequenzen (z. B.DNA-Sequenz) in immer gleich große Teilsequenzen gesplittet und dem Netz alsEingabe übergeben, d. h., das Eingabefenster (input window) des NeuronalenNetzes entspricht der fixen Größe dieser Teilsequenz. Solch ein Eingabefensterwird Schritt für Schritt (üblicherweise in Einerschritten, aber auch größereSchrittweiten sind möglich) über die ursprüngliche Sequenz geschoben und dientschließlich als Eingabe für die input-Neuronen. Dies ist das Vorgehen bei norma-len feedforward-Netzen.

Allerdings treten dabei zwei gravierende Probleme auf. Zunächst muß für jedeseinzelne shifted window der gewünschte output bekannt sein. Dazu muß die ex-akte Position von Merkmalen in der Teilsequenz in diesem Eingangsfenster relativzum "geschobenen" Fenster bereits im voraus feststehen, um die Schrittweite unddie Startposition richtig festzulegen. Ein solches Netz kann also nur den ge-wünschten output liefern, wenn es mit Trainingsmustern trainiert wurde, die aneiner fixen Stelle immer zumindest ähnliche Merkmale aufweisen (statische Klas-sifizierung). Sollte solch ein Merkmal um ein oder mehr Positionen im Eingabe-muster verschoben sein, wäre das Eingabemuster völlig verändert und für dieTrainingsmenge ungeeignet. Auch Testmuster, bei denen das Merkmal verscho-ben wäre, könnten von einem auf eine bestimmte Position eines Merkmals trai-nierten Netz nicht korrekt klassifiziert werden. Segmentationsfehler könntenebenfalls nicht von solch einem normalen feedforward-Netz durch geeignetesLernen kompensiert werden.

Ein zweites Problem tritt dann auf, wenn in einer Teilsequenz mehrere(mindestens zwei) verschiedene Merkmale in unterschiedlichen relativen Distan-zen auftreten (z. B., wenn in Gensequenzen Elemente, hier Basen, eingefügt odergelöscht werden). Auch hier stößt das normale feedforward-Netz an seine Gren-zen. Ein geeignetes Netz sollte ein Merkmal erkennen, ungeachtet dessen, welchePosition es im Eingabefenster einnimmt und wie groß die Abstände von denMerkmalen sind.

Eine geeignete Lösung dieser Problematik der Positionsabhängigkeit (Dynamik)bietet das time-delay neural network (kurz: TDNN). Durch eine bestimmte To-pologie und eine geeignete Art und Weise der Gewichtsanpassung versucht man,mit den TDNN diese Probleme zu lösen. TDNN besitzen die Eigenschaft, Bezie-hungen von Ereignissen in Abhängigkeit von der Zeit zu repräsentieren. Die Ab-straktion, die das gesamte Netz durch Training gelernt hat, ist dann allerdingswiederum invariant gegen Zeitverschiebungen zwischen Ereignissen. Somit kön-nen TDNN Merkmale in einer Sequenz unabhängig von ihrem Auftreten erken-nen. Daraus folgt, daß Segmentierungsfehler gut kompensiert und sogar unseg-mentierte Sequenzen bearbeitet werden können. Als direkte Folge hiervon nimmtder Aufwand für die Vorverarbeitung der Daten ab.

Page 42: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 3 Methoden 42

Desweiteren besitzen TDNN die günstige Eigenschaft, daß ihre Anzahl an Ver-bindungen zwischen den units verhältnismäßig klein ist (viel kleiner als z. B. einvollvernetztes feedforward-Netz). Dies ist besonders günstig für Probleme, beidenen die Anzahl der Trainingsmuster beschränkt ist, weil die Zahl der Gewichteverglichen mit der Zahl der Trainingsmuster genügend klein sein sollte, um demNetzwerk die Möglichkeit zu geben, aus den Trainingsdaten Regelmäßigkeiten zuextrahieren und nicht die Daten "auswendig" zu lernen, was zu einer Übergenera-lisierung führen und die Effizienz in bezug auf eine unbekannte Testmenge starkherabsetzen würde.

Das TDNN ist so aufgebaut, daß alle hidden units, die Verbindungen zur Ein-gangsschicht haben, nur mit einer bestimmten, festen Anzahl von input units ver-bunden sind. Das heißt, jede hidden unit betrachtet für sich nur einen Teilaus-schnitt des Eingangfensters. Dieser Teilausschnitt wird rezeptives Feld (receptivefield) genannt. Solch ein rezeptives Feld wird Position für Position über dasEingabefenster "geshifted". Für jedes rezeptive Feld gibt es also eine hidden unit.Dieses führt dazu, daß an jeder Position des Eingabefensters das rezeptive Feldgenau einmal anliegt. Hier ein Beispiel: Besitzt das Eingabefenster 20 input unitsund bedeckt das rezeptive Feld eine Teilsequenz von drei Feldern, so gibt es inder ersten hidden layer nach der Eingabeschicht 18 hidden units, die eingleichgroßes, identisches rezeptives Feld besitzen. Die korrespondierendenGewichte in all diesen rezeptiven Feldern müssen denselben Wert besitzen.Solche hidden units haben also verbundene rezeptive Felder (linked rezeptivefields). Somit können Merkmale unabhängig von ihrer relativen Position imEingangsmuster erkannt werden. Die genaue Position des Eingangsmusters kor-reliert mit der Position der verbundenen hidden unit.

Beim Lernen des Netzes, also bei der Adaption des Netzes auf ein bestimmtesProblem, werden für die Gewichtskorrekturen die partialen Ableitungen dieserkorrespondierenden Gewichte berechnet. Für ein bestimmtes Gewicht dieses re-zeptiven Feldes, das für jede hidden unit gleich ist, jedoch unterschiedlich akti-viert wird, wird diese Berechnung durchgeführt. Anschließend werden die un-terschiedlichen Ergebnisse der einzelnen korrespondierenden Gewichte gemitteltund somit ein neues Gewicht für die entsprechenden Gewichte berechnet. DieKonsistenz der Gewichtsgleichheit aller auf die einzelnen hidden units duplizier-ten rezeptiven Felder bleibt also bei jedem Adaptionsschritt erhalten.

Mit dem Konzept der linked receptive fields erkennt eine bestimmte hidden unitein bestimmtes Merkmal im Eingangsmuster, unabhängig davon, wo dieses Merk-mal (Teilsequenz) in der Sequenz auftritt. Eine relative Positionsveränderung ei-ner solchen Merkmalsteilsequenz würde trotzdem von der hidden layer erkannt,nur ein anderes hidden-Neuron dieser Schicht würde "feuern". Die Größe der re-zeptiven Felder müssen einer bestimmten Merkmalsgröße angepaßt sein (6 bplange "TAATAT"-Sequenz für die "-10-Box" -> Merkmalsteilsequenz von 6 Po-sitionen => Größe des rezeptiven Feldes: 6 => jede hidden unit ist mit 24 Ein-gangsneuronen verbunden, da jede Base durch vier Eingangsneuronen codiertwird). Ein Merkmal in der Eingabeschicht wird sozusagen in eine Sequenz vonaktivierten hidden units transformiert. Einfache TDNNs verarbeiten diese trans-

Page 43: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 3 Methoden 43

formierte Information mittels eines feedforward-Netzes weiter oder geben sie di-rekt an die output layer weiter. So können einzelne Merkmale und deren exaktePosition im Eingangsfenster erkannt werden.

Für komplexere Aufgabenstellungen können, wenn z. B. verschiedene Merkmalean verschiedenen Positionen des Eingangsmusters auftreten, weitere Schichtenvon hidden layers mit unterschiedlichen rezeptiven Feldern benutzt werden. Aufdiese Art und Weise können hierarchische Netzstrukturen mit linked receptivefields aufgebaut werden, die sogar sehr komplexe Informationen von bestimmtenEingangsmustern separieren können.

Zur Zeit existieren einige Anwendungen dieser TDNN, vor allem in den Berei-chen Spracherkennung [48,49] und Schreibschrifterkennung [50]. Von einergroßen Verbreitung kann allerdings trotz des großen Nutzen noch nicht gespro-chen werden.

Diese kurz Beschreibung von TDNN mit den spezifischen Eigenschaften zeigt,daß der Versuch, sie für die Erkennung von Mustersequenzen und hier im spe-ziellen die Promotoren auf DNA-Sequenzen einzusetzen, sehr naheliegend ist.Promotoren im speziellen besitzen genau diese Zeitinvarianzen und die ver-schiedenen Mustersequenzen in einem Eingabefenster, für deren VerarbeitungTDNN am besten geeignet zu sein scheinen. So besteht die Aussicht, mit diesemTyp von Neuronalen Netzen eine sehr hohe Vorhersagegenauigkeit für Promo-torsignale in DNA-Sequenzen zu erzielen.

3.3 Transformation der Struktur eines Promotors in die Architek-tur eines physikalischen Neuronalen Netzes (Beispiel: der pro-karyontische Promotor)

Die entscheidende Frage bei der Modellierung des Transkriptionsprozesses lautet: Wieerkennt die Polymerase, das Enzym, welches für die Transkription verantwortlich ist, denTranskriptionsstart und welche Art von Signalen erhält dieses Enzym von der DNA-Sequenz?

Um eine Lösung auf diese Frage zu finden, kann man versuchen, durch den Einsatz vonkünstlichen "Informationssystemen", wie z. B. ein spezielles Neuronales Netz, das Ver-ständnis des Transkriptionsprozesses zu verbessern. Solch ein Neuronales Netz muß soaufgebaut sein, daß es die physikalischen Eigenschaften des Transkriptionsproblems di-rekt durch seine Architektur modelliert, um später Erkenntnisse vom Modell auf denOriginalvorgang ziehen zu können. Da die Vorgehensweise, ein gegebenes System durchdas Verhalten eines Neuronalen Netzes mit spezifischer Architektur zu studieren, einesehr wichtige und äußerst neue, jedoch auch sehr abstrakte Art der Modellierungstechnikist, soll eine nähere Beschreibung der Einzelheiten folgen. Dieses ist auch von entschei-dender Bedeutung, um die Abstraktionsweise eines time-delay-Netzes und das Zustande-kommen der Ergebnisse dieser Arbeit besser verstehen zu können. Es soll auch gezeigtwerden, daß ein Neuronales Netz nicht nur als black-box einzusetzen ist, sondern auch

Page 44: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 3 Methoden 44

Zwischenergebnisse liefern kann, indem man versucht in die black-box"hineinzuschauen".

Ziel ist, eine Netzwerkarchitektur zu entwerfen, die eine große Ähnlichkeit mit der Formdes physikalischen Problems hat. Für die einzelnen spezifischen Merkmale eines Promo-tors, wie z. B. die Promotorboxen "-10" und "-35", versucht man dementsprechend be-stimmte Komponenten zu konstruieren, die solche Merkmale abbilden. Das Netzwerk,welches die höchste Genauigkeit bei der Vorhersage bekannter Promotoren erzielt, istdas Netzwerk, welches die Geometrie des Promotors am besten zu modellieren scheint.Aus diesem besten Neuronalen Netzwerk kann man durch die Betrachtung der modellier-ten Einzelkomponenten wieder Rückschlüsse auf deren Wichtigkeit, Effizienz undoptimale Struktur ziehen.

Im folgenden soll anhand des Transkriptionsprozesses bei Prokaryonten - grundsätzlichdie gleichen Methoden sind auch bei der Modellierung des eukaryontischen Transkripti-onsprozesses verwendet worden - gezeigt werden, wie man solch einen biologischkomplexen Prozeß in die Logik oder Architektur eines Neuronalen Netzes übersetzt undwelcher Typ von Neuronalem Netz zum Modellieren gerade für diesen Prozeß derTranskription am geeignetsten ist.

Die biologische Phänomenologie eines Promotors in prokaryontischen Genen ist inKapitel 2.2.2 bereits ausführlich erläutert worden.

Das statistisch signifikante Vorkommen der beiden Boxsequenzen ("TTGACA" und"TATAAT") impliziert eine Sonderbehandlung dieser konservierten Regionen beimAufbau des Neuronalen Netzes. Zuerst wird versucht, ein kleines, simples Modell fürjede einzelne Box zu formen, welches eine Klassifikation vornehmen soll, ob ein be-stimmtes Muster ein spezifisches Promotorboxmuster ist oder nicht. D. h., es soll Promo-torboxen von random-Sequenzen gleicher Länge abgrenzen. Insgesamt kann einePromotorsequenz aus 4 40966 = verschiedenen Basenzusammensetzungen bestehen.

Mit den beiden bekannten DNA-Sequenzen der Länge 6 bp für jede Signalbox aus denzusammengestellten Daten von Promotoren von Harley/ Reynolds [30] wird für jede Boxein gewöhnliches feedforward-Neuronales Netz ohne hidden layers, also ein Perzeptrontrainiert. Die sich ergebende Gewichtsmatrix des Netzes kann als eine Art "statistische"Untersuchung mittels Neuronalem Netz für das Auftreten der Nucleotide an den einzel-nen Positionen in jeder Box interpretiert werden. Die Vorhersage für jede Promotorboxwird von diesen beiden Neuronalen Netzen separat durchgeführt. Jedes einzelne Netzkann dann dazu benutzt werden, um eine Vorhersage allein aus der Information einerBox für eine ganze Promotorregion zu machen. Die Genauigkeit dieser Vorhersage isterwartungsgemäß unzulänglich, da die Boxen zu klein sind und somit unexakte Vorher-sagen liefern (Ergebnisse für die Vorhersage eines "Box-Perzeptrons" sind in Tabelle 4.4gezeigt). Die Vorhersage mit einem derartigen Netz kann so interpretiert werden, daßdas Neuronale Netz eine Vorhersage für eine Promotorregion durchführt, wobei nur ein"biologisches" Promotorsignal berücksichtigt wird. Folglich muß versucht werden, beideBoxsignale in der Architektur eines einzigen Neuronalen Netzes zu vereinigen.Kombinationen von Mustermerkmalen können nur in einem Neuronalen Netz mit ver-schiedenen Schichten durchgeführt werden [48,49].

Page 45: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 3 Methoden 45

Deshalb wird als nächster Schritt ein Neuronales Netz mit einer solchen Architekturkonstruiert, das die Information aus beiden, vorherigen Boxvorhersagen kombiniert undeine bessere Bestimmung der Transkriptionsinitiation, also der Promotorstelle, durch-führt. Diese Kombination muß außerdem berücksichtigen, daß der Abstand zwischenbeiden Boxen in einem Promotor nicht fix ist, sondern von 15 bp bis 21 bp variiert.Somit ergibt sich für die aus beiden Boxen (je 46 Kombinationen) kombinierte Signalre-gion unter Berücksichtigung des spacings (ebenfalls 46 Kombinationen) eine Zahl vonmöglichen Mustern von

4 4 4 4 6 87 106 6 6 18 10* * . *= = .

Diese Signalregion ist ein Teilbereich aus der gesamten Promotorstelle, deren Längemaximal 46 bp beträgt, wenn man als Promotorstelle diejenige Teilsequenz definiert, beider bei maximalem spacing sowohl die "-35-Box" als auch der Transkriptionsstarteingeschlossen sind. Die Zusammensetzung einer solchen Promotorstelle mit 46 bp kannauf 446 verschiedene Arten geschehen. Diese Zahlen zeigen, wie schwierig eine automa-tische Klassifikation ist. Das Ziel besteht darin, eine geeignete Topologie eines Neurona-len Netzes zu finden, welche den biologischen Vorgang der Erkennung eines Promotorsbei der großen Anzahl von Möglichkeiten am besten nachbildet. Das Netz soll die Fähig-keit besitzen, die Information beider Boxen zu extrahieren, was äquivalent damit ist, dieSignalregion besonders stark zu bewerten (Vorinitialisierung). Mit dieser direkten Abbil-dung biologischen Wissens in das Netz sollte es in der Lage sein, eine gute Klassifikationdurchzuführen, ob ein Muster ein Promotor ist oder nicht.

Um dieses Problem zu modellieren, wird ein time-delay neural network benutzt, dessenTopologie und Eigenschaften in Kapitel 3.2.3.4 erläutert wurden. Die Boxsignale sollennur anhand der Basensequenz kombiniert werden. Für jede Box wird eine charakteristi-sche hidden layer konstruiert. Das rezeptive Feld jeder Box wird mit der resultierendenGewichtsmatrix von den trainierten Perzeptrons für die jeweilige Box vorinitialisiert. Sowird die Information für die Vorhersage einer Box direkt in das Gesamtnetzwerk inte-griert. Durch die Eigenschaft der Lageunabhängigkeit bei rezeptiven Feldern, berück-sichtigt solch eine Architektur implizit die variable Distanz zwischen beiden Boxen ineinem einzigen Netz. Beide hidden layers, je eine für eine der Boxen, sind verbunden miteiner output unit. Diese output unit soll idealerweise für einen Promotor "1" und für einerandom-Sequenz "0" sein. In Abhängigkeit des alignments der dem Netz präsentiertenMustersequenzen an der "-10-Box" hat das resultierende Netz ein starkes Gewicht derzum alignment an der "-10-Box" passenden Position in der "-10-Box- hidden layer" zuroutput unit. Außerdem besitzt es sieben annähernd gleichstarke Gewichte für jedespacing-Klasse von der "-35-Box-hidden layer" zur output unit (Abbildung 3.6). Das re-sultierende Netz ist eine 1:1-Abbildung der biologischen Geometrie der Transkripti-onsstelle in ein künstliches physikalisches Neuronales Netz.

Durch die Untersuchung der Gewichtsmatrix der beiden rezeptiven Felder und derGewichtsmatrix der hidden layers zum output erhält man interessante "Statistiken"darüber, wie wichtig bestimmte Signale in der Eingabeschicht für die Aktivierung desoutputs sind. Ein starkes Gewicht in einem rezeptiven, gekoppelten Feld steht für dieBewertung einer bestimmten Base exakt an dieser Position in der Promotorbox in bezugauf die Gesamtaussage für eine Promotorstelle. Hinton-Diagramme für jede resultierende

Page 46: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 3 Methoden 46

Gewichtsbox, die die Basen an den fixen Stellen in einer Box repräsentieren, sind inAbbildung 3.6 gezeigt.

Ein Neuron in einer hidden layer kann als ein Neuron für eine Promotorbox an einerspezifischen Position im Eingabefenster interpretiert werden. Zum Beispiel erfährt eineunit in der ersten hidden layer eine starke Aktivierung, wenn ein Muster an der verbun-denen Eingabeposition eine Sequenz aufweist, die homolog zu "TATAAT" ist, da das re-zeptive Feld der ersten hidden layer initialisiert und anschließend trainiert wurde, um das"TATAAT"-Muster zu repräsentieren. Zwischen der Homologie des Musters zur"optimalen" "TATAAT"-Sequenz und der Stärke der Aktivierung besteht zusätzlich einedirekte, positive Korrelation. Die Homologie eines "TATAAT"-Musters an der spezifi-schen "-10-Stelle" in der Gesamtpromotorstelle erhält ihre Bewertung in der Aktivierungder verbundenen hidden unit in der "TATAAT"-layer. Wie man in Abbildung 3.6 er-kennt, hat wie erwartet eine unit in der ersten hidden layer des trainierten Netzes einsehr starkes Gewicht zur output unit. Diese Position ist die korrekte Position für die "-10-Box" in einer Promotorregion. Die zweite hidden layer hat sieben starke Gewichtezur output unit. Jede Verbindung symbolisiert eine der sieben spacing classes zwischenbeiden Boxen, d. h. die "-35-Box" kann mit sieben verschiedenen Abständen zur "-10-Box" in Promotoren auftreten. Das Neuronale Netz, welches die beste Genauigkeit fürdie Vorhersage einer gesamten Promotorregion erzielt, kann als beste Abbildung derPromotorgeometrie betrachtet werden. Die genaue Untersuchung des trainierten Netzesim Hinblick auf das biologische Verständnis des Bindungsprozesses wird in Kapitel 4.4.5durchgeführt.

Page 47: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 3 Methoden 47

A

C

T

G

W2:

T AT G C A

A

C

T

G

T TAA T A

W1:

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

T

G

C

A

-10

input

"TATAAT"-layer

W2

W1

-1

"TTGACA"-layer

0.623

0.804

0.914

+1

-2.44

-1.43

-2.62

+2.76+1.31

-35

output unit

Abbildung: 3.6:

Das trainierte, physikalische time-delay-Neuronale Netz:

Die Kästchen symbolisieren die units. Oben ist das Eingabefenster mit der DNA-Se-quenz, codiert mit vier units, dargestellt. Die markanten Promotorboxen in dieser Teil-sequenz sind gezeigt.

Die time-delay-Verbindungsstruktur ist durch die rezeptiven Felder angedeutet. Währenddie input units nur 1 oder 0 sein können, können die hidden units und die output unitWerte zwischen 0 und 1 annehmen. Die Gewichtsmatrizen W1 und W2 der rezeptivenFelder ist in den Hinton-Diagrammen skaliert dargestellt. Ein dunkles Kästchen bedeutetein starkes Gewicht von dieser Base zur Merkmals-layer einer Box.

Die Bewertung der output unit faßt die Informationen aus beiden hidden layers zusam-men und klassifiziert die anliegende Teilsequenz im Eingabefenster.

Page 48: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 48

4 Erkennung prokaryontischer Promotoren

Im ersten Teil des praktischen Einsatzes von Neuronalen Netzen soll sich mit demErkennungsproblem von prokaryontischen Promotoren in E.coli-Sequenzen beschäftigtwerden. Zu Beginn werden existierende Erkennungsmethoden und die wichtigstenArbeiten, die diese Methoden benutzen, vorgestellt. Arbeiten, die die Methode derNeuronalen Netze verwenden, werden detaillierter besprochen. Nach der Beschreibungdes benutzten Datenmaterials, werden die erzielten Ergebnisse erläutert, wobei dieVerbesserungen der Genauigkeit der Promotorvorhersage im Vordergrund stehen, aberauch auf aus den Ergebnissen ableitbare biologische Erkenntnisse eingegangen werdensoll. Eine Diskussion der Resultate bei den prokaryontischen Promotoren wird am Endeerfolgen, wobei auch Schlußfolgerungen im Hinblick auf die Promotorerkennung bei Eu-karyonten gezogen werden.

4.1 Existierende Methoden

In der Literatur gibt es bisher in bezug auf die Lösung dieses Problems sowohl statisti-sche Ansätze als auch Ansätze unter Verwendung von Neuronalen Netzen.

4.1.1 Statistische Methoden

Die ersten theoretischen Untersuchungen im Bereich der prokaryontischen Pro-motorerkennung auf der DNA-Sequenz waren statistische. Staden [27] benutzteine statistische Gewichtsmatrix für die Vorhersage. Sie wird von ihm erstellt, in-dem er die Verteilung der Basen in bekannten Promotoren berechnet, die vonHawley und McClure [16] zusammengestellt wurden. Dabei berücksichtigt er dieFunktion eines Tripletts von Nucleotiden, welche in der Codierung für eine Ami-nosäure liegt, indem er die Verteilung für Codons berechnet. Bei der Anwendungdieser Gewichtsmatrix zur Klassifikation auf einer Menge von Promotorsequen-zen, die nicht bei der Erstellung der Matrix berücksichtigt werden, erzielt er eineVorhersagegenauigkeit von 81,6% (correct positiv [c. p.]), wobei die Vorhersageauf random-Sequenzen eine falsche Promotorklassifizierung von 0,84% (falsepositiv [f. p.]) verursacht.

Mulligan et al. [51] erstellen ebenfalls eine statistische Gewichtsmatrix, welchemit den gleichen Daten aus Hawley und McClure berechnet wird. Allerdings be-nutzen sie eine andere Gleichung für die Erstellung der Matrix. Die Ergebnisseweichen in geringem Maße von denen Stadens ab (80,6% korrekter Erkennungbei einer falsch positiv Rate von 0,85%)

Page 49: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 49

4.1.2 Neuronale Netze-Methoden

Den ersten Ansatz zur Promotorvorhersage mit Neuronalen Netzen stellenNakata et al. [52] vor. Sie verbessern die relativ schwache Perzeptron-Vorhersa-ge durch die Kombination mit anderen biochemischen Analyseverfahren(basepair dependent helical twist, torsion angle, thermal stability map, meltingtemperature etc.) unter Anwendung der Diskriminanzanalyse. Als Daten benut-zen sie insgesamt 90 true promoters aus dem Promotortableau von Hawley/ Mc-Clure [16] und 102 mit einem Zufallsgenerator erstellte false promoters. Die falsepromoters unterscheiden sich in den zwei Boxen ("TTGACA" und "TATAAT")von den Consensusboxen an >8 Stellen (digits) und liegen >50 Basenpaare vonden true promoters entfernt. Es ergibt sich eine Trainingsmenge von 57 true und59 false und eine Testmenge von 33 true und 43 false Promotormustern. Diebesten Vorhersageergebnisse auf einer unbekannten Testmenge liegen bei ca.75%.

Lukashin et al. [53] gehen das Problem der Promotorvorhersage mit einer ganzspeziellen Architektur eines feedforward-Neuronalen Netzes an. Sie nennen ihrNetzwerk block neural network. Jeder "Block" wird mit Segmenten einer be-stimmten Länge, die den konstanten Regionen in einem Promotor entspricht, z.B. die 6 bp lange "-10-Box", unabhängig trainiert. Die outputs jedes "Blocks"werden dann in einer output unit zusammengefügt, die die Vorhersage für diegesamte Promotorregion durchführt. Als Trainingsdaten benutzen Lukashin et al.25 "starke" Promotoren der Harley-Reynolds-Zusammenstellung [30] und 250random-Sequenzen als "Nicht-Promotoren". Die Testmenge besteht aus jeweilszwei Paaren von Hexanucleotidboxen, extrahiert aus 222 Anfangssequenzen ausder Harley-Reynolds-Zusammenstellung (die 25 "starken" Promotoren sind auchin der Testmenge enthalten) und 2.220 random-Sequenz-Paaren. Man erkennt,daß die Daten doch sehr stark auf das Problem zugeschnitten sind.

So erzielen Lukashin et al. Vorhersageergebnisse mit der Testmenge von 94% bis99% bei einem Anteil von fälschlicherweise als Promotoren identifizierten Mu-stern von 2% bis 6%. Bei der Anwendung auf die pBR322-Gensequenz (8.726Nucleotide) werden alle sechs Promotoren korrekt erkannt und in Abhängigkeitdes benutzten Schwellenwertes des outputs zwischen neun und 180 falsch alsPromotor klassifiziert (ca. 2% f. p.).

Demeler und Zhou [54] benutzen ebenfalls ein feedforward-Netz zur Klassifizie-rung. Es besitzt eine hidden layer, deren Anzahl an hidden units variiert wird. AlsDaten benutzen auch Demeler und Zhou Hawley/ McClures Promotorzusam-menstellung [16]. Die 80 bacterial und phage promoters dienen als Trainings-menge und die 30 plasmid und transposon promoters als Testmenge. Die Mes-sungen werden in Abhängigkeit von dem Verhältnis der Promotorsequenzen zuden zufällig erzeugten random-Sequenzen in der Trainingsmenge durchgeführt.

Für eine den gesamten Promotorbereich umfassende Fenstergröße (44 bp) ist einMusterverhältnis von Promotoren zu random (p:r) in der Trainingsmenge von 1:5optimal und erzielt eine Vorhersagegenauigkeit für die Trainingsmenge nach

Page 50: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 50

beendetem Training von 98,4% (fünf hidden units in der hidden layer). Die hoheErkennungsrate von 98,4% hat allerdings eine große Überinterpretation zur Folge(fälschlicherweise als Promotor vorhergesagt: 2% bis 6%). Eine Vorhersagege-nauigkeit auf einer unbekannten Testmenge, welches ein objektiveres Maß wäre,wird nicht erwähnt. Zusammenfassend stellen Demeler und Zhou fest, daß dieAnzahl der hidden units in der hidden layer keinen großen Einfluß auf dieVorhersage hat. Das Verhältnis von Promotoren zu random-Sequenzen in denTrainingsdaten hat dagegen größere Bedeutung.

Beim Test mit einer Original-Gensequenz (phage fd-Sequenz; 6408 Nucleotide)werden mit optimalem Netz von den vorhandenen elf Promotoren neun als"stark" entdeckt, während die übrigen zwei nicht erkannt werden. Der Wert derfälschlicherweise als Promotoren vorhergesagten Teilsequenzen bleibt allerdingssehr hoch (ca. 5% falsch positiv), was das gute Ergebnis auf der Trainingsmengerelativiert.

O`Neill berichtet in zwei Veröffentlichungen [55,56] von seiner Arbeit mit Neu-ronalen Netzwerken. Die Daten bei den ersten Untersuchungen [55] extrahiertO`Neill aus der Liste von Youderian et al. [57], bei den zweiten Untersuchungen[56] wurden die Promotorlisten von Hawley/ McClure [16] und Harley/ Reynolds[30] benutzt. Die random-Sequenzen als Negativbeispiele werden mit einem pre-screening bearbeitet, um zufällig erzeugte, promotorähnliche Sequenzen zu eli-minieren. Dieses pre-screening basiert auf einem existierenden Promotorsuch-programm, das die informationstheoretische und statistische Elemente miteinan-der verbindet [58].

O`Neill trainiert drei feedforward-Netze, je ein Netz für eine der Haupt-spacing-Klassen. So umgeht er das große Problem der variierenden Distanz der beidensignifikanten Promotorboxen. Ein einzelnes nur mit Promotoren der gleichenspacing-Klasse trainiertes Netz erreicht eine Vorhersagegenauigkeit von 78% bis97% (abhängig von der Klasse) auf einer Testmenge mit für das Netz unbekann-ten Promotoren.

Durch die Differenzierung in die einzelnen Klassen kann eine falsch positiv Rateinnerhalb einer Klasse von unter 0,1% erzielt werden.

Eine Kombination aus den für die einzelnen Klassen am besten vorhersagendenNetzen erkennt fünf von den sechs existierenden Promotoren beim Test auf dempBR322-Genom. Die falsch positive Vorhersage beträgt ca. 0,1% bis 0,5%.

Horton et al. [59] stellen einen weiteren interessanten Ansatz zur Vorhersage vonE.coli-Promotoren vor. Sie benutzen die Promotorzusammenstellung von Harley/Reynolds [30]. Ihre Neuronalen Netze nennen sie trimmed neural networks, wasdamit zu erklären ist, daß sie durch das Löschen von Gewichten, die sichwährend des Trainings als schwach erweisen, die Anzahl von Gewichten in einemvollvernetzen Neuronalen Netz reduzieren. Außerdem benutzen sie keinerandom-Sequenzen als "Nicht-Promotor"-Muster, sondern füllen sowohl dieTrainings- als auch die Testmenge mit coding-region-Sequenzen aus GenBank(release 65.0) als negative Muster auf. Auch durch eine verbesserte Codierungversuchen Horton et al. die Vorhersagegenauigkeit eines Neuronalen Netzes zu

Page 51: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 51

verbessern. Die Nucleotide werden mit einem siebendimensionalen Code codiert.Zu dem üblichen vierdimensionalen Code kommen noch drei Zusatzbits, dieAussagen über zwei durch eine "ODER-Funktion" verbundene Basen machen.(Beispiel: "A" oder "G" => Zusatzinformation, daß es sich hier um eine Purinbasehandelt.) Außerdem dient dem Netz die weitere Information über die Umgebungder betrachteten Base in Form von Häufigkeiten des Auftretens einer Base alsinput. Damit wird dem Netz explizit mitgeteilt, ob sich das betrachtete Nucleotidz. B. in einer "GC"-reichen Region befindet oder nicht. Jedes Nucleotid wirdsomit mit 14 bits codiert.

Die Vorhersagegenauigkeit des so erzeugten Perzeptrons mit 81 input units aufder Testmenge beträgt 80,6% mit einer falsch positiv Rate von 0,86%. Diese Er-gebnisse sind vergleichbar mit den Ergebnissen der oben besprochenen statisti-schen Methoden von Staden [27] und Mulligan [51].

Shavlik et al. [60] setzen ebenfalls Neuronale Netze ein, um Promotorsequenzenvorherzusagen. Ihr interessanter Lösungsversuch besteht darin, biologisches Wis-sen über Promotoren zu benutzen, um ein Neuronales Netz zu Beginn des Trai-nings zu konfigurieren. Um die Vorhersagegenauigkeit des initialen Netzes zuverfeinern, wird das feedforward-Netz mit einer kleinen Datenmenge von 106Mustern trainiert, die zur Hälfte aus Promotoren, extrahiert von Hawley undMcClure [16], und zur anderen Hälfte aus DNA-Sequenzen von E.coli bestehen,die durch biologische Tests nachweislich keine Promotorstellen enthalten. AlsTest benutzen Shavlik et al. die jack-knife oder leave-one-out-Methode, d. h., sietrainieren mit 105 Promotoren und überprüfen, ob die nicht mittrainierte Sequenzrichtig klassifiziert wird. Die Vorhersagegenauigkeit des noch nicht trainierteninitialen Netzes beträgt 50%. Das trainierte Netz klassifiziert für die sehr kleineDatenmenge mit der jack-knife-Methode vier von 106 "wahre" Promotoren falsch(94,3% c. p. bei 0,94% f. p.) und verbessert somit die Vorhersagegenauigkeit desinitialen Netzes um ca. 44%. Aufgrund dieser speziellen Testmethode und feh-lender publizierter Ergebnisse auf einem Originalgen, können diese Resultate nurschwer verglichen werden.

Besonders interessant ist auch der zweite Teil der Arbeit, bei der Shavlik et al.versuchen, aus dem fertig trainierten Netz mit Hilfe des selbstentwickelten"KBANN"-Algorithmus Regeln zu extrahieren, die Rückschlüsse auf die biologi-sche Funktion der Signalboxen und sogar auf einzelne Basenpositionen erlauben.Die so erzeugten Ergebnisse sind allerdings ziemlich ungenau und allgemein ge-halten. Zusammenfassend schließen Shavlik et al. aus den Regeln, daß die Basenaußerhalb der Promotorboxen, wenn überhaupt, nur einen sehr geringen Beitragzur Signalfunktion des Promotors leisten und daß Basenpositionen innerhalb derBoxen von unterschiedlicher Bedeutung für die Funktion sind.

Page 52: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 52

4.2 Daten

4.2.1 Promotoren

Die Promotorsequenzen werden der Zusammenstellung von Harley/ Reynolds[30] entnommen. Diese Zusammenstellung enthält 272 E.coli Promotoren, derenSignalwirkung für die RNA-Polymerase aus biochemischen und genetischen Un-tersuchungen bekannt und belegt ist. Diese bekannten Promotoren setzen sichsowohl aus wild-type-Promotoren wie bacterial, phage, plasmid und transposonPromotoren als auch aus mutierten Promotoren zusammen. Die genaue Lage desTranskriptionsstart hinter der Promotorregion ist mittels Vergleichen von trans-kribierten RNA-Sequenzen und DNA-Sequenzen, die als Matrizen für die Syn-these der RNA fungierten, bestimmt worden und ist in dem Tableau von Harley/Reynolds markiert. Ein Ausschnitt aus diesem Tableau ist in Abbildung 4.1 ge-zeigt. Die aufgelisteten Promotoren sind an der "-10-Box" aligned, da dieses Si-gnal am stärksten konserviert ist. Wie bei fast allen genetischen Daten kann vorallem wegen der großen Datenmenge eine Garantie auf Fehlerlosigkeit auch imbezug auf das alignment nicht gegeben werden. Aus diesem Grund soll schon hierauf diese mögliche Fehlerquelle hingewiesen werden, die sich in den Ergebnissenniederschlagen könnte. Diesem Problem des ungenauen alignments sollte bei derBearbeitung der Daten Rechnung getragen werden, d. h., Verarbeitungsalgorith-men, die gegen ein ungenaues alignment der Daten resistent sind, wären von gro-ßem Vorteil und bei der Bearbeitung dieser Daten besonders effizient einsetzbar.

Um beim Einlesen der Daten die wichtigsten bekannten Signalregionen eines Pro-motors einzuschließen, wird eine Teilsequenz von 46 bp, die der Eingabefenster-größe des Neuronalen Netzes entspricht, als Promotorregion aus der Zusam-menstellung extrahiert. Vom '5-Ende zum '3-Ende enthält diese Teilsequenz derReihe nach die "-35-Box" (6 bp), die spacing region von maximal 21 bp, die "-10-Box" (6 bp) und am '3-Ende eine Sequenz von 13 bp, die den Transkriptions-start umfaßt (auch CAP-signal genannt). Um auch Sequenzen in der Zusammen-stellung von Harley/ Reynolds benutzen zu können, deren Länge kürzer als dieerforderlichen 46 bp ist, werden diese Sequenzen mit den aus GenBank (release75.0) erhaltenen Originalbasen aufgefüllt. Dieses ist nötig, da ein NeuronalesNetz eine bestimmte Anzahl von Trainingsmustern braucht, um Regeln korrektaus den Daten extrahieren zu können. Eine Gesamtmenge von 272 Musternscheint für die Modellierung eines solch komplexen Systems schon das Minimumzu sein. So enthält die benutzte Datenmenge 272 Promotorsequenzen gleicherLänge. Die aufgefüllte Promotorzusammenstellung ist via INTERNET mitanonymous ftp erhältlich.

Page 53: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 53

Abbildung 4.1:

Auszug aus dem Promotortableau von Harley/ Reynolds [30]. Die beiden Promotor-boxen "-35" und "-10" sind aligned. Am Ende jeder Zeile wird dem Promotor eine spac-ing-Klasse zugeteilt.

Page 54: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 54

4.2.2 Die Zusammensetzung der Trainings- und Testmenge

Die Zusammenstellung von Harley/ Reynolds wird in eine Trainings- und eineTestmenge aufgeteilt. Um ein trainiertes Neuronales Netz an den Originalgense-quenzen von pBR322 zu evaluieren, werden alle pBR322-Promotoren aus derPromotorsammlung in die Testmenge genommen. Dadurch soll vermieden wer-den, daß das Training nur als ein Wissensspeicher anzusehen ist, der bei der Eva-luierung am Originalgen pBR322 verwendet wird. Durch diese Einteilung mußdas Netz anhand anderer Promotoren Regeln extrahieren, die eine korrekte Klas-sifikation der unbekannten pBR322 Promotoren zuläßt. Für eine weitere Evalu-ierung des Netzes mit der Originalsequenz des Phagen fd sind keine weiterenVorkehrungen zu treffen, da die auf fd liegenden Promotoren nicht in der Zu-sammenstellung von Harley/ Reynolds enthalten sind. Die Trainingsmenge enthält152 Promotoren und die Testmenge enthält 120 Promotoren, wobei sogenannte"starke" und "schwache" Promotoren in beiden Mengen zufällig verteilt sind. DieZuordnung der Promotoren in die jeweilige Menge ist in Tabelle 4.1 gezeigt.

Bei der Zusammensetzung der Trainings- und Testmenge wird darauf geachtet,daß Trainings- und Testmenge keine identischen Sequenzen enthalten. Dieses sollvermeiden, daß die Testmenge keine aus dem Training bekannte Sequenzen ent-hält, für die dann eine Vorhersage trivial wäre.

Page 55: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 55

trainingset

1

aceEF

31

cit.util-431

61

gal-P2/mut-1

91

lacP2

121

manA

151

phiXB

2

ada

32

CloDFcloacin

62

gal-P2/mut-2

92

lep

122

metA-P1

152

phiXD

3

alaS

33

CloDFnaI

63

glnL

93

leu

123

metA-P2

4

ampC

34

colE1-B

64

gln

94

leultRNA

124

metBL

5

ampC/C16

35

colE1-C

65

gltA-P1

95

lex

125

metF

6

araBAD

36

colE1-P1

66

gltA-P2

96

livJ

126

micF

7

araC

37

colE1-P2

67

glyA

97

lpd

127

motA

8

araE

38

colE110.13

68

glyA/geneX

98

lpp

128

MuPc-1

9

araI(c)

39

colicinE1-P3

69

gnd

99

lpp/P1

129

MuPc-2

10

araI(c)X(c)

40

crp

70

groE

100

lpp/P2

130

MuPe

11

argCBH

41

cya

71

gyrB

101

lpp/R1

131

NR1rnaC

12

argCBH-P1/6-

42

dapD

72

his

102

Mlrna

132

NR1rnaC/m

13

argCBH-P1/LL

43

deo-P1

73

hisA

103

mac11

133

NTP1rna100

14

argE-P1

44

deo-P2

74

hisBp

104

mac12

134

nusA

15

argE-P2

45

deo-P3

75

hisJ(St)

105

mac21

135

ompA

16

argE/LL13

46

divE

76

hisS

106

mac3

136

ompC

17

argF

47

dnaA-1p

77

htpR-P1

107

mac31

137

ompF

18

argI

48

dnaA-2p

78

htpR-P2

108

malEFG

138

ompF/pKI217

19

argR

49

dnaK-P1

79

htpR-P3

109

malK

139

ompR

20

aroF

50

dnaK-P2

80

ilvGEDA

110

malPQ

140

p15primer

21

aroG

51

dnaQ-P1

81

ilvIH-P1

111

malPQ/A516P1

141

p15rnaI

22

aroH

52

Fpla-oriTpX

82

ilvIH-P2

112

malPQ/A516P2

142

P22ant

23

bioA

53

Fplas-traM

83

ilvIH-P3

113

malPQ/A517/A

143

P22mnt

24

bioB

54

Fplas-traY/Z

84

ilvIH-P4

114

malPQ/Pp12

144

P22PR

25

bioP98

55

frdABCD

85

ISlins-PL

115

malPQ/Pp13

145

P22PRM

26

C62.5-P1

56

fumA

86

ISlins-PR

116

malPQ/Pp14

146

pBR313Htet

27

carAB-P1

57

gamma-delta-tnpA

87

IS2I-II

117

malPQ/Pp15

147

pColViron-P1

28

carAB-P2

58

gamma-delta-tnpR

88

lacI

118

malPQ/Pp16

148

pColViron-P2

29

cat

59

gal-P1

89

lacP1

119

malPQ/Pp18

149

pEG3503

30

cit.util-379

60

gal-P2

90

lacP115

120

malT

150

phiXA

testset

153

pori-I

173

rpmH2p

193

RSFrnaI

213

Tn10tetR

233

trpS

253

lambdaL57

154

pori-r

174

rpmH3p

194

S10

214

Tn10tetR*

234

trxA

254

lambdaPI

155

ppc

175

rpoA

195

sdh-P1

215

Tn10xxxP1

235

tufB

255

lambdaPL

156

pSC101oriP1

176

rpoB

196

sdh-P2

216

Tn10xxxP2

236

tyrT

256

lambdaPo

157

pSC101oriP2

177

rpoD-Pa

197

spc

217

Tn10xxxP3

237

tyrT/109

257

lambdaPR

158

pSC101oriP3

178

rpoD-Pb

198

spot42r

218

Tn2660bla-P3

238

tyrT/140

258

lambdaPR'

159

pyrB1-P1

179

rpoD-Phs

199

ssb

219

Tn2661bla-Pa

239

tyrT/178

259

lambdaPRE

160

pyrB1-P2

180

rpoD-Phs/min

200

str

220

Tn2661bla-Pb

240

tyrT/212

260

lambdaPRM

161

pyrD

181

rrn4.5S

201

sucAB

221

Tn501mer

241

tyrT/6

261

pBR322bla

162

pyrE-P1

182

rrnABP1

202

supB-E

222

Tn501merR

242

tyrT/77

262

pBR322P4

163

pyrE-P2

183

rrnABP2

203

T7-A1

223

Tn5TR

243

uncI

263

pBR322primer

164

R100rna3

184

rrnB-P3

204

T7-A3

224

Tn5neo

244

uvrB-P1

264

pBR322tet

165

R100RNAI

185

rrnB-P4

205

T7-C

225

Tn7-PLE

245

uvrB-P2

265

pBRH4-25

166

R100RNAII

186

rrnDEXP2

206

T7-D

226

tnaA

246

uvrB-P3

266

pBRP1

167

R1RNAII

187

rrnD-P1

207

T7A2

227

tonB

247

uvrC

267

pBRRNAI

168

recA

188

rrnE-P1

208

T7E

228

trfA

248

uvrD

268

pBRtet-10

169

rnh

189

rrnG-P1

209

TAC16

229

trfB

249

434PR

269

pBRtet-15

170

rnp(RNaseP)

190

rrnG-P2

210

Tn10Pin

230

trp

250

434PRM

270

pBRtet-22

171

rp1J

191

rrnX1

211

Tn10Pout

231

trpP2

251

lambdac17

271

pBRtet/TA22

172

rpmH1p

192

RSFprimer

212

Tn10tetA

232

trpR

252

lambdacin

272

pBRtet/TA33

Tabelle 4.1.

Page 56: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 56

Tabelle 4.1:

Aufteilung der Promotoren aus der Zusammenstellung von Harley und Reynoldsin eine Trainings- und eine Testmenge.

4.2.2.1 Zusammensetzung der Trainingsmenge

Um die Parameter einer optimalen Trainingsmenge zu bestimmen, werden Neuro-nale Netze mit Trainingsmengen, die verschiedenartige Strukturen aufweisen,trainiert. Die unterschiedlichen Strukturen der verwendeten Trainingsmengen sol-len hier erläutert werden.

4.2.2.1.1 "Nicht-Promotoren" als Negativmuster

Ein bei den Untersuchungen mit Neuronalen Netzen häufig auftretendes Problembei der Wahl der Trainingsmenge besteht darin, daß Neuronale Netze beim über-wachten Lernen zu einem Eingabevektor (input vector) einen Zielvektor (targetvector) benötigen, und für die einzelnen Klassen (hier: Promotor - "Nicht-Promo-tor") genügend Paare aus Eingabe- und Zielvektor vorhanden sein müssen. Spe-ziell bei der Promotorerkennung stellt sich das Problem, zu der Klasse von Pro-motoren eine Klasse von "Nicht-Promotoren" zu bilden. Was aber ist ein "Nicht-Promotor"? Welche Struktur hat ein "Nicht-Promotor"?

Diese Fragen können nicht beantwortet werden, doch soll untersucht werden,welchen Einfluß die Struktur einer "Nicht-Promotor-Menge" auf die Vorhersage-genauigkeit eines damit trainierten Neuronalen Netzes hat. Dazu werden, in An-lehnung an existierende Arbeiten mit DNA-Sequenzen, mit einem Zufallsge-nerator random-Sequenzen als "Nicht-Promotoren" erzeugt. Der Zielvektor einersolchen random-Sequenz wird mit "0" codiert, während ein "wahrer" Promotormit "1" codiert wird. Die Basen "A", "C", "G" und "T" in den random-Sequenzensind gleichverteilt.

Es werden zwei strukturell unterschiedliche Trainingsmengen zusammengesetzt.Die erste Trainingsmenge enthält neben den tatsächlichen Promotoren reine ran-dom-Sequenzen. Die zweite Trainingsmenge enthält die gleichen, positiven Mu-ster wie die erste Trainingsmenge, doch die erzeugten random-Sequenzen wer-den vorher einer screening-Prozedur unterzogen. Damit soll vermieden werden,daß random-Sequenzen, die eine ähnliche Struktur der Basenzusammensetzungwie wirkliche Promotoren haben, herausgefiltert werden. Promotorähnliche Se-quenzen könnten ein Neuronales Netz während des Lernvorgangs "irritieren",was sich an der Abnahme der Vorhersagegenauigkeit dieses Netzes zeigenwürde.

4.2.2.1.1.1 Die screening-Prozedur

Für die screening-Prozedur wird die statistische Untersuchung von Bucher [61]benutzt. Diese Untersuchung berechnet diejenigen Tripletts in einer Promotorboxund deren Umgebung, die nach der statistischen Analyse von existierenden Pro-motoren am häufigsten auftreten. Für die screening-Prozedur werden die sieben

Page 57: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 57

am häufigsten auftretenden Tripletts sowohl für die "-35-Box" als auch für die "-10-Box" genommen. Diese Tripletts werden durch eine "UND"-Funktion mitein-ander verknüpft, d. h. eine random-Sequenz wird dann aus der Trainingsmengeentfernt, wenn für jede Box mindestens eines der ausgewählten Tripletts auftritt.Dabei wird berücksichtigt, daß zwischen beiden Boxen sieben verschiedene Di-stanzen vorkommen können.

4.2.2.1.1.2 Verhalten der screening-Prozedur auf den Datenmengen

Mit der Anwendung der screening-Prozedur auf die beiden Testgene in Form ei-ner statistischen Untersuchung können außerdem Aussagen über die unterschied-liche Struktur der beiden Originalgene und der Promotormenge mit den random-Sequenzen gemacht werden, was bei der Vorhersage auf den drei Testmengennützlich sein wird.

Zudem kann die statistische screening-Untersuchung zu einem Vergleich mit denentwickelten Neuronalen Netzen in bezug auf ihre Vorhersagegenauigkeit heran-gezogen werden.

Die aus diesen Gründen durchgeführten Tests mit den Ergebnissen auf allen dreiDatenmengen sind in Tabelle 4.2 gezeigt. Die korrekt positive Vorhersage aufden Promotoren erreicht eine Erkennungsrate von bis zu 73,9%. Allerdings wirdauch ca. jede 27. random-Sequenz als Promotor klassifiziert (3,67% f. p.). Aufder Originalgensequenz von pBR322 werden alle existierenden sechs Promotorenkorrekt erkannt, doch werden weitere 201 Teilsequenzen von 8.726 Teilsequen-zen als Promotoren klassifiziert (2,3%). Auf phage fd können zwei der elf Pro-motoren nicht erkannt werden. Vergleicht man die falsch positiven Klassifikatio-nen der beiden Originalgene, fällt auf, daß die falsch positiv Klassifikation beidem Phagen fd mehr als doppelt so hoch ist wie beim Plasmid pBR322. Diesesläßt die Aussage zu, daß auf dem Phagen mehr promotorähnliche Teilsequenzenexistieren als auf dem Plasmid, was mit der biologischen Funktion der beiden un-terschiedlichen Typen von DNA zusammenhängen könnte. Außerdem scheint da-durch auch eine exakte Klassifikation für die Neuronalen Netze auf dem Phagenfd schwieriger zu werden als auf pBR322, was bei den weiteren Untersuchungenzu berücksichtigen ist.

Page 58: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 58

Testmengen Erkennung

Promotoren 201/272=73,9% c. p. bei 3,67% f. p.

pBR322 6/6=100,00% c. p. bei 2,30% f. p.

phage fd 9/11=81,81% c. p. bei 5,86% f. p.

Tabelle 4.2: Erkennung der screening-Untersuchung auf allen Promotoren undden Genomen pBR322 und phage fd.

4.2.2.1.2 Verhältnis von positiven zu negativen Beispielen

Um die Auswirkungen des Verhältnisses von Promotorsequenzen (p) zu random-Sequenzen (r) auf die Vorhersagegenauigkeit zu untersuchen, wird dieses Ver-hältnis p:r variiert (1:5, 1:20 und 1:50). Die anderen Trainingsparameter werdenkonstant gehalten, so daß das beste p:r-Verhältnis bestimmt werden kann.

4.2.2.2 Zusammensetzung der Testmenge

Während die Auswirkungen verschiedenartiger Zusammensetzungen der Trai-ningsmenge auf die Ergebnisse untersucht werden, was eine ständige Variationder Trainingsmenge zur Folge hat (Beispiele: p:r-Verhältnis, screening), bleibt dieZusammensetzung der Testmenge bei allen Untersuchungen immer konstant, umeinen objektiven Vergleich der jeweiligen trainierten Netze zu ermöglichen. Umdie Testmenge den Gegebenheiten einer Originalsequenz anzupassen, werden dierandom-Sequenzen einem screening unterzogen, welches vermeiden soll, daßrandom-Sequenzen in der Testmenge die gleiche Struktur wie "wahre" Promoto-ren besitzen. Somit werden die 120 Promotoren mit 3.000 gescreenten random-Sequenzen (p:r von 1:25) aufgefüllt.

Page 59: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 59

4.2.3 Die Originalgenome pBR322 und phage fd als weitere Testmen-gen

Neben der oben beschriebenen Testmenge sollen die trainierten Netzwerke mitden zwei Originalsequenzen von pBR322 [62-64] und phage fd [65,66] evaluiertwerden. Diese Daten werden aus der Datenbank GenBank (release 75.0) extra-hiert. (Der Eintrag von dem Plasmid-Genom pBR322 ist in Abbildung 4.2 ge-zeigt). Ein Fenster mit der passenden Größe von 46 bp wird mit einer Inkremen-tierung von 1 bp über das gesamte Genom "geschoben". Dabei wird bei demPlasmid pBR322 berücksichtigt, daß sich die Polymerase clockwise und counter-clockwise an die doppelsträngige DNA anlagern kann. Dadurch erhält mandoppelt soviel Muster wie Basenpaarpositionen. So wird eine Promotorvorhersa-ge für jede einzelne Basenposition in einem Genom möglich. Die beiden so er-zeugten Mustermengen, in denen die Muster, die einen Promotor enthalten, mar-kiert sind, können als zwei weitere Testmengen angesehen werden. Die Mengevon pBR322 enthält 8.726 Muster mit sechs Promotoren und die Menge vonphage fd enthält 6.408 Muster mit elf Promotoren.

Page 60: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 60

Abbildung 4.2:

Ein Auszug aus dem GenBank-Eintrag für die komplette Sequenz des Plasmids pBR322.In der linken Spalte stehen die Erklärungen zur Sequenz (z. B. CDS (coding sequence))und in der rechten Spalte ist die Original-Nucleotidsequenz als Ausschnitt aufgeführt.

Page 61: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 61

4.2.4 Datenrepräsentation

Bei der Bearbeitung eines Problems mit Neuronalen Netzen spielt die Repräsen-tation der Daten, die bearbeitet werden sollen, eine entscheidende Rolle.

Um die Basen "A", "C", "G" und "T" einem Neuronalen Netz übergeben zu kön-nen, muß diese Buchstabencodierung in eine bit-Repräsentation überführt wer-den. Wie die Anwendung Neuronaler Netze in früheren Arbeiten zur DNA-Ana-lyse gezeigt haben [3,33,54,55], ist ein lokaler, einfacher orthonormaler Code derDimension 4 (4-bit-code) als Repräsentationsform für die einzelnen Basenoptimal. In dieser Arbeit wird folgende Codierung gewählt:

A = 1000, C = 0100, G = 0010, T = 0001.

Auch eine linear abhängige Codierung der Dimension 2 (Beispiel: A = 00, C =01, usw.) anstatt obiger unabhängiger Codierung der Dimension 4 wäre denkbar.Demeler und Zhou [54] zeigen jedoch explizit, daß die vierdimensionale Codie-rung durch die identische Hamming-Distanz 2 zwischen jedem Vektor bessereVorhersageergebnisse (durchschnittlich um 9% besser) bei der Bearbeitung mitNeuronalen Netzen liefern als die zweidimensionale Codierung mit unter-schiedlichen Hamming-Distanzen (00 zu 01 ergibt eine Hamming-Distanz von 1,während 00 zu 11 eine Hamming-Distanz von 2 hat). Durch die Verwendungdieses Codes wird eine Korrelation zwischen Codevektoren verschiedener Basenvermieden, die die Adaptionsfähigkeit eines Neuronalen Netzes beeinträchtigenkönnte.

4.3 Training

Dieses Kapitel beschreibt die Meßproblematik und die Determinierung der einzelnen Pa-rameter, die während des Trainings auftreten.

4.3.1 Messung der Qualität eines trainierten Neuronalen Netzes alsVorhersagesystem

Alle folgenden Untersuchungen mit Neuronalen Netzen werden im Hinblick aufeine verbesserte Vorhersagegenauigkeit für prokaryontische Promotoren durch-geführt. Die Verbesserung wird anhand der Vorhersageergebnisse auf die dreioben erläuterten Testmengen gemessen. Dieses Vorgehen impliziert das Problem,daß bestimmte Verbesserungen auf einer Testmenge bei einer anderen Testmengeeine Verschlechterung der Vorhersage zur Folge hat. Desweiteren besteht bei derMessung dieser Vorhersagegenauigkeit die Schwierigkeit, ein relevantes Maß fürdie Vorhersage zu formulieren. Um die Vorhersage zu bewerten, erscheinen fol-gende Beschreibungsmaße, hier formuliert als Fragen, relevant zu sein und

Page 62: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 62

werden bei der Beurteilung und Beschreibung der Vorhersagegenauigkeit einestrainierten Netzes immer wieder berücksichtigt:

1. Wie groß ist die korrekt positive Vorhersagegenauigkeit bei einer falschpositiven Vorhersage von 0%?

2. Wie groß ist die korrekt positive Vorhersagegenauigkeit bei einer falschpositiven Vorhersage von 1%? (Dieser Wert hat sich aus praktischen An-forderungen der experimentierenden Biologen als akzeptabler theoretischerFehler erwiesen.)

3. Wie groß ist die falsch positive Vorhersage bei einer korrekt positivenErkennung von 100% (teilweise auch andere c. p.-Werte möglich)?

4. Wie groß ist die Korrelation [67] bei einer bestimmten Vorhersagerate(meist für 1% falsch positive Vorhersage angegeben)?

Für die Bewertung der trainierten Netzwerke wird versucht, eine Art der Mitte-lung dieser Meßergebnisse durchzuführen, um z. B. als Abbruchkriterium für dasTraining zu dienen. Wie die Ergebnisse zeigen, werden immer wieder verschiede-ne Netze besonders gute Ergebnisse für bestimmte Maße liefern und bei anderenMaßen schlechtere Vorhersagen treffen. Je nach Anforderung an ein Vorhersage-system könnten geeignete Netze eingesetzt werden, ohne daß man auf ein univer-sales Netz zurückgreifen muß, welches bei speziellen Aufgaben schlechtere Pro-gnosen stellen würde als ein für diese Aufgabe spezifisches.

4.3.2 Determinierung von Parametern während des Trainings

Um Parameter für das Lernen zu optimieren, wird die Vorhersagegenauigkeit ei-nes Neuronalen Netzes an drei Testmengen gemessen. Für jede dieser drei Test-mengen können die im vorigen Kapitel erläuterten Maße für die Vorhersagege-nauigkeit eines Netzes eingesetzt werden. Wie dieses im einzelnen geschieht, sollanhand des 2. Maßes (1% f. p.) beispielhaft erläutert werden. Um die Genauigkeitder Vorhersage eines Netzwerkes zu berechnen, wird zuerst der Schwellenwertfür die falsch positive Klassifikation von 1% der Negativbeispiele (random) er-mittelt. Mit diesem justierten Schwellenwert des outputs wird die Prozentzahl derals korrekt positiv klassifizierten Beispiele angegeben. Wenn z. B. 1% derrandom-Sequenzen in der Testmenge als Promotoren klassifiziert werden, erhältder output des Netzes einen score von 0,5. Die Netzwerkgenauigkeit ist dadurchfestgelegt, wieviel Prozent der tatsächlichen Promotoren einen output-Wert überdiesem Schwellenwert von 0,5 erzielen.

Mit diesem Verfahren wird das Training überwacht, in dem man nach einer klei-nen Anzahl von Trainingszyklen immer wieder mit der Testmenge kontrolliert,wie sich die mit den oben beschriebenen Maßen gemessene Vorhersagegenauig-keit verhält. Diese Prozedur vermeidet das Problem des overlearnings, das sich ineiner Übergeneralisierung des Netzes zeigt, und führt automatisch zur optimalenAnzahl an Trainingszyklen. Sie wird jedesmal eingesetzt, wenn Netzwerke mit

Page 63: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 63

unterschiedlicher Topologie oder mit verschiedenen Trainingsmengen trainiertund anschließend verglichen werden.

4.4 Ergebnisse der prokaryontischen Promotorvorhersage

In mehreren Unterkapiteln werden die einzelnen Ansätze mit Neuronalen Netzen zurVerbesserung der Vorhersagegenauigkeit erläutert und die erzielten Ergebnisse vorge-stellt. Danach wird kurz auf die biologischen Erkenntnisse aus den theoretischen Versu-chen eingegangen und am Schluß werden die erzielten Vorhersageergebnisse mit Ergeb-nissen anderer Arbeiten verglichen.

Die aktuellen Neuronalen Netzwerke werden mit dem Simulatortool für NeuronaleNetze der Universität Stuttgart konstruiert (SNNS, Stuttgarter Neuronale NetzeSimulator) [68].

4.4.1 Variationen der Trainingsmenge

In diesem Kapitel wird gezeigt, welchen Einfluß die Zusammensetzung der Trai-ningsmenge auf die Vorhersagegenauigkeit eines trainierten Neuronalen Netzeshat. Der erste Teil beschäftigt sich mit den Auswirkungen, die eine Trainings-menge auf die Erkennung eines Netzes hat, bei der die random-Sequenzen ge-screent werden.

Im zweiten Teil soll untersucht werden, welches das optimale Verhältnis vonrandom-Sequenzen zu Promotoren in der Trainingsmenge ist, um auf den dreiTestmengen die besten Ergebnisse zu erzielen.

4.4.1.1 Screening der random-Sequenzen

Es soll die Wirkung unterschiedlicher Trainingsmengen, die einmal gescreenteund einmal ungescreente random-Sequenzen enthalten, auf die Vorhersagegenau-igkeit der damit trainierten Netze betrachtet werden. In Abbildung 4.3 sind diesich ergebenden Kurvenverläufe gezeigt, wobei die falsch positiv Rate versus diekorrekt positiv Rate aufgetragen ist.

Es zeigt sich, daß ein Neuronales Netz, das mit einer Trainingsmenge trainiertwird, aus der promotorähnliche Muster eliminiert wurden, auf der Testmenge fastfür jede korrekt positive Klassifikation eine niedrigere und damit bessere falschpositive Klassifikation aufweist. Nur bei einer korrekten Erkennungsrate von93% bis 97,5% scheint ein mit einer gescreenten Trainingsmenge trainiertes Netzbesser zu klassifizieren. Ein ähnlicher Unterschied wird auch beim Test mit denOriginalsequenzen sichtbar. Hier zeigt sich, daß die Vorhersagegenauigkeit durchEliminieren der promotorähnlichen Muster in der Trainingsmenge abnimmt. ZumBeispiel nimmt die falsch positive Vorhersage bei einer vollständigen Erken-nungsleistung aller sechs existierender Promotoren bei pBR322 von 0,34% auf

Page 64: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 64

0,15% ab. Das bedeutet, daß das Neuronale Netz, welches mit der gescreentenTrainingsmenge trainiert wird, neben den sechs echten Promotorstellen noch 32weitere "Pseudopromotorstellen" findet. Das andere Netz, welches mit den reinenrandom-Sequenzen trainiert wird, sagt nur 15 falsche Promotorstellen vorher(Tabelle 4.4).

Weitere Untersuchungen mit noch "stärkerem" screening, d. h., noch mehr pro-motorähnliche random-Muster werden aus der Trainingsmenge eliminiert (alle inBucher [61] aufgeführten Tripletts werden benutzt), haben gezeigt, daß sich dieVorhersagegenauigkeit vor allem auf den Originalgenen bei stärkerem screeningmehr und mehr verschlechtert.

Wie man weiterhin an den Kurven für beide Gene erkennen kann, ist die Vorher-sagegenauigkeit der Netze unabhängig vom screening für das Plasmid pBR322viel genauer als für den Phagen fd. Dieses bestätigt die mit den Untersuchungender sceening-Prozedur aufgestellte Prognose, daß eine Klassifikation wegen derstrukturellen Eigenschaften des Phagen fd auf dem Plasmid einfacher ist.

Page 65: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 65

0.01

0.1

1

10

100

60 65 70 75 80 85 90 95 100

false

pos

itiv

correct positiv

screened netno-screening net

0.1

1

10

0 20 40 60 80 100

false

pos

itiv

correct positiv

screened net pbrno-screening net pbr

screened net fdno-screening net fd

training with different screened sets

test set

pBR322 & phage fd

Abbildung 4.3:

Ergebnisse der screening-Untersuchung.

Der Schwellenwert (threshold) der output unit wird von 1 bis 0 variiert (im Graph vonlinks nach rechts), was zu den jeweiligen Werten für die f. p.- und c. p.-Klassifikationführt.

Beispiel 1: Bei einem Schwellenwert von 0 wird eine 100% korrekt positive Vorhersage,aber auch eine 100% falsch positive Vorhersage erzielt.

Beispiel 2: Der optimale Vorhersagewert wäre bei 100% korrekt positiv und 0% falschpositiv.

Page 66: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 66

4.4.1.2 Verhältnis random/Promotoren

Um das optimale Verhältnis von wahren Promotoren zu random-Sequenzen inder Trainingsmenge für unser spezifisches Problem zu bestimmen, werden dreiTrainingsmengen mit verschiedenen Verhältnissen 1:5, 1:20 und 1:50 (p:r) gete-stet. Die resultierenden trainierten Netze fester Topologie werden mit einer kon-stanten Testmenge getestet. Wie man in der Abbildung 4.4 sehen kann, führt eineErhöhung des Verhältnisses von 1:5 auf 1:20 und von 1:20 auf 1:50 zu einer Ver-besserung der Vorhersagegenauigkeit sowohl auf der Testmenge als auch auf denbeiden Originalgenen. Daraus folgt, daß das Verhältnis 1:50 im Vergleich zu denanderen getesteten Verhältnissen am besten geeignet ist. Da die Verbesserung derVorhersage bereits von 1:20 zu 1:50 nicht mehr gravierend ansteigt, erscheint dieWahl von 1:50 optimal zu sein. Eine weitere Erhöhung des Verhältnisses würdeden Aufwand eines erheblich verlängerten Trainings nicht rechtfertigen.

Page 67: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 67

4

4.2

4.4

4.6

4.8

5

5.2

5.4

5.6

5.8

6

5 10 15 20 25 30 35 40 45 50

false

pos

itiv

ratio 1/random

f.p. for 9/11

0.01

0.06

0.11

0.16

0.21

0.26

0.31

0.36

0.41

0.46

0.51

0.56

5 10 15 20 25 30 35 40 45 50

false

pos

itiv

ratio 1/random

f.p. for 3/6

35

40

45

50

55

60

65

70

75

80

5 10 15 20 25 30 35 40 45 50

corre

ct p

ositi

v

ratio 1/random

c.p. at 0.1% f.p.

phage fd

pBR322

test set

Abbildung 4.4:

Ergebnisse der verschiedenen Verhältnisse von Promotoren zu random-Sequen-zen (p:r) in der Trainingsmenge.

Page 68: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 68

4.4.2 Codierung

Ein anderer Versuch, die Vorhersagerate des Neuronalen Netzes zu verbessern,besteht darin, eine andere Repräsentationsform oder Codierung für eine Base zutesten. Anstatt des 4-dimensionalen Codes (Code4) wird dieser mit einer fünftenStelle zu einem 5-dimensionalen Code (Code5) erweitert. Diese Stelle soll denbiologischen und strukturellen Unterschied zwischen "GC"-Regionen und "AT"-Regionen besonders betonen. Die fünfte Stelle ist "1", wenn die repräsentierteBase ein "A" oder "T" ist, und "0", wenn sie "C" oder "G" ist. Neuronale Netzemit konstanten Parametern werden einmal mit Code4 und einmal mit Code5trainiert. Die sich ergebenden Genauigkeiten in der Vorhersage für ein zweilagi-ges Neuronales Netz sind in Abbildung 4.5 gezeigt. Wie man sowohl an derTestmenge als auch an den beiden Originalgenen sehen kann, führt die Erweite-rung des Codes zu keiner Verbesserung der Erkennungsrate, allerdings ist auchdie Verschlechterung nicht sehr bedeutend. Der erweiterte Aufwand, die Trai-ningsmenge wird um 1/5 größer, ist daher nicht sinnvoll. Dies Phänomen läßt sichdamit erklären, daß der 5-dimensionale Code nur zu redundanter Information imEingabefenster führt, was einen, wenn auch nur geringen, negativen Effekt auf dieVorhersageresultate eines Netzes hat.

Page 69: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 69

0.01

0.1

1

10

100

10 20 30 40 50 60 70 80 90 100

false

posit

iv

correct positiv

code4code5

0.001

0.01

0.1

1

10

100

0 20 40 60 80 100

false

posit

iv

correct positiv

code4-pbrcode-5pbrcode4-fdcode5-fd

comparison of different codes

test set

pBR322 & phage fd

Abbildung 4.5:

Ergebnisse bei vier- und fünfdimensionaler Codierung (Code4 und Code5).

Page 70: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 70

4.4.3 Topologie

Die größten Änderungsmöglichkeiten bei der Anwendung mit Neuronalen Netzenliegen in der Variation der Topologie eines Netzes. Obwohl es einige Untersu-chungen gibt, wie man eine geeignete Topologie für ein bestimmtes Problem be-stimmen kann, sind hierfür noch keine genauen Regeln formuliert worden. Im-merhin hat man herausgefunden, daß ein Netzwerk, welches verschiedene Merk-male in einem Eingabemuster enthält, und das ist im behandelten Problem derFall, verschiedene Schichten (hidden layers) mit genügend Verbindungen(interconnections) untereinander besitzen sollte [48]. Ein weiterer allgemein an-erkannter Gesichtspunkt zur Bestimmung der optimalen Topologie besagt, daßLernen am effektivsten ist, wenn die benutzte Architektur eines NeuronalenNetzes der Anwendung angepaßt ist. Die Anwendung existierenden Wissens überein Problem bei der Initialisierung des Neuronalen Netzes und der geeignetenWahl der Architektur scheinen ein Schlüsselelement für die erfolgreiche Entwick-lung eines Gesamtsystems aus variablen Verbindungen zu sein.

4.4.3.1 Kombination der Promotorboxen

Die im vorigen Absatz geforderte Vorgehensweise wird direkt auf das Problemder Promotorerkennung angewandt und ist im Kapitel 3.3 beispielhaft für pro-karyontische Promotoren ausführlich beschrieben. Welchen großen Effekt dieKombination der Information aus beiden Signalboxen in einem Neuronalen Netzhat und wie sich die aus der beschriebenen Vorgehensweise abgeleitete Vorinitia-lisierung auf die Vorhersagegenauigkeit eines Netzes auswirken ist in Tabelle 4.4gezeigt.

Die Erkennungsraten der einfachen Perzeptrons als Vorhersagesystem für eineganze Promotorstelle zeigen, daß die "-10-Box" erwartungsgemäß eine bessereVorhersagegenauigkeit als die "-35-Box" erzielt, was mit der spezifischerenStruktur dieser Box in einem Promotor zu erklären ist. Die falsch positivenVorhersagen für die Boxen sind deshalb erhöht, weil die Box nur recht klein istund somit die Wahrscheinlichkeit, daß in den random-Sequenzen boxähnlicheMuster auftreten und vorhergesagt werden, verhältnismäßig groß ist. DieErgebnisse der "-10-Box" sind mit den Ergebnissen der screening-Untersuchungen in etwa vergleichbar. Der Nutzen, der sich durch dieZusammenfassung der Information aus den Box-Perzeptronvorhersagen in einemvorinitialisierten Netz ergibt, wird beim Vergleich der Boxergebnisse mit dembesten time-delay-Netz auf beiden Originalgenen sehr deutlich.

Die Bedeutung der Vorinitialisierung wird durch die gezeigten Ergebnisse einesnicht vorinitialisierten (oder stochastisch vorinitialisiert) time-delay-Netzes über-prüft (Tabelle 4.4). Die Erkennungsraten sowohl auf der Testmenge als auch aufden Gensequenzen sind bei dem vorinitialisierten Netz im Vergleich zumNeuronalen Netz "ohne Vorwissen" deutlich besser. Das stochastisch vor-initialisierte Netz erkennt beispielsweise nur fünf der existierenden sechs Promo-toren auf pBR322, wobei die f. p.-Rate auch noch mit 0,75% recht hoch ist. Die-

Page 71: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 71

se Vorinitialisierung hilft dem Netz, die richtigen Merkmale in einer Eingabemen-ge zu adaptieren. Da auch das Training gesteuert wird - einzelne Schichtenwerden während des Trainings von einer Gewichts- und Schellenwertänderungausgenommen - ist diese Art von Training ein sehr gutes Beispiel für überwachtesLernen.

4.4.3.2 Boxengröße

Eine weitere Möglichkeit die Topologie des benutzten Netzes zu ändern, ergibtsich durch die Variation der Größe des rezeptiven Feldes für eine Box. Systema-tisch wird die Boxgröße von 6 bp bis 9 bp verändert, d. h., die Teilsequenz, in derein bestimmtes Merkmal auf der Gesamteingabesequenz gesucht wird, umfaßtzwischen 6 bp bis 9 bp. Die Biologen gehen von einer markanten Box der Länge6 bp aus. Der Test mit anderen Boxgrößen soll feststellen, welche Boxgröße fürdie rezeptiven Felder in dem time-delay-Netz optimal ist. Die Ergebnisse dereinzelnen Boxgrößen sind in drei Diagrammen, jeweils ein Diagramm für eineTestmenge, in Abbildung 4.5 gezeigt. Es zeigt sich beim Test aller drei Testmen-gen, daß für das künstliche Modell der Promotorstruktur eine Boxgröße von 8 bpoptimal für die Vorhersagegenauigkeit ist. Die falsch positive Vorhersage beimTest auf phage fd bei einer korrekten Erkennung von allen 11 existierenden Pro-motoren z. B. liegt für jede Boxgröße über 5%, außer bei 8 bp, wo die f. p.-Vor-hersage 4.55% beträgt. Ähnlich Ergebnisse lassen sich auch in den anderen, bei-den Testmengen (Testmenge mit 3.120 Sequenzen und Plasmid pBR322) erken-nen. Allerdings sind die Unterschiede nicht sehr bedeutend, was auch die Analyseder Gewichtsmatrix der rezeptiven Felder der Größe 8 bp zeigt, in der sich imwesentlichen für die sechs signifikanten Basenpositionen starke Gewichte her-ausbilden (Abbildung 3.6).

Page 72: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 72

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

6 7 8 9

false

pos

itiv

basepairs (bp)

f.p. for 85c.p.

0.1

0.2

0.3

0.4

0.5

6 7 8 9

false

pos

itiv

basepairs (bp)

f.p. for 6/6 c.p.

4

4.2

4.4

4.6

4.8

5

5.2

5.4

5.6

5.8

6

6 7 8 9

false

pos

itiv

basepairs (bp)

f.p. for 11/11 c.p.

pBR322

phage fd

test set

Abbildung 4.5:

Ergebnisse bei verschiedenen Größen der als rezeptive Felder modellierten Boxen.

Page 73: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 73

4.4.3.3 Modellierung des Transkriptionsstarts

Um die Logik des dritten Promotorsignals, des CAP-Signals, zu berücksichtigen,wird eine dritte time-delay hidden layer eingefügt (Modell in Abbildung 4.6). Dasrezeptive Feld dieser dritten Schicht wird so vorinitialisiert, daß sich ein "CA"-Merkmal auf der Eingabeschicht erkennen läßt. Die Gewichte und Schwellenwer-te in den anderen Schichten werden konstant gehalten, und es wird nur die dritteSchicht trainiert. Automatisch bilden sich fünf starke Gewichte von der drittenhidden layer zur output unit in der Umgebung des Transkriptionsstarts. Diesefünf Gewichte können als Zeichen für die fünf spacing-Klassen zwischen "-10-Box" und Transkriptionsstart (CAP-Signal) interpretiert werden. Eine erwarteteVerbesserung der Vorhersagegenauigkeit stellt sich allerdings nicht ein, nachdemdas neue, erweiterte physikalische Netzwerk fertig trainiert ist. Die geringenUnterschiede in den Ergebnissen zwischen diesem 3-hidden-layer Netzwerk unddem 2-hidden-layer Netzwerk sind in Abbildung 4.7 gezeigt.

Page 74: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 74

A C

G T

TT

GA

CA

-lay

er

TA

TA

AT

-lay

er

CA

-lay

er

0.95

5

Out

put

Abbildung 4.6

Page 75: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 75

Abbildung 4.6:Three-hidden-layer-Modell, um den Transkriptionsstart mitzumodellieren. Am linkenRand erkennt man die Nucleotidsequenz. In der Mitte liegen die drei time-delay hiddenlayers. Die rezeptiven Felder sind nur durch ihre Gewichte der ersten unit jeder layergezeigt. Deutlich zu erkennen sind die entscheidenden Positionen der Merkmalsneuronenin den time-delay layers. Die "TATAAT-layer" hat ein sehr starkes Gewicht, die"TTGACA-layer" sieben Gewichte und die "CA-layer" vier markante Gewichte zuroutput unit (die schwachen Gewichte sind ausgeblendet). Das anliegende Musterbekommt die Bewertung 0,955 vom Neuronalen Netz.

Page 76: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 76

0.01

0.1

1

10

100

40 50 60 70 80 90 100

fals

e po

sitiv

correct positiv

2 layers3layers

0.001

0.01

0.1

1

10

100

0 20 40 60 80 100

false

posit

iv

correct positiv

pbr 2 layerpbr 3 layerfd 2 layerfd 3 layer

test set

comparison 2 layers / 3 layers

pBR322 & phage fd

Abbildung 4.7:Ergebnisse der zusätzlichen Modellierung des Transkriptionsstartsignals "CA".

Page 77: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 77

4.4.4 Schwellenwerte bei den drei Testmengen

In diesem Kapitel soll sich mit der Wahl des Schwellenwertes (threshold) deroutput unit befaßt werden. Dieser Schwellenwert trennt die als Promotor klassi-fizierten Sequenzen von nicht als Promotor klassifizierten Sequenzen. EinSchwellenwert von 0,5 z. B. klassifiziert alle Sequenzen, für die das NeuronaleNetz einen höheren output errechnet, als Promotorsequenzen, die anderen als"Nicht-Promotor"-Sequenzen oder random-Sequenzen. Durch die Wahl desSchwellenwertes wird aus der Vorhersage des Netzes, welches für jedes Einga-bemuster einen bestimmten, reellen Wert zwischen "0" und "1" berechnet, dieBoolsche Aussage Promotor oder "Nicht-Promotor". Damit wird die genauereAussage des Netzes - eine mit 0,9 bewertete Sequenz wird deutlicher als Promo-tor vorhergesagt als eine mit 0,6 bewertete Sequenz - durch die Wahl desSchwellenwertes beispielsweise zu 0,5 daraufhin abgeschwächt, daß beide Se-quenzen genau gleich als Promotor bewertet werden. Durch die Variabilität desSchwellenwertes können so die korrekt positiven Vorhersagen in Abhängigkeitvon den falsch positiven Vorhersagen von 0% bis 100% variiert werden.

In Abbildung 4.8 sind die falsch positiven Vorhersagen, die korrekt positivenVorhersagen und die zugehörigen Korrelationen des Neuronalen Netzes(TDNN3) gegen den Schwellenwert (threshold) aufgetragen. Es wird sofortdeutlich, daß die Schwellenwerte für alle drei Kurven für ein festes Vorhersage-maß sehr voneinander abweichen. Bei einer f. p.-Rate von z. B. 1% beträgt derSchwellenwert für die Testmenge 0,07, für die phage fd-Sequenz 0,11 und für diepBR322-Sequenz 0,4. Auch bei der korrekt positiven Vorhersage unterscheidensich die Schwellenwerte für ein bestimmtes Maß sehr. Jede Stufe in den Kurvenvon pBR322 und phage fd symbolisieren die Erkennung eines Promotors. EinSchwellenwert von 0,7 beispielsweise würde drei der sechs Promotoren aufpBR322 korrekt klassifizieren und drei fehlerhaft als random-Sequenzen klassifi-zieren. Bei Reduzierung des Schwellenwertes auf 0,6, würde ein weiterer Pro-motor korrekt vorhergesagt werden. Diese Reduzierung induziert aber gleich-zeitig eine Steigerung der f. p.-Rate von 0,038% (threshold 0,7) auf 0,05%(threshold 0,6).

Die Betrachtung der Korrelationskurve ist besonders interessant. Man erkennt,daß die Korrelation von phage fd bedeutend niedriger ist als die Korrelation derTestmenge. Die Korrelation auf pBR322 nimmt gegenüber dem Phagen fd noch-mals ab. Auch die Maxima der Kurven existieren an sehr unterschiedlichenSchwellenwerten. Die höchste Korrelation weist die Testmenge bei einemSchwellenwert von 0,07 auf. Dieser Schwellenwert führt genau zu der 1% f. p.-Vorhersagegenauigkeit auf der Testmenge, ein Wert, der als ein wichtiges Maßangesehen wird und somit oft als Abbruchkriterium für das Training eines Netzesdient. pBR322 und phage fd haben ihre Maxima bei einem Schwellenwert von0,485 bzw. 0,24. Bei der Variation des Schwellenwertes von "1" zu "0" treten beiden Originalgenen jeweils Sprünge auf. Diese Sprünge sind damit zu erklären,daß bei der Reduzierung des Schwellenwertes in diesem Bereich ein weiterer, tat-sächlicher Promotor korrekt erkannt wird und die Korrelation ansteigen läßt.

Page 78: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 78

Nach einem Sprung fällt die Kurve wieder ab (Betrachtung der Kurve von rechtsnach links), da zu der Anzahl von korrekt klassifizierten Promotoren neue, fälsch-lich als positiv klassifizierte Sequenzen hinzukommen.

0.1

1

10

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

false

pos

itiv

threshold

false positiv versus threshold

test setpBR322phage fd

0

10

20

30

40

50

60

70

80

90

100

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

corre

ct po

sitiv

threshold

correct positiv versus thresholdtest set

pBR322phage fd

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Corre

latio

n

threshold

Correlation versus thresholdtest set

pBR322phage fd

Abbildung 4.8:

Die Ergebnisse des TDNN3 auf den drei Testmengen in Abhängigkeit vom Schwellen-wert (threshold).

4.4.5 Biologische Erkenntnisse

In diesem Kapitel sollen die Ergebnisse der theoretischen Modellierung erläutertwerden, die Aussagen über die biologische Bedeutung von einzelnen Strukturendes Transkriptionsprozesses zulassen. Der erste Teil präsentiert mögliche Er-kenntnisse, die aus der Analyse der Architektur des Neuronalen Netzes, welchesdie beste Vorhersagegenauigkeit erzielt, hervorgehen. Dieses sind Aussagen zuder Struktur der Promotorboxen ("-10-Box" und "-35-Box") und zu der Funktionder spacing-Klassen. Nicht die Architektur des Netzes ist im dritten Teil fürbiologische Erkenntnisse wichtig, sondern seine Funktion, also die Vorhersagevon Promotorstellen. Die auf dem Plasmid pBR322 zusätzlich zu den bekannten

Page 79: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 79

Promotoren gefundenen promotorähnlichen Sequenzstellen können für weitereexperimentelle Untersuchungen, z. B. für die Herstellung künstlicher in vitro-Promotoren, nützlich sein.

4.4.5.1 Die rezeptiven Felder als Repräsentationsform der beiden Promotorboxen

In Abbildung 3.6, in der das physikalische Neuronale Netz mit der größten Vor-hersagegenauigkeit auf den Testmengen abgebildet ist, sind in Diagrammform dieresultierenden Gewichtsmatrizen der beiden rezeptiven Felder, eines für die "-10-Box" und eines für die "-35-Box", gezeigt. Die starken Gewichte modellieren diegroße Bedeutung einer Base an einer bestimmten Position in der Box. Die "TTG---"-Sequenz und die "TA---T erhalten die stärksten Gewichte. Interessant sindauch die sich bildenden negativen Gewichten. Beide Boxen besitzen jeweils ander letzten Stelle die stärksten negativen Gewichte. In der "-35-Box" darf alsokein Cytosin und in der "-10-Box" kein Thymin an der sechsten Stelle vorkom-men. Vergleicht man diese Ergebnisse mit anderen statistischen Berechnungender Auftrittsfrequenzen der einzelnen Basen, so entsprechen die positiven Ge-wichte annähernd den statistischen Ergebnissen. Die Information der negativenGewichte jedoch, welche Basen an welchen Positionen nicht auftreten dürfen, istin den statistischen Analysen nicht enthalten. Besonders hervorgehoben werdensoll außerdem, daß die Gewichtsmatrix das Verhalten der beiden Promotorboxenin dem Gesamtmodell der Transkription symbolisiert, d. h., ein rezeptives Feldstellt sich so ein, daß es für die Vorhersage des Modells über die gesamte Regionam besten geeignet ist. So können auch Abhängigkeiten zwischen den Boxen be-rücksichtigt werden, welche als Information in die Gewichtsmatrizen der einzel-nen "Boxen" einfließen, was bei statistischen Analysen nicht möglich ist.

4.4.5.2 Spacing-Klassen

Die Modellierung der sieben spacing-Klassen erfolgt in dem trainierten Netzdurch die Gewichtsverteilung von der "-35-hidden layer" zur output unit. Diesich bildenden sieben starken Gewichte von dieser hidden layer zur output unit,jedes Gewicht entspricht einer Klasse, werden in Abbildung 4.9 gezeigt. Man er-kennt, daß das trainierte Neuronale Netz die biologische These der drei Haupt-spacing-Klassen bestätigt. Diese drei spacing-Klassen (16, 17 und 18) erhalten indem Modell die stärksten Gewichte und haben somit den größten Einfluß auf dasVorhersageergebnis. Spacing-Klasse 20 hat für die Gesamtvorhersage die ge-ringste Bedeutung.

Page 80: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 80

1

1.5

2

2.5

3

3.5

4

4.5

5

15 16 17 18 19 20 21

conn

ectio

n w

eigh

t

spacing class

Abbildung 4.9:

Die Bewertung der einzelnen spacing-Klassen im Neuronalen Netz.

Page 81: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 81

4.4.5.3 Vorhersageergebnisse auf pBR322

Das Neuronale Netz (TDNN3), welches mit den ermittelten, optimalen Parame-tern trainiert wird, erkennt bei der korrekten Vorhersage aller sechs Promotorenvon pBR322 weitere 13 extra sites ("Pseudopromotoren", auch "funktionelle"Promotoren genannt). In der Tabelle 4.2 sind alle Vorhersagen des NeuronalenNetzes in Abhängigkeit vom gewählten Schwellenwert dokumentiert. Je größerdie errechnete Bewertung des Neuronalen Netzes ist, um so stärker wird eine sol-che Sequenz als Promotor klassifiziert. Die Struktur einer solchen Sequenz ist fürdas Neuronale Netz am "promotorähnlichsten". Der pBR322-tet-Promotor erhältbeispielsweise von allen tatsächlichen Promotoren (Tabelle 4.3) die größte Be-wertung von TDNN3. Ob die extra sites eine Promotorfunktion besitzen,könnten biologische Versuche zeigen. Auch inwieweit die Bewertung der Pro-motoren mit der Funktion (Transkriptionsfrequenz) korreliert, müssen biologi-sche Tests belegen.

Page 82: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 82

1. hits bei einem Schwellenwert von 0,9

TDNN3 (c): 4

TDNN3 (cc): 17

2. hits bei einem Schwellenwert von 0,8

TDNN3 (c): 4 2937 4172 4277

TDNN3 (cc): 17

3. hits bei einem Schwellenwert von 0,7

TDNN3 (c): 4 2937 3234 3249 4172 4277

TDNN3 (cc): 17 1100 1234

4. hits bei einem Schwellenwert von 0,6

TDNN3 (c): 4 2937 3234 3249 4172 4192 4277

TDNN3 (cc): 17 1081 1100 1234 2051

5. hits bei einem Schwellenwert von 0,5

TDNN3 (c): 4 2937 3234 3239 3249 4172 4192 4271

4277 4307

TDNN3 (cc): 17 26 1064 1081 1100 1234 2051 4286

6. hits bei einem Schwellenwert von 0,49

TDNN3 (c): 4 2937 3234 3239 3249 4172 4192 4271

4277 4307

TDNN3 (cc): 17 26 133 1064 1081 1100 1234 2051

4286

Tabelle 4.2

Page 83: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 83

Tabelle 4.2:

Positionen der vorhergesagten Promotoren (hits) mit dem TDNN3 in Abhängig-keit von dem klassifizierenden Schwellenwert. Clockwise- und counter-clockwise-Sequenz werden separat betrachtet. Die schon durch einen höheren Schwel-lenwert klassifizierten hits sind zur Unterscheidung kursiv gedruckt. Insgesamtwerden 19 Sequenzmuster vorhergesagt, unter denen die sechs tatsächlichen Pro-motoren fett gedruckt sind.

pBR322

Namen Positionen

pBR322-tet 4 (c)

pBR322-RNAI 2937 (c)

pBR322-bla 133 (cc)

pBR322-primer 1234 (cc)

pBR322-P4 2051 (cc)

pBR-P1 4286 (cc)

Tabelle 4.3:

Alle sechs korrekt vorhergesagten Promotoren auf dem Genom von pBR322.

4.4.6 Vergleiche mit anderen Ergebnissen

Das physikalische Neuronale Netz mit den besten Vorhersageergebnissen ist inAbbildung 3.6 gezeigt. Die wichtigsten Neuronen und Verbindungen sind doku-mentiert. Zusammenfassend wird dieses Netz mit einer ungescreenten Trai-ningsmenge mit einem Promotor/random-Verhältnis von 1:50 und codiert mitCode4 trainiert. Die rezeptiven Felder haben eine Größe von 8 bp. Das Netz be-sitzt zwei hidden layers, eine für jede Signalbox.

Page 84: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 84

Tabelle 4.4 zeigt die Resultate, wobei die Vorhersagegenauigkeiten dieses Netzes(TDNN3) mit denen anderer publizierter Arbeiten verglichen werden. Überall, woes möglich ist, werden zu Angaben über eine Vorhersagegenauigkeit in der Lite-ratur, entweder auf einer individuell zusammengestellten Testmenge oder denOriginalgenomen von pBR322 und phage fd, die entsprechenden Ergebnisse dertrainierten time-delay-Netze (TDNN1, TDNN2 und TDNN3) ermittelt.

Sowohl die statistischen Methoden von Staden [27] und Mulligan [51] als auchdie Methoden mit Neuronalen Netzen von Horton [59] und O'Neill [55,56] erzie-len auf der Testmenge (test set) eine Vorhersagegenauigkeit zwischen 80% und81,6% bei einer falsch positiven Klassifikation von unter 1%. Das bestephysikalische time-delay-Neuronale Netz (TDNN3) kann eine erhöhte Genauig-keit von 85% erreichen. Das mit einer gescreenten Trainingsmenge trainierteNetz TDNN2, welches auf den Originalgenen eine schlechtere Performance auf-weist als TDNN3, verbessert diese 85% nochmals um 3,33% auf 88,33%. Fürbeide time-delay-Netze bleibt die Korrelation von 0,82 aber gleich. O'Neills Er-gebnis aus seiner zweiten Arbeit mit Neuronalen Netzen von bis zu 97% ist dar-auf zurückzuführen, daß er Vorhersagen nur einer separaten Klasse durchführt.Auch bei der Vorhersage von 100% der Promotoren, kann das TDNN2 die be-sten Resultate liefern (10,80% f. p.), während das TDNN3 mit 22% falsch positi-ver Erkennungsrate sogar über der von Horton (15,85%) liegt.

Das exzellente Vorhersageergebnis von Lukashin et al. von 94% korrekt positiverbei nur 2% falsch positiver Vorhersage, welches TDNN3 nicht erreichen kann(90% c. p.), muß auf die sehr gezielte Auswahl der Testdaten zurückzuführensein, welche eine Struktur aufweisen, die sich auch von anderen Arbeiten sehr ab-hebt. Abbildung 4.10 veranschaulicht noch mal die Vorhersagegenauigkeiten derwichtigsten in Tabelle 4.4 erwähnten Arbeiten durch die Darstellung der korrektpositiven Klassifikation versus die falsch positive Klassifikation.

Für den Performancevergleich auf den Genomen stehen nur sehr wenig Daten auspublizierten Arbeiten zur Verfügung. O'Neill kann mit der gezielten Wahl einerKombination aus seinen für die einzelnen spacing-Klassen trainierten NeuronalenNetzen fünf der sechs existierenden Promotorregionen erkennen. Die f. p.-Rateliegt zwischen 0,1% und 0,5% (abhängig vom gewählten Schwellenwert). Auchdie TDNN3-Vorhersagegenauigkeit für fünf von sechs Promotoren bewegt sichin dieser Größenordnung (0,11% f. p.). Während O'Neill jedoch den sechstenPromotor nicht erkennen kann, findet Lukashins Neuronales Netzwerk auch die-sen Promotor. Die falsch positive Klassifikation liegt allerdings, wie von ihm be-richtet, bei 2%. Hier zeigt sich am deutlichsten die "Vorhersagekraft" des physi-kalischen Neuronalen Netzes TDNN3, welches durch die Positionsunabhängig-keit mit Promotoren aller spacing-Klassen trainiert werden kann. Es erzielt eineVorhersagegenauigkeit von 0,15% bei der kompletten Erkennung der vorhande-nen sechs Promotoren.

Daß das physikalische Netz nicht nur auf einem Plasmid gute Vorhersagegenau-igkeiten liefert, zeigt der Vergleich mit den Vorhersageergebnissen der Arbeitvon Demeler und Zhou [54] auf dem Phagen fd. Sie weisen explizit daraufhin,daß ihr Neuronales Netz zwei der elf auf phage fd liegenden Promotorstellen

Page 85: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 85

nicht erkennen kann. Allerdings werden alle neun weiteren Promotorenvorhergesagt, wobei die f. p.-Rate ca. 5% beträgt. Für ein unterschiedlichtrainiertes Netz kann die f. p.-Klassifikation auf 3,1% reduziert werden, wobeiaber nur noch sieben der elf Promotoren korrekt erkannt werden. Das time-delay-Netz TDNN3 kann im Vergleich dazu die falsch positive Klassifikationsrate füreine Erkennung von neun Promotoren auf unter 2% noch weiter verbessern.Bemerkenswert ist, daß bei einer Erkennungsrate von unter 2% sogar zehnPromotoren korrekt erkannt werden und daß das Netz weiterhin in der Lage ist,alle elf Promotoren korrekt vorherzusagen. Diese 100% korrekte Erkennung gehtaber sehr stark auf Kosten der Performance, d. h., die falsch positiveKlassifizierung steigt auf 4,55%, was gleichbedeutend mit 292 falschenVorhersagen ist.

Um die unterschiedliche Vorhersagegenauigkeit bei einem festen Schwellenwert,was auf die unterschiedliche Struktur der Testdaten zurückzuführen ist, darzu-stellen, sind die Vorhersageergebnisse f. p. und c. p. für jede Testmenge bei ei-nem konstanten Schwellenwert von 0,5 angegeben. Die exakten Schwellenwerte,die zu den einzelnen Meßergebnissen führen, können in Abbildung 4.8 abgelesenwerden.

Page 86: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 86

methods

testset(3120patterns)

%c.p.at0%f.p.

%c.p.at1%f.p.(C)

%c.p.at2%f.p.

%f.p.at100%c.p.

%c.p.with0.5thresh.

%f.p.with0.5thresh.

statistic(Staden)

81.60

39.00

statistic(Mulligan)

80.60

16.63

NN(Horton)

80.60

15.85

NN(O'NeillI)

80.00

NN(O'NeillII)

78.00-97.00

NN(DemelerandZhou)

NN(Lukashin)

94.00

TDNN1(noinit)

27.50

76.67(0.75)

85.00

23.23

19.17

0.00

TDNN2(screened)

63.33

88.33(0.82)

91.67

10.80

77.50

0.23

perceptrontat

perceptronttg

TDNN3

59.17

85.00(0.82)

90.00

22.00

57.50

0.00

methods

pBR322(8726patterns)

%f.p.for6/6

%f.p.for5/6

%c.p.w0.5thr.

%f.p.w0.5thr.

statistic(Staden)

statistic(Mulligan)

NN(Horton)

NN(O'NeillI)

NN(O'NeillII)

0.1-0.5

NN(DemelerandZhou)

NN(Lukashin)

2.00

TDNN1(noinit)

-

0.75

16.67

0.01

TDNN2(screened)

0.34

0.17

100.00

0.96

perceptrontat

1.91

0.80

100.00

5.67

perceptronttg

9.06

6.91

83.33

7.89

TDNN3

0.15

0.11

83.33

0.15

methods

phagefd(6408patterns)

%c.p.at1%f.p.

%f.p.for11/11

%f.p.for10/11

%f.p.for9/11

%f.p.for7/11

%c.p.w0.5thr.

%f.p.w0.5thr.

statistic(Staden)

statistic(Mulligan)

NN(Horton)

NN(O'NeillI)

NN(O'NeillII)

NN(DemelerandZhou)

-

5.00

3.10

NN(Lukashin)

TDNN1(noinit)

27.27

6.55

4.77

4.24

2.56

9.09

0.30

TDNN2(screened)

27.27

5.99

4.33

3.97

2.27

72.73

3.16

perceptrontat

18.18

12.96

11.17

5.18

1.21

81.82

10.58

perceptronttg

0.00

67.98

44.08

34.73

20.88

54.55

13.07

TDNN3

36.36

4.55

1.84

1.75

1.49

36.36

0.78

Tabelle 4.4

Page 87: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 87

Tabelle 4.4:statistic = statistical methodNN = neural network methodperceptron tat = trained neural network for "TATAAT"-box ("-10-Box") predictionperceptron ttg = trained neural network for "TTGACA"-box ("-35-Box") predictionTDNN1 (no init) = trained time-delay neural network without a pre-initialisationTDNN2 (screened) = trained time-delay neural network with a screened training setTDNN3 = best time-delay neural network (no screening, ratio 1:50, initialised, code4, 2hidden layers, boxsize 8 bp)c.p. = correct positiv classificationf.p. = false positiv classificationC = correlationthresh. = threshold5/6 = 5 predicted promotors / 6 real promotors% f.p. w 0,5 thr. = % false positiv classification with the threshold of 0,5

0.01

0.1

1

10

100

60 65 70 75 80 85 90 95 100

false

pos

itiv

correct positiv

comparison of previous methods with TDNN (test set)TDNN3

StadenMulligan

Horten

Abbildung 4.10:

Ergebnisse des TDNN3 mit anderen Arbeiten (Testmengen).

Page 88: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 88

4.5 Diskussion der prokaryontischen Promotorvorhersage

Zusammenfassend kann man sagen, daß durch den Einsatz eines physikalischen time-de-lay-Neuronalen Netzes zur Vorhersage von prokaryontischen Promotorregionen inunbekannten Sequenzen eine Verbesserung der Vorhersageergebnisse erreicht wird.

Die Untersuchungen an der relativ kleinen, bekannten Datenmenge prokaryontischerPromotoren zeigen, daß man mit diesen Daten trotzdem ein Modell konstruieren kann,was den komplexen Transkriptionsstart adäquat nachbildet. Dabei ist die korrekteZusammenstellung der Trainingsmenge sehr wichtig und scheint für das Training einesNeuronalen Netzes am geeignetsten zu sein, wenn sie der Struktur der natürlichen DNA-Sequenz am ähnlichsten ist. Für die Prokaryonten ist ein Verhältnis von Promotoren zurandom-Sequenzen von 1:50 optimal.

Der Versuch, durch eine statistische screening-Untersuchung promotorähnliche random-Sequenzen schon in der Trainingsmenge zu eliminieren, hat gezeigt, daß dieser statisti-sche, äußere Einfluß auf das Lernverhalten eines Neuronalen Netze sich eher negativ aufdie Vorhersagegenauigkeit auswirkt. Die Unschärfe einer Trainingsmenge, in derpromotorähnliche Muster als "Nicht-Promotoren" markiert sind, erweist sich als positivauf das Lernverhalten eines Neuronalen Netzes.

Das Problem der korrekten Messung der Qualität eines Neuronalen Netzes zur Vorher-sage kann durch die Angabe mehrerer Maßzahlen einigermaßen kompensiert werden,auch wenn beispielsweise die Erstellung der Testmenge jedesmal ein Problem darstellt.Evaluationen auf Testmengen mit wenig promotorähnlichen Sequenzen als random-Sequenzen z. B. zeigen bessere Ergebnisse als Testmengen, in denen noch alle random-Sequenzen enthalten sind. Deshalb werden in Anlehnung an andere Arbeiten nur sehrmarkante, promotorähnliche Sequenzen aus der random-Menge extrahiert. Die Objek-tivität der Wahl unserer Testmenge kann auch dadurch bestätigt werden, daß Probeläufemit Neuronalen Netzen, die vice versa mit der beschriebenen Testmenge trainiert werden,auf phage fd ganz ähnliche Vorhersageergebnisse wie das "normal" trainierte TDNN3erzielt. (11/11 c. p. 3,67% f. p.; 9/11 c. p. 2,77% c. p.; 7/11 c. p. 1,31% f. p.; 45,45% c.p. bei 1% f. p.) Objektive Vorhersagen sind auf pBR322 nicht möglich, da pBR322-Promotoren in der Testmenge, die dann zur Trainingsmenge wird, enthalten sind.

Der Einfluß der Codierung und der Versuch, auch den Transkriptionsstart mitzumodel-lieren, zeigen keine deutlichen Ergebnisverbesserungen. Aufgrund des "schwachen" Si-gnals von nur 2 bp Länge ist dieses Ergebnis für den Transkriptionsstart zu erklären.

Das Problem, den richtigen Schwellenwert für die Suche nach Promotorsequenzen aufeiner unbekannten Sequenz zu finden, kann nicht vollständig gelöst werden, doch habendie Untersuchungen gezeigt, daß dieser Schwellenwert in Abhängigkeit der verschiede-nen Struktur einer Sequenz eingestellt werden sollte. Für ein Plasmid-Genom scheint derSchwellenwert generell höher liegen zu müssen als für ein Phagen-Genom. Dieses müßteaber noch durch Untersuchungen auf anderen Genomsequenzen bestätigt werden.

Wie wichtig die korrekte Modellierung und das Verwenden des existierenden, biologi-schen Wissens für die Konstruktion des optimalen Neuronalen Netzes ist, haben dieUntersuchungen ohne Vorinitialisierung und der Boxengröße gezeigt. Auch wenn sich

Page 89: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 4 Erkennung prokaryontischer Promotoren 89

gezeigt hat, daß zur Modellierung eine Boxengröße von 8 bp am geeignetsten ist,verdeutlicht die Analyse dieser Box, daß nur die sechs Positionen der aus statistischenUntersuchungen bekannten 6er-Signalbox markante Gewichte besitzen. Diese Verteilungder Gewichte und die Bewertung der verschiedenen spacing-Klassen können alsbiologische Erkenntnisse aus dem Transkriptionsmodell betrachtet werden. Außerdemsollte die Funktion der Sequenzen, die eine Promotorstruktur aufweisen und zusätzlichzu den existierenden Promotoren vorhergesagt werden, näher untersucht werden.

Vergleiche mit Ergebnissen statistischer Untersuchungen und mit Methoden, die"einfachere" Neuronale Netze benutzen, rechtfertigen den weiteren Einsatz von time-delay-Netzen zur Sequenzanalyse und hier speziell zur Analyse der Promotorerkennungbei Eukaryonten. Bei Eukaryonten ist der Transkriptionsprozeß um einiges komplizier-ter, was sich in der weniger konservierten Promotorsequenz niederschlägt. Die Existenzvon weniger konservierten Regionen scheint die Konstruktion des Neuronalen Netze-Modells für eukaryontische Promotoren und deren Vorhersage zu erschweren. ErsteErgebnisse des Einsatzes eines weiteren physikalischen Neuronalen Netzes für dieeukaryontischen Promotorerkennung werden in Kapitel 5 gezeigt.

Page 90: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 5 Erkennung eukaryontischer Promotoren 90

5 Erkennung eukaryontischer Promotoren

Im zweiten Teil über den praktischen Einsatz von Neuronalen Netzen soll sich mit demErkennungsproblem von Promotoren in eukaryontischer DNA beschäftigt werden. Dabeiwerden die Erkenntnisse für die Modellierung mit Neuronalen Netzen aus der pro-karyontischen Promotorerkennung berücksichtigt und ein ähnliches Modell konstruiert.Da der eukaryontische Transkriptionsprozeß, wie in Kapitel 2.6.2 gezeigt, viel komple-xer ist als der prokaryontische und Details dieses Prozesses noch nicht genau bekanntsind, versteht sich diese Arbeit als ein erster Versuch, den Transkriptionsprozeß bei Eu-karyonten zu modellieren. Außerdem sind zu wenig Promotorstellen bekannt, um einenderart komplexen Vorgang adäquat abbilden zu können. Deshalb werden im Modell nurdie beiden bedeutendsten Promotorsignale, die "TATA"-Box und das CAP-Signal (auchinitiator-Sequenz genannt), berücksichtigt.

Zunächst sollen die wenigen zum Problem der Promotorvorhersage anhand der Sequenzexistierenden statistischen Arbeiten vorgestellt werden. Nach der Beschreibung des ver-wendeten Datenmaterials wird in Anlehnung an das prokaryontische physikalische Mo-dell das eukaryontische erläutert. Eine ausführliche Beschreibung für die Konstruktioneines solchen physikalischen Modells ist in Kapitel 3.3 beispielhaft für die prokaryonti-sche Transkription gegeben. Anschließend werden die erzielten Ergebnisse erläutert undmit den Resultaten der anderen statistischen Arbeiten verglichen. Abschließend werdendie Ergebnisse der Modellierung diskutiert.

5.1 Existierende Methoden

In der Literatur gibt es bisher zu diesem Problem nur zwei statistische Ansätze, was inder Komplexität und der geringen Menge existierender Daten begründet liegt.

In vier verschiedenen Publikationen [18,61,69,70] beschäftigt sich Bucher mit der Ana-lyse der vier verschiedenen Signalmuster in eukaryontischen Promotoren. In der erstenPublikation [69] beschreibt er ein statistisches Verfahren, welches eine DNA-Sequenz-Matrix benutzt. Es werden Auffälligkeiten dieser Frequenzanalyse dargestellt. In derzweiten Arbeit von 1986 [61] belegt er mit der statistischen Analyse von 168 eukaryonti-schen Promotoren das signifikante Auftreten der "TATA"-Box in den meisten dieserPromotoren. Auch das CAP-Signal, das seltener als die "TATA"-Box vorkommt, wirduntersucht. Dabei stellt Bucher sowohl für eukaryontische als auch für prokaryontischePromotorregionen diejenigen Tripletts zusammen, die in den Boxen "-10" und "-35" inProkaryonten und "TATA"-Box und CAP-Signal in Eukaryonten die höchsteAuftrittswahrscheinlichkeit besitzen. Diese Ergebnisse für prokaryontische Promotorenwerden in Kapitel 4.2.2.1.1.1 für das screening benutzt. In den untersuchten Muster-sequenzen von Eukaryonten besitzen die signifikantesten Tripletts eine Auftrittsfrequenzvon bis zu 70%. Für die Tripletts im Bereich der "CA"-Region kann nur eine

Page 91: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 5 Erkennung eukaryontischer Promotoren 91

Auftrittsfrequenz von 31% berechnet werden, wobei allerdings die Nucleotide "CA" inallen aufgeführten Tripletts enthalten sind.

Die dritte Arbeit Buchers [70] beschäftigt sich mit der "CCAAT"-Box, welche im Be-reich von -100 bis -50 auf beiden Matrizensträngen zu finden ist. Allerdings muß das"CCAAT"-Muster exakt mit hoher Integrität auftreten, was nur selten der Fall ist, unddeshalb bei der ersten Vereinfachung des komplexen Transkriptionsvorgangs im Modellnicht berücksichtigt wird.

Buchers neueste Publikation [18] kann als statistische Vergleichsbasis für die hierdurchgeführten Untersuchungen mit Neuronalen Netzen angesehen werden. Er unter-sucht 502 nicht miteinander verwandte Promotorsequenzen, die zum Zeitpunkt derUntersuchung in der von ihm erstellten Datenbank Eukaryotic Promoter Database(EPD; release 17) [71] enthalten waren. Für jede der vier signifikante Boxen, "TATA",Cap-Signal, "CCAAT" und "GC", führt er separate Berechnungen in bezug auf dieGröße, die Position und die Auftrittshäufigkeiten einzelner Nucleotide in der Box durchund unterscheidet dabei zwischen Vertebraten und Nicht-Vertebraten.

Mit der beschreibenden statistischen Matrix für die "TATA"-Box versucht Bucher an-schließend einen Vorhersagetest auf zwei vollständigen Genomen durchzuführen. Hierwählt er zwei Viren, den adenovirus type 2 (kurz: ad-2) und den herpes symplex virus-1(kurz: HSV-1), die beide auch für die Evaluierung der Vorhersagegenauigkeit der trai-nierten Neuronalen Netze in dieser Arbeit verwendet werden.

Diese Methode führt zu einem ranking der vorhergesagten Sequenzmuster. Dabei kanner sieben der neun in ad-2 existierenden Promotoren vorhersagen, wobei 156 weitere ex-tra sites gefunden werden, was einer falsch positiven Klassifikation von ca. 0,22% ent-spricht. Wie er diese Klassifikation genau durchführt und ob er tatsächlich für jede ein-zelne Position eine Vorhersage macht, was 71.874 zu klassifizierenden Mustern ergebenwürde, wird nicht erwähnt.

Die am stärksten klassifizierten extra sites bezeichnet Bucher als in vitro transcription-factor-binding sites, deren in vivo Aktivität nur unterdrückt wird oder nur noch nichtbiologisch nachgewiesen ist. Die Signalsuche auf dem zweiten Genom HSV-1 führen zuähnlichen Ergebnissen. Unter den sechs am höchsten bewerteten Promotoren liegen fünfder tatsächlichen Promotoren. Für weitere fünf bekannte Promotoren werden Werte be-rechnet, so daß bei einer Erkennung von zehn der bekannten elf Promotoren nur 20 fal-sche Klassifikationen vorkommen. Ein Promotor, US5, kann überhaupt nicht erkanntwerden. Obwohl Bucher das Vorhanden- oder Nicht-Vorhanden sein der drei anderenBoxen, CAP-Signal, "CCAAT" und "GC"-Box für die Promotoren angibt, wird ihr Auf-treten bei der Klassifikation nicht berücksichtigt. Es zeigt sich, daß in den "TATA"-Box-rankings als stark eingestufte Promotoren oft kein weiteres upstream element wie"CCAAT" oder "GC"-Box besitzen. Somit scheint die Vernachlässigung dieser Elementeim ersten Schritt der Konstruktion des physikalischen Neuronale Netze-Modellsgerechtfertigt.

Die zweite Untersuchung, die von Penotti [72] durchgeführt wurde, ist ebenfalls eine sta-tistische. Penotti analysiert das statistische Auftreten der "TATA"-Box und die Sequenzum den Transkriptionsstart in bezug auf die genau Länge der Signale und deren Informa-tionsgehalt. Dabei vergleicht er Ergebnisse aus Untersuchungen mit Promotoren von

Page 92: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 5 Erkennung eukaryontischer Promotoren 92

menschlicher DNA mit Promotoren aus "allgemein" eukaryontischen DNA-Sequenzen(andere Spezies und Viren). Die Untersuchungen mit "TATA"-Box-Sequenzen zeigenden hohen Informationsgehalt dieser Region bei beiden Testgruppen. Die Frequenzana-lyse einzelner Basen weist zwischen allgemeinen Eukaryonten und den menschlichenPromotoren geringe Differenzen auf, doch sind aufgrund der geringen Daten (44 humanpromotors) die Resultate nicht sehr aussagekräftig. Die genaue Position der "TATA"-Box gibt Penotti mit -29 bis -32 für das erste "T" der "TATA"-Box an, wobei er auf dasProblem des korrekten alignments hinweist.

Die statistischen Auswertungen der Region um den Transkriptionsstartpunkt, welche dasCAP-Signal einschließt, zeigen zwar den im Vergleich zu den umliegenden Sequenzenetwas erhöhten Informationsgehalt (Position +1 besitzt den höchsten Informationsge-halt), doch reicht er nicht aus, um eine verläßliche, statistische initiator-Consensus-Se-quenz daraus abzuleiten.

Penottis Arbeit muß als reine Analyse eukaryontischer Promotorregionen eingestuft wer-den, weil er keine direkte Vorhersage, z. B. auf Originalgenomen, anhand der gefundenSignifikanzen durchführt.

5.3 Daten

5.2.1 Promotoren

Die eukaryontischen Promotoren werden der Eukaryotic Promoter Database derEMBL DATA Library (release 37) [71] entnommen. Diese Datenbank enthält so-wohl 1.230 Promotorsequenzen von Vertebraten als auch von Nicht-Vertebraten(plant, nematode, arthropode, mollusc und echinoderm promoters), deren Pro-motorfunktion eindeutig biologisch nachgewiesen ist. Für jeden Promotor ist eineDNA-Sequenz der Länge 350 bp in der Datenbank enthalten. Diese 350 bp um-fassen den Transkriptionsstart von -300 bis +50. In Promotoren, bei denen nichtalle 350 bp bekannt sind, werden die fehlenden Basenpositionen mit "N" aufge-füllt. Alle Promotoren sind am Transkriptionsstart aligned, d. h., die Position +1entspricht dem natürlichen Transkriptionsstart. Somit umfassen die in der Daten-bank enthaltenden Promotorsequenzen alle wichtigen Boxsignale, die in Kapitel2.2.3 beschrieben sind. Weiter vom Transkriptionsstart entfernt liegende enhan-cer-Sequenzen sind nicht enthalten.

Aus den insgesamt 839 Vertebraten-Promotoren werden nur 527 Promotoren ex-trahiert, um nur nicht miteinander verwandte Promotoren in der Datenmenge zuhaben. So wird vermieden, daß zwei ähnliche, eventuell nur an einer Position mu-tierte Promotoren in den Daten für die Untersuchungen mit Neuronalen Netzenenthalten sind.

Um beim Einlesen der Daten die beiden für die Untersuchung wichtigen Promo-torsignale, "TATA"-Box und initiator mit CAP-Signal, einzuschließen, wird eine

Page 93: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 5 Erkennung eukaryontischer Promotoren 93

Teilsequenz von 51 bp, die der Eingabefenstergröße des Neuronalen Netzes ent-spricht, aus der Datenbank extrahiert. Diese 51 bp umfassen den Bereich von -40bis +11. Vom 5'-Ende zum 3'-Ende enthält diese Teilsequenz der Reihe nach die"TATA"-Box, deren Zentrum nach Bucher von -36 bis -20 liegen kann, diespacing region zwischen "TATA"-Box und Transkriptionsinitiation und den in-itiator mit einer Länge von ca. 10 bp, der den Transkriptionsstart +1 einschließtund dessen Position zum Transkriptionsstart auch variieren kann (bis +11). Fürdie Untersuchungen mit Neuronalen Netzen ergibt sich so eine Zusammenstellungvon 527 eukaryontischen Promotoren gleicher Länge (51 bp).

Um die Schwierigkeit einer Klassifizierung einzelner Teilsequenzen in dieser 51bp langen Promotorregion aufzuzeigen, sind in Tabelle 5.1 die Auftrittshäufigkei-ten der vier Basen an den einzelnen Positionen für die 527 Promotoren aufgeli-stet. Die interessanten Bereiche um -26 für die "TATA"-Box und um +1 für dasCAP-Signal sind erkennbar. In Abbildung 5.1 ist die Tabelle als Kurve aufgetra-gen. Dieses veranschaulicht noch mal die Bedeutung der beiden signifikanten Re-gionen. Man erkennt, daß in der "TATA"-Box für die fixen Positionen dasAdenin später und signifikanter auftritt als das Thymin. Positiv für die spätereVorhersage ist auch, daß die als unbekannt gekennzeichneten Basen ("N") nur anden Rändern auftreten und damit ihre Bedeutung vernachlässigt werden kann.

In Tabelle 5.1 ist weiterhin die Verteilung der einzelnen Basen über den gesamtenPromotorbereich positionsunabhängig gezeigt. In der Promotorregion überwiegtGuanin und Cytosin. Dieses scheint die "TATA"-Box-Wirkung zu verstärken, dadie Consensus-Sequenz der "TATA"-Box nur aus Thymin oder Adenin besteht.

Ob diese eher geringe Datenmenge von 527 Promotoren bei der Modellierungdes komplexen Transkriptionsvorgangs bei Eukaryonten ähnlich gute Ergebnisseliefern wird, wie es die Datenmenge bei prokaryontischen Promotoren tut, wer-den die Untersuchungen zeigen.

Page 94: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

position:

-40

-39

-38

-37

-36

-35

-34

-33

-32

-31

-30

-29

-28

-27

-26

-25

-24

-23

-22

-21

-20

-19

-18

-17

-16

A:

103

97

112

89

119

122

125

109

125

128

147

162

211

237

279

250

238

172

144

129

108

115

101

94

124

C:

185

159

145

156

144

142

136

128

139

124

98

100

68

66

45

66

71

102

129

111

169

165

144

145

144

G:

143

162

169

172

164

162

157

170

131

124

108

89

74

64

70

94

109

160

163

193

173

158

175

193

161

T:

90

103

95

105

96

96

106

117

129

148

171

174

172

158

131

115

107

92

90

93

76

88

106

94

97

N:

6

6

6

5

4

5

3

3

3

3

3

2

2

2

2

2

2

1

1

1

1

1

1

1

1

position:

-15

-14

-13

-12

-11

-10

-9

-8

-7

-6

-5

-4

-3

-2

-1

1

2

3

4

5

6

7

8

9

10

11

A:

103

110

89

97

88

83

102

93

95

90

116

105

87

79

79

242

103

94

111

101

102

86

104

95

92

98

C:

173

147

162

179

162

175

159

157

159

146

151

156

160

160

222

103

162

174

160

175

174

153

180

166

175

153

G:

175

161

184

163

157

158

152

175

162

180

149

162

158

156

106

110

134

110

132

127

121

144

124

131

127

153

T:

75

108

91

87

119

111

114

102

111

111

111

104

122

132

120

70

125

144

119

119

125

139

114

130

126

117

N:

1

1

1

1

1

0

0

0

0

0

0

0

0

0

0

2

3

5

5

5

5

5

5

5

7

6

distributionofpromotorpatterns:

A:6284!C:7324!G:7349!T:5795!N:125

distributionofrandom

patterns:

A:67161!C:66944!G:67442!T:67223

Tabelle 5.1:

oben: Basenfrequenz in der Promotorregion von -40 bis +11.

unten: Verteilungen der Basen in den benutzten Datenmengen.

Kapitel 5 Erkennung eukaryontischer Promotoren 94

Page 95: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 5 Erkennung eukaryontischer Promotoren 95

0

20

40

60

80

100

120

140

160

180

200

220

240

260

280

300

-40 -30 -20 -10 0 10

occurences

position

ACGTN

Abbildung 5.1:

Positionsverteilung der vier Basen "A", "C", "G" und "T" in den 527 nicht verwandtenVertebraten-Promotor-Sequenzen von -40 bis +11.

Page 96: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 5 Erkennung eukaryontischer Promotoren 96

5.2.2 Zusammensetzung der Trainings- und Testmenge

Die 527 aus der EPD- Datenbank extrahierten eukaryontischen Promotorsequen-zen werden in eine Trainings- und eine Testmenge aufgeteilt. Die Trainingsmengesetzt sich aus 400 Promotoren und die Testmenge aus den übrigen 127 Promoto-ren zusammen. Die Verteilung der Sequenzen auf die einzelnen Mengen ist zufäl-lig, so daß keine Abhängigkeiten unter den Mustern bestehen sollten. Die genaueZuordnung der Promotoren in die jeweilige Menge ist in den Tabellen 5.2, 5.3(Trainingsmenge) und 5.4 (Testmenge) gezeigt. Die Promotoren der beiden Virenad-2 und HSV-1 sind in keiner der beiden Mengen enthalten.

Beide Mengen werden mit random-Sequenzen als "Nicht-Promotoren" aufgefüllt,in denen alle vier Basen gleichverteilt sind (siehe Tabelle 5.1). Probleme, die die-ses Vorgehen impliziert, sind in Kapitel 4.2.2.1.1 für das gleiche Problem beiProkaryonten erörtert worden. Die Ergebnisse aus diesen Untersuchungen habengezeigt, daß ein screening das Training eines Neuronalen Netzes nur stört. Au-ßerdem erschwert der Umstand, daß die "TATA"-Box bis zu 16 spacing-Klassenzum Transkriptionsstart besitzt, das Erstellen einer geeigneten screening-Proze-dur. Diese Argumente führen dazu, bei den eukaryontischen Untersuchungen aufein screening sowohl in der Trainings- als auch Testmenge zu verzichten. AlsVerhältnis Promotor/random wird in beiden Mengen ein Verhältnis von 1:10 ge-wählt.

Codiert werden die einzelnen Nucleotide mit dem in Kapitel 4.2.4 beschriebenenvierdimensionalen Code (Code4), wobei N mit 0000 codiert wird.

Page 97: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 5 Erkennung eukaryontischer Promotoren 97

training set

1 AD1201-07152 71 GGGL03-33032 141 HEHSV2GC-11188 211 HSHISH4-11074

2 AD1201-30061 72 GGGL04-11095 142 HEHSV2GC-11191 212 HSHL07-07121

3 AD2-07149 73 GGH2A2B-33016 143 HERN01-11177 213 HSHMG14A-31007

4 AD2-07150 74 GGH2A2B-33017 144 HGGL01-07070 214 HSHMG17G-31009

5 AD2-07153 75 GGH2AF-33018 145 HIV2RODX-16081 215 HSHMGCOB-16050

6 AD2-07154 76 GGH2B1-24013 146 HIVH3CG-14085 216 HSHP1G1-11111

7 AD2-07155 77 GGH33B-33020 147 HSA1ATCA-17090 217 HSHSP27-17087

8 AD2-07156 78 GGHBBR2-07076 148 HSA1ATP-17092 218 HSHSP70A-17088

9 AD2-07157 79 GGHI03-11067 149 HSABL1B-26030 219 HSIFD1-07111

10 AD2-07159 80 GGHIS1-07050 150 HSABLA-26032 220 HSIFI54-25038

11 AD2-07160 81 GGHISH1-11065 151 HSACTBPR-17045 221 HSIFI56-25021

12 AD7001-07151 82 GGINS1-07110 152 HSADAG1-11113 222 HSIFNG-07113

13 AD7001-07158 83 GGKERC-07068 153 HSALBEX1-16042 223 HSIFNIN6-27009

14 BTBPTIG1-16066 84 GGLYSX-07087 154 HSALDA1-26015 224 HSIGF2AP-17071

15 BTHOR01-07102 85 GGMY04-07064 155 HSALDA1-26017 225 HSIGFIIFE-28010

16 BTKER4-15028 86 GGMYC-15048 156 HSALDB1-11119 226 HSIGK2-07117

17 BTKER6B-11082 87 GGMYHE-11081 157 HSALDH01-23004 227 HSIL05-07114

18 BTKERAIB-15027 88 GGOV03-07082 158 HSAMYAGA-30065 228 HSIL1AG-14063

19 BTKERIA1-15026 89 GGOVO1-07086 159 HSANFG1-11132 229 HSIL1B-17079

20 BTPGPHA1-11126 90 GGPGR-25037 160 HSAPB01-26028 230 HSIL2RG1-11142

21 BTPPT1-11122 91 GGRIG-37012 161 HSAPOA2-11088 231 HSIL2RG1-11143

22 BTPROB-28006 92 GGTIMA-30016 162 HSAPOAI1-30021 232 HSINSU-07109

23 BTPTHG-30046 93 GGTNTC-24007 163 HSAPOC2G-17051 233 HSINV1-16037

24 BTSIG1-16067 94 GGTROSS1-25018 164 HSAPOE4-36007 234 HSISGA1-23013

25 CCTPMY01-25016 95 GGU4BX-17040 165 HSARG1-30054 235 HSKER671-11083

26 CMHIST34-33027 96 GGVI01-07089 166 HSASG5E-11114 236 HSLCATG-17058

27 CMHIST34-33028 97 GGVIM1-25002 167 HSATH2-30079 237 HSLIPH01-31010

28 DHBVF16-26009 98 GGVL01-07090 168 HSBCL2A-27006 238 HSLMWOAS-25014

29 DHBVF16-26010 99 HBVADR4-11215 169 HSBCL2A-27007 239 HSLMYC1-27010

30 EBV-07138 100 HBVADR4-11219 170 HSBSF2-17080 240 HSMDR1A3-35012

31 EBV-07139 101 HE1CG-07128 171 HSBSF2-17081 241 HSMHBA1-15054

32 EBV-07140 102 HE1CG-07129 172 HSCAIII1-26020 242 HSMHCGE1-14076

33 EBV-07141 103 HE1CG-07130 173 HSCEATG-36009 243 HSMHCP42-15038

34 EBV-07142 104 HE1CG-07132 174 HSCF8N-14077 244 HSMHDC3B-16068

35 EBV-07143 105 HE1CG-07133 175 HSCFOS-11145 245 HSMRP14A-26026

36 EBV-07144 106 HE1CG-07134 176 HSCN2A-15034 246 HSMRP8A-26025

37 EBV-07145 107 HE1CG-07135 177 HSCNTFG1-33035 247 HSMT1B1-25036

38 EBV-07146 108 HE1CG-07136 178 HSCOL301-25041 248 HSMYCC-11146

39 EBV-07147 109 HE1CG-11178 179 HSCOLA1I-25034 249 HSMYCC-11148

40 EBV-07148 110 HE1CG-11179 180 HSCPB1-25084 250 HSNFLG-26019

41 EBV-11192 111 HE1CG-11180 181 HSCPG1-25086 251 HSNMYC-25008

42 EBV-11193 112 HE1CG-11182 182 HSCRPGA-26029 252 HSNMYC-25010

43 EBV-11194 113 HE1CG-11183 183 HSCYP450-11121 253 HSNRASR-30003

44 EBV-16087 114 HE1CG-11184 184 HSDESMIN-33011 254 HSOATA-30056

45 EBV-16088 115 HE1CG-11185 185 HSDHFR01-07056 255 HSOPS-25083

46 EBV-16089 116 HE1CG-11186 186 HSEGFA1-15045 256 HSP12AA-30062

47 EBV-16090 117 HE1CG-11187 187 HSEGFA1-15046 257 HSP5301-11223

48 EBV-16091 118 HE1CG-11189 188 HSEGFRG-15043 258 HSPBGD1-26007

49 EBV-26011 119 HE1CG-11190 189 HSEGFRG-15044 259 HSPBGD2-26008

50 EBV-26012 120 HE1CG-16085 190 HSENKE-07107 260 HSPEP1-28004

51 EBV-26014 121 HE1CG-17105 191 HSEPKER-24002 261 HSPEPC1-28005

52 FSPRC2A-17043 122 HE1CG-17106 192 HSERR-11141 262 HSPGK11-30017

53 GDCOLG2-30050 123 HE1CG-17107 193 HSFBRGG-11087 263 HSPRCA-32001

54 GDHMG141-31008 124 HE1CG-17108 194 HSFCERG5-17084 264 HSPROL1-14056

55 GG5ACT1-11079 125 HE1CG-17109 195 HSFIBBR1-15029 265 HSPS2G1-15056

56 GGACHRA-15042 126 HE1CG-23002 196 HSFIXG1-07095 266 HSPSBG06-30036

57 GGACTAC-11078 127 HE1CG-26013 197 HSFN3-16038 267 HSRAS1-11149

58 GGACTI-07059 128 HE1CG-27001 198 HSG6PD1-30014 268 HSRAS1-16063

59 GGAL07-07081 129 HECYVMIE-16084 199 HSGASTA-25015 269 HSRAS1-16064

60 GGALASY1-14048 130 HEHCMVCG-11174 200 HSGCSFG-17083 270 HSRIGA-37014

61 GGALDB-17060 131 HEHCMVCG-15057 201 HSGG02-11129 271 HSRPBG1-14047

62 GGC1A201-07066 132 HEHCMVCG-15058 202 HSGLTH1-26027 272 HSRPS14-24040

63 GGCAII12-23006 133 HEHCMVCG-15059 203 HSGLUCG2-17067 273 HSSAACT-25005

64 GGCALB-07085 134 HEHCMVCG-16086 204 HSGRFP1-24001 274 HSSISG5B-11139

65 GGCAMP-24005 135 HEHCMVCG-24003 205 HSH1FNC1-30042 275 HSSOD1G1-07053

66 GGCRYDS-11086 136 HEHCMVCG-24021 206 HSH33G1-15024 276 HSSOMI-16058

67 GGFERH-16048 137 HEHCMVCG-24023 207 HSHBB2-11104 277 HSSP5-25050

68 GGGADPHE-30015 138 HEHCMVCG-24024 208 HSHISH2A-11068 278 HSTCBV81-17093

69 GGGHRA05-30049 139 HEHCMVCG-24041 209 HSHISH2B-11070 279 HSTCR3G1-17096

70 GGGL02-07075 140 HEHSSTS-24022 210 HSHISH3-11073 280 HSTCRA23-26001

Tabelle 5.2:

Der erste Teil der Trainingsmenge (280 Promotoren; Bezeichnung nach EPD [71]).

Page 98: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 5 Erkennung eukaryontischer Promotoren 98

training set

281 HSTCRT3D-11160 311 MMADIG-17064 341 MMH19G-35001 371 MMMOS-29021

282 HSTH01-30008 312 MMAGL1-07072 342 MMHI01-07052 372 MMMOS-29022

283 HSTHIO2A-07055 313 MMALDH1-14050 343 MMHIS2BA-23007 373 MMMP25G1-24028

284 HSTHYR5-14057 314 MMAMY1A1-29011 344 MMHIS2BA-23008 374 MMMYBG-15047

285 HSTKRA-25035 315 MMAMY1A2-29013 345 MMHIS2BB-23009 375 MMNPGFI-36011

286 HSTNFA-11158 316 MMAMY2AI-07097 346 MMHIS2BI-11069 376 MMNUCLEO-36015

287 HSTNFB-11159 317 MMAT01-29019 347 MMHISH31-11071 377 MMODCAB1-37001

288 HSTNP1-33023 318 MMB2ARG-29017 348 MMHISH32-11072 378 MMOTC1-37005

289 HSTPI-27011 319 MMBAND31-25042 349 MMHPRT1-07058 379 MMP2AD1-24033

290 HSTRP-15041 320 MMBAND31-25043 350 MMHTF9-17101 380 MMPLF42-16059

291 HSTSHBA1-30071 321 MMC31-07093 351 MMHTF9-17102 381 MMPLP1-30033

292 HSTUBAG-14030 322 MMCKM1-27013 352 MMIFNBG-23039 382 MMPOLB-16049

293 HSTUBB2-14031 323 MMCMDH1-33012 353 MMIG10VH-11151 383 MMPROT2-33029

294 HSUBILP-28011 324 MMCRY1-07069 354 MMIG19-07118 384 MMPSP1G-23001

295 HSUG2A-17036 325 MMCRYG2D-11085 355 MMIG31-07120 385 MMRASKI-16065

296 HSURODG-17059 326 MMCRYS-11084 356 MMIGHAE-07116 386 MMRPL30-11075

297 HSVIM5RR-24039 327 MMCSF1PR-37007 357 MMIGHAI1-07115 387 MMRPL3A-11076

298 HSVWFB-17050 328 MMDH1-32002 358 MMIGKAL-07119 388 MMRPOII1-28001

299 HSYUBG1-15055 329 MMDHF5-24032 359 MMIGKVH2-29002 389 MMRPS16-11077

300 M23576-30040 330 MMENDOA1-16035 360 MMIGVNP1-14073 390 MMSAA3G1-14039

301 M23631-30077 331 MMETNLT5-14080 361 MMIL3G-14064 391 MMTAT1-14049

302 M24907-29008 332 MMFERHG-25047 362 MMIL4G12-15039 392 MMTHY11G-11161

303 M28265-29020 333 MMFLIAP-14081 363 MMIL5G-25045 393 MMTHYS1-15031

304 MAAPRTG-25001 334 MMG37-17095 364 MMKALL-07096 394 MMTP2A-33024

305 MAHMGC01-11116 335 MMGFAPD-14032 365 MMLYT22-17097 395 MMU1A1-17028

306 MAPRP1-26024 336 MMGMCSFG-11138 366 MMMBP1-27008 396 MMU1B2-17029

307 MMABLC1A-30026 337 MMGPD01-24042 367 MMMDR1-35016 397 MMU7-36003

308 MMABLC1B-30025 338 MMGSHPX-11120 368 MMMH02-07122 398 MMVL30R2-14082

309 MMACTCA1-29015 339 MMGSTYA1-26004 369 MMMHCC4D-15053 399 MMZFPB1-33039

310 MMADAP-15032 340 MMGUSB01-30088 370 MMMHKBA-14075 400 NCGSVHXX-11218

Tabelle 5.3:

Der zweite Teil der Trainingsmenge (120 Promotoren; Bezeichnung nach EPD [71]).

Page 99: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 5 Erkennung eukaryontischer Promotoren 99

test set

1 NCGSVHXX-11222 33 RNAFPG-17052 65 RNMHCG-16034 97 SGHIS2A3-07049

2 OABLG1-30028 34 RNAGPA1H-27014 66 RNMLCA1-24037 98 SSFSHBS-33036

3 OAKERC2G-17048 35 RNALBA1-28007 67 RNMLCA2-24038 99 SSMHCTA-30024

4 OAKERFG-17047 36 RNALDOG1-17061 68 RNMYOLC1-07065 100 SSPKRIG1-17085

5 OCBGLO01-07074 37 RNALDOG1-17063 69 RNOXTNP-07101 101 SSUPAG-14053

6 OCCASB5-30006 38 RNAPOA02-30019 70 RNPBPG-16047 102 SV40XX-07164

7 OCHBAPT-11096 39 RNAPOA4G-30020 71 RNPECG1-11117 103 SV40XX-07168

8 OCUTGLOB-07099 40 RNATROPO-30023 72 RNPF4-15040 104 XBU7SNRNA-36004

9 OSCRFA-30037 41 RNCAA-32004 73 RNPOLBA-23015 105 XL68KALB-16039

10 PAPABPV1-11205 42 RNCAMI1-23005 74 RNPOMCG1-25006 106 XLACTA2-23037

11 PAPABPV1-11206 43 RNCASAG1-15030 75 RNPPP-30060 107 XLACTCAG-17044

12 PAPABPV1-11207 44 RNCASGG1-07092 76 RNPS01-07098 108 XLAGA1G-11092

13 PAPABPV1-11208 45 RNCGRPX-29003 77 RNPTH2-07108 109 XLBGAI-25025

14 PAPABPV1-11209 46 RNCPSIA-30055 78 RNPTRYI-29018 110 XLBGL3-07078

15 PAPABPV1-11210 47 RNCTRPB-16053 79 RNRENAA-29023 111 XLBGLII-25024

16 PAPHPV18-15060 48 RNCY45E1-07080 80 RNSVFG-14078 112 XLGFTB-26023

17 PAPHPV18-15061 49 RNCYCPRO-27012 81 RNTHYRP-24029 113 XLGS17A-16093

18 PAPOA2-07167 50 RNCYP17G-35052 82 RNTNTFSG-17046 114 XLHIS4-07051

19 PAPOA2-11214 51 RNELAI1-29005 83 RNTOG5-11115 115 XLHISH3G-14027

20 PAPOJC-15062 52 RNELAII1-29006 84 RNTRAN-15037 116 XLHSP30A-14068

21 PARH1-11211 53 RNFBAG-14035 85 RNU3D-17037 117 XLHSP70-14069

22 PARH1-11212 54 RNFERL1-25048 86 RNVN03-07100 118 XLRNU2-17032

23 PARPVBAU-16092 55 RNGLA2U1-17098 87 RNWAP1-14040 119 XLRPL14-15025

24 PTAZGLO-14043 56 RNGROW3-07104 88 RRCKBR-30066 120 XLRPL1AG-23003

25 RE-16079 57 RNHOX-31003 89 RRG33B-30041 121 XLTF3A1-14029

26 RE1PROP-07124 58 RNHSC73-15051 90 RRP450PB-33019 122 XLU5RNA-17042

27 RE3LTR1-16071 59 RNIGF2-25032 91 RRRASH-15049 123 XLVITE-07088

28 REMM01-11169 60 RNIGF2-25033 92 RSANGA1-36005 124 XLXK81A1-24018

29 REMML1-07123 61 RNIGF2-28008 93 RSTSHBA1-30069 125 XX2-07161

30 RERSV6-07126 62 RNLALB01-07091 94 SGH4H2B-14028 126 XX2-07162

31 REVLXX-11173 63 RNLHB-30075 95 SGHIS1-14026 127 XX2-07163

32 REXXX1-07127 64 RNLPKG-16052 96 SGHIS2A3-07048

Tabelle 5.4:

Die Testmenge (127 Promotoren; Bezeichnung nach EPD [71]).

Page 100: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 5 Erkennung eukaryontischer Promotoren 100

5.2.2 Die Originalgenome adenovirus type 2 und herpes symplex vi-rus-1 als weitere Testmengen

Neben der oben beschriebenen Testmenge sollen die trainierten Netzwerke mitden Originalsequenzen von adenovirus type 2 (ad-2) und herpes symplex virus-1(HSV-1) evaluiert werden. Diese Daten werden aus der EMBL-Datenbank für Vi-ren extrahiert. Ein Fenster mit der passenden Größe von 51 bp wird mit einer In-krementierung von 1 bp über das gesamte Genom "geschoben". So wird einePromotorvorhersage für jede einzelne Basenposition in einem Genom möglich.Dabei wird bei beiden Genome berücksichtigt, daß sich die Polymerase clockwiseund counterclockwise an die doppelsträngige DNA anlagern und die Elongationin beide Richtungen beginnen kann, was aus einer doppelsträngigen DNA doppeltsoviel Muster wie Basenpaarpositionen werden läßt.

Die so erzeugten beiden Mustermengen, in denen die Muster, die einen Promotorenthalten, markiert sind, können als zwei weitere Testmengen angesehen werden.Das ad-2-Genom (kurz: ad) besteht aus 35.937 bp, so daß die damit erzeugteTestmenge aus 71.874 Mustern besteht. Diese Testmenge aus 71.874 Musternbenötigt bei der vierdimensionalen Codierung 29 MByte Speicherkapazität. Aufdem clockwise-Strang sind fünf Promotoren und auf dem counterclockwise-Strang vier Promotoren enthalten, so daß ein trainiertes Netz von 71.874 Mu-stern neun Promotoren korrekt klassifizieren sollte.

Die Testmenge aus HSV-1 umfaßt ebenfalls beide Stränge und besteht somit aus2 12 929 25 858× =. . Mustern mit elf markierten Promotoren (ca. 10 MB Spei-cherkapazität).

5.3 Modell des eukaryontischen Promotors

Bei der folgenden Modellierung soll, wie oben erwähnt, der Vorgehensweise bei derprokaryontischen Modellierung weitgehend entsprochen werden.

Da die Steuerung der eukaryontischen Transkription aus weitaus mehr Faktoren als beider Transkription in Prokaryonten besteht, erfordert dieses auch ein viel komplexeresModell für die Modellierung. Um erste Erkenntnisse zu bekommen, ob eine Modellie-rung wie die vorgestellte überhaupt einen solch komplexen Vorgang abbilden kann, wirddie gesamte Promotor-Polymerase-Wechselwirkung daraufhin vereinfacht, daß imModell explizit nur die beiden wichtigsten Promotorsignale, die "TATA"-Box und derinitiator, berücksichtigt werden.

Der Modellierung des prokaryontischen Transkriptionsprozesses entsprechend, wird zu-erst versucht, die beiden Signale einzeln zu modellieren. Im Gegensatz zu den pro-karyontischen Signalboxen "-35" und "-10" sind die eukaryontischen Hauptsignale,"TATA"-Box und initiator, welche beide mit variierenden Abständen zum Trans-kriptionsstart auftreten können, in den Daten nicht aligned, was in Abbildung 5.1 und 5.2zu sehen ist. Daher muß für die separate Modellierung auch ein positionsunabhängiges

Page 101: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 5 Erkennung eukaryontischer Promotoren 101

Neuronales Netz, z. B. ein time-delay-Netz, im Gegensatz zum Perzeptron bei Pro-karyonten benutzt werden.

Zur Modellierung der "TATA"-Box wird aus der 51 bp langen Promotorsequenz eineTeilsequenz extrahiert, welche den Bereich umfaßt, in der die "TATA"-Box auftritt (-40bis -11[18]). Damit werden time-delay-Netze trainiert.

Für das Training Neuronaler Netze (ebenfalls time-delay), die den initiator mit CAP-Si-gnal erkennen sollen, wird der hintere Teil des 51-Fensters genommen, also die Sequenzvon -20 bis +11.

Um die Informationen aus beiden Vorhersagen zusammenzufassen, werden die resultie-renden Gewichtsmatrizen der rezeptiven Felder beider Netze für die Initialisierung derrezeptiven Felder eines time-delay-Netzes mit zwei hidden layers, je eine layer für einSignal, benutzt (Abbildung 5.2). Dieses Netz wird anschließend dem time-delay-Netz ausder prokaryontischen Promotorerkennung entsprechend trainiert (siehe Kapitel 4.3).

Page 102: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 5 Erkennung eukaryontischer Promotoren 102

output

A C G T

0.99

TATA-layer

CA-layer

Abbildung 5.2:

Das zweilagige time-delay-Netz mit den hidden layers für die "TATA"-Box und dasStartsignal "CA" (TDNN-EU3). Die units mit den stärksten Gewichten von den hiddenlayers zur output unit sind seitlich von den übrigen hidden units abgesetzt. Das anlie-gende Beispielmuster erhält die Bewertung 0,99.

Page 103: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 5 Erkennung eukaryontischer Promotoren 103

5.5 Ergebnisse der eukaryontischen Promotorvorhersage

Zu Beginn werden die Ergebnisse der separaten Modellierung sowohl der "TATA"-Boxals auch der initiator-Box vorgestellt. In beiden Fällen werden time-delay-Netze ver-wendet, die eine Merkmals-layer für die betreffende Box besitzen. Anschließend werdendie Ergebnisse des zusammenfassenden Netzes präsentiert, wobei die Verbesserung derVorhersagegenauigkeit dieses Netzes gegenüber der einzelnen Modelle herausgearbeitetwird. Wie bei den Prokaryonten erhält man auch bei den Eukaryonten aus den theoreti-schen Versuchen einige biologische Erkenntnisse zu den modellierten Signalboxen undden spacings. Nach der Evaluierung an den zwei Testgenen erfolgt zum Schluß einkurzer Vergleich mit den Ergebnissen von Buchers Statistikuntersuchung.

Auch hier werden die aktuellen Neuronalen Netzwerk mit dem Simulatortool für Neuro-nale Netze der Universität Stuttgart konstruiert (SNNS, Stuttgarter Neuronale NetzeSimulator) [68].

5.5.1 "TATA"-Box-Modellierung

Wie in Kapitel 5.3 gesehen, wird zuerst versucht die "TATA"-Box mit einem ein-lagigen time-delay-Neuronalen Netz (TDNN-EU1) zu modellieren. Um keineStörungen in der Vorhersage von Sequenzen zu bekommen, die nicht in unmittel-barer Nähe der "TATA"-Box liegen, werden aus dem 51 bp großen Fenster fürdie gesamte Promotorregion die ersten 30 bp als Teilsequenz extrahiert (das ent-spricht -40 bis -11 upstream vom Transkriptionsstart). In dieser Region befindensich an variierenden Positionen die "TATA"-Boxen in den verschiedenenPromotoren. So ergibt sich für das time-delay-Netz ein Eingabefenster mit 30 bp.

Das rezeptive Feld der Merkmals-hidden-layer wird mit den Ergebnissen aus derstatistischen Untersuchung von Bucher vorinitialisiert. Bucher geht von einerBoxgröße von 15 markanten Basenpositionen aus.

Durch das Training wird die Gewichtsmatrix des vorinitialisierten rezeptiven Fel-des mit den präsentierten Daten adaptiert. Die prokaryontischen Untersuchungenhaben gezeigt, daß die Wahl der Größe des rezeptiven Feldes wichtig für dieVorhersagegenauigkeit des trainierten Neuronalen Netzes sein kann. In Abbil-dung 5.3 sind die Ergebnisse für verschiedene Boxengrößen (6 bp, 10 bp, 15 bpund 20 bp), was der Größe der verschiedenen rezeptiven Feldern entspricht, ge-zeigt. Im oberen Teil der Abbildung, in dem die falsch positiven Klassifikationenfür verschiedene korrekt positive Klassifikationen aufgetragen sind, erkennt man,daß die Unterschiede in der Vorhersagegenauigkeit bei verschiedenen Boxgrößensich nicht sehr unterscheiden. Diese Vermutung wird durch die untere Kurvebestätigt, in der die falsch positiven Klassifikationen versus die korrekt positivenKlassifikationen vier verschiedener Boxgrößen für die Testmenge aufgetragensind. Gravierende Unterschiede mit verschiedenen rezeptiven Feldern sind nichtzu erkennen, was auch die Analyse der Gewichtsmatrix der rezeptiven Felder derGröße 15 bp des Gesamtnetzes (TDNN-EU3) zeigt (Abbildung 5.5), in der sich

Page 104: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 5 Erkennung eukaryontischer Promotoren 104

im wesentlichen starke Gewichte für die sechs signifikanten Basenpositionen("TATAAA") herausbilden. Bei genauerer Betrachtung scheinen die rezeptivenFelder mit 15 bp die günstigsten durchschnittlichen Vorhersagegenauigkeiten zuerzielen. Bei einer falsch positiv Rate von ca. 1%, was 50% bzw. 60% korrektpositiver Erkennung entspricht, liegen die Minima auf der Testmenge bei dieserBoxengröße von 15 bp (bei 50% c. p. 0,6% f. p. und bei 60 % c. p. 1,59% f. p.).Für die anderen korrekt positiven Werte erzielt eine Boxengröße von 15 bpdurchschnittliche Vorhersageergebnisse. Die genauen Vorhersagegenauigkeitenfür markante Maße, beschrieben in Kapitel 4.3.1, sind in Tabelle 5.5 gezeigt(TDNN-EU1). Unter anderem werden hier auch Vorhersageergebnisse dieserreinen Boxvorhersage für die Gesamtpromotorregion auf beiden Genomenberechnet.

Page 105: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 5 Erkennung eukaryontischer Promotoren 105

0.1

1

10

100

6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

fals

e po

sitiv

box size

80%c.p.70%c.p.60%c.p.50%c.p.

0.01

0.1

1

10

100

0 10 20 30 40 50 60 70 80 90 100

fals

e po

sitiv

correct positiv

6er10er15er20er

Abbildung 5.3:

Ergebnisse bei verschiedenen Größen der als rezeptive Felder modellierten Boxen für die"TATA"-Box-Vorhersage.

Page 106: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 5 Erkennung eukaryontischer Promotoren 106

5.5.2 Initiator-Modellierung

Analog zum vorigen Abschnitt wird versucht, ein time-delay-Neuronales Netz zutrainieren, welches Vorhersagen für die Erkennung von initiator-Signalen durch-führen soll (TDNN-EU2). Diesmal werden 30 bp, die die Transkriptionsstelleumfassen (-19 bis +11), für die Modellierung extrahiert. Die Ergebnisse sind inder Tabelle 5.5 aufgelistet. Nur 11% korrekte Erkennung bei 1% falsch positiverKlassifizierung auf der Testmenge machen deutlich, daß das initiator-Signal keineähnlich markante Mustersequenz wie die "TATA"-Box zu besitzen scheint. DieseErgebnisse lassen den Schluß zu, daß die Basenstruktur des initiators für ver-schiedene Promotoren nicht konstant ist und somit wahrscheinlich auch von ver-schiedenen, spezifischen Proteinen erkannt werden kann. Die "TATA"-Box hateine viel konserviertere Struktur, was belegen könnte, daß nur der Transkrip-tionsfaktor TFIID an diese Stelle bindet und damit diese Stelle als Signal erken-nen kann.

Um eine komplette Übersicht zu bekommen, werden auch die mit dem initiator-Modell erzielten Vorhersageergebnisse für eine Gesamtpromotorregion auf denbeiden Testgenomen durchgeführt. Erwartungsgemäß sind die Vorhersageergeb-nisse im Vergleich zu denen mit der reinen "TATA"-Box-Vorhersage schlechter(Tabelle 5.5; TDNN-EU2).

5.5.3 Kombination aus "TATA"-Box und initiator

Die These, Promotoren ohne konservierte "TATA"-Box besäßen ein signifikantesinitiator-Signal, könnte durch ein physikalisches Netz, welches die reine"TATA"-Box-Vorhersage durch Einbeziehung der initiator-Information verbes-sert, zumindest auf diese theoretische Weise belegt werden.

Die Vorhersageergebnisse für das physikalische time-delay-Neuronale Netz(TDNN-EU3), dessen Konstruktion in Kapitel 5.3 beschrieben ist, sowohl auf derTestmenge als auch auf den beiden Originalgenomen sind in Tabelle 5.5 doku-mentiert.

Die Vorhersagegenauigkeit der reinen "TATA"-Box- oder initiator-Modellierungdurch ein Neuronales Netz kann deutlich erkennbar verbessert werden. Die Vor-hersagen auf der Testmenge mit 127 "wahren" Promotoren und 1.270 random-Sequenzen sind für alle vier Maße bezüglich der Klassifikation besser als dieVorhersagen der Einzelmodellierung. Ohne daß eine random-Sequenz als Promo-tor vorhergesagt wird, werden ca. 13% der wahren Promotorsequenzen korrektvorhergesagt. Während die initiator-Vorhersage keinen Promotor ohne falschpositiven Klassifikationen findet, wird die 3,94%ige "TATA"-Box-Erkennungmehr als verdreifacht. Die Korrelation bei dem wichtigen Maß von 1% falschpositiver Vorhersage kann von 0,62 bei der "TATA"-Box-Erkennung auf 0,66erhöht werden (54,33% auf 55,12%). Eine 100%ige korrekt positive Erkennung

Page 107: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 5 Erkennung eukaryontischer Promotoren 107

liefert bei allen drei Neuronalen Netzen auch annähernd 100% falsch positiveErkennung.

Der große Nutzen des Gesamtnetzes zeigt sich eigentlich erst bei den Tests aufden Originalgenomen. Eine 100% Erkennung aller neun Promotoren auf ad-2 lie-fert einen falsch positiven Wert von 12,44%, welches gegenüber 82,82% sowie97,59% bei den Einzelnetzen eine sehr bedeutende Verbesserung ist. Bei einerkorrekten Erkennung der fünf "starken" Promotoren auf ad-2 klassifiziert daskombinierte Netz von 71.874 Sequenzen nur 86 als extra sites (0.12% f. p.).

Auch auf dem HSV-1-Genom kann eine Verbesserung der Vorhersagegenauigkeiterzielt werden (Beispiel: 10/11 => 2.39% f. p.).

Zusammenfassend zeigt sich, daß eine Klassifizierung mit dem Neuronalen Netz,das nur für die Erkennung des initiators konstruiert wird, keine ausreichendenVorhersagegenauigkeiten erzielt werden können. Das Neuronale Netz, welchesdie "TATA"-Box erkennen soll, ist dagegen schon viel besser für eine Gesamt-klassifizierung geeignet. Die Kombination, ein physikalisches Neuronales Netz,welches versucht beide Informationen geeignet zu kombinieren, scheint die besteLösung zu sein.

Page 108: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 5 Erkennung eukaryontischer Promotoren 108

methods

testset(1397patterns)

%c.p.at0%f.p.

%c.p.at1%f.p.(C)

%c.p.at2%f.p.

%f.p.at100%c.p.

%c.p.with0.5thresh.

%f.p.with0.5thresh.

statistic(Bucher)

TDNN-EU1(TATA)

3.94

54.33(0.62)

61.42

98.94

25.20

0.20

TDNN-EU2(CA)

0.00

14.96(0.30)

22.05

100.00

3.94

0.08

TDNN-EU3

13.39

55.12(0.66)

63.78

98.74

53.54

0.87

methods

ad-2(71874patterns)

%c.p.at1%f.p.

%f.p.for9/9

%f.p.for7/9

%f.p.for5/9

%c.p.w0.5thr.

%f.p.w0.5thr.

statistic(Bucher)

-

0.23

0.01

TDNN-EU1(TATA)

55.56

82.82

4.33

0.23

22.22

0.14

TDNN-EU2(CA)

11.11

97.59

66.19

31.87

0.00

0.31

TDNN-EU3

66.67

12.44

2.23

0.12

66.67

1.02

TDNN-EU3(N)

"

6.19

1.52

0.12

"

"

TDNN-EU3(-5..+5)

"

4.10

0.67

0.05

66.67

0.30

TDNN-EU3(Nand-5..+5)

"

2.50

0.40

"

"

"

methods

HSV-1(25858patterns)

%c.p.at1%f.p.

%f.p.for11/11

%f.p.for10/11

%f.p.for9/11

%c.p.w0.5thr.

%f.p.w0.5thr.

statistic(Bucher)

-

0.08

0.07

TDNN-EU1(TATA)

54.55

74.61

4.18

2.06

27.27

0.10

TDNN-EU2(CA)

0.00

98.13

88.18

79.54

0.00

0.82

TDNN-EU3

63.64

66.64

2.39

2.25

63.64

0.89

TDNN-EU3(N)

72.73

31.83

1.25

1.23

72.73

0.89

TDNN-EU3(-5..+5)

63.64

8.30

0.81

0.71

63.64

0.20

TDNN-EU3(Nand-5..+5)

72.73

6.37

0.24

0.23

72.73

0.20

Tabelle 5.5

Page 109: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 5 Erkennung eukaryontischer Promotoren 109

Tabelle 5.5:

statistic = statistical method

TDNN-EU1 (TATA) = trained neural network for "TATA"-box prediction

TDNN-EU2 (CA) = trained neural network for initiator prediction

TDNN-EU3 = best trained physical neural network (2 hidden layer, boxsize 15 bp)

(N) = best neighbour procedure for promotor sites

(-5 .. +5) = 10 bp window procedure

(N and -5..+5) = combination of both procedures

7/9 = 7 predicted promotors / 9 real promotors

% f.p. w 0,5 thr. = % false positiv classification with the threshold of 0,5

5.5.4 Schwellenwerte

In diesem Kapitel soll sich mit der Wahl des Schwellenwertes (threshold) deroutput unit für die eukaryontische Promotorvorhersage befaßt werden, d. h., dieSchwellenwerte bei den Vorhersagen auf der Testmenge und den beiden Original-genen werden miteinander verglichen.

In Abbildung 5.4 sind die falsch positiven Vorhersagen, die korrekt positivenVorhersagen und die zugehörigen Korrelationen des Neuronalen Netzes (TDNN-EU3) gegen den Schwellenwert (threshold) aufgetragen. Während die drei Kur-ven für die falsch positiven Klassifikationen und die korrekt positiven Klassifika-tionen ähnlich verlaufen, weicht die Kurve für die Korrelation sehr von den übri-gen beiden ab. Dieses hängt mit der geringen Anzahl an positiven Mustern in bei-den Originalsequenzen zusammen.

Bei einer falsch positiven Klassifikationsrate von 1% liegen die Schwellenwertezwischen 0,45 und 0,53. Somit können die durch Versuche mit der Testmengeermittelten optimalen Schwellenwerte fast direkt für Klassifikationen auf denOriginalgenomen eingesetzt werden und würden bei diesen ähnliche falsch posi-tive Vorhersageraten erzielen.

Die Betrachtung der Korrelationskurve ist wiederum besonders interessant. Manerkennt, daß die Korrelation der Originalgenome des adeno-Virus und des her-pes-Virus bedeutend niedriger ist als die Korrelation der Testmenge. Auch dieMaxima der Kurven existieren an unterschiedlichen Schwellenwerten. Die höch-ste Korrelation weist die Testmenge bei einem Schwellenwert von 0,36 und 0,4auf (C = 0,685). Dieser Schwellenwert führt zu einer Vorhersagegenauigkeit von62% bis 63% mit ca. 1,25% falsch positiv auf der Testmenge. Wie bei den pro-karyontischen Untersuchungen zeigt sich wieder, daß das Abbruchkriterium desTrainings (1% f. p.) zu dem Maximum an Korrelation auf der Testmenge führt.Ad-2 und herpes haben ihre Maxima bei einem Schwellenwert von 0,99 bzw.0,975.

Page 110: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 5 Erkennung eukaryontischer Promotoren 110

0.1

1

10

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

false

pos

itiv

threshold

false positiv versus threshold

test setad

herpes

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Corre

latio

n

threshold

Correlation versus thresholdtest set

adherpes

0

10

20

30

40

50

60

70

80

90

100

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

corre

ct po

sitiv

threshold

correct positiv versus thresholdtest set

adherpes

Abbildung 5.4:

Die Ergebnisse des TDNN-EU3 auf den drei Testmengen in Abhängigkeit vom Schwel-lenwert.

5.5.5 Biologische Erkenntnisse

In diesem Abschnitt sollen die Ergebnisse der theoretischen Modellierung erläu-tert werden, die Aussagen über die biologische Bedeutung von einzelnen Struktu-ren des Transkriptionsprozesses in eukaryontischen Zellen zulassen. Der ersteTeil präsentiert mögliche Erkenntnisse, die aus der Analyse der Architektur desNeuronalen Netzes mit der besten Vorhersagegenauigkeit hervorgehen. Diesessind Aussagen über die Struktur der "TATA"-Box, über die Struktur des initia-tors und über die Funktion der spacing-Klassen zwischen "TATA"-Box undTranskriptionsstart.

Page 111: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 5 Erkennung eukaryontischer Promotoren 111

Im letzten Abschnitt dagegen spielt nicht die Architektur des Netzes für die bio-logischen Erkenntnisse eine Rolle, sondern die Funktion, also die Vorhersage vonPromotorstellen. Die auf den Originalgenomen der beiden Viren zusätzlich zu denbekannten Promotoren gefundenen promotorähnlichen Sequenzstellen können fürweitere experimentelle Untersuchungen, z. B. für die Herstellung künstlicher invitro-Promotoren, nützlich sein.

5.5.5.1 Die rezeptiven Felder als Repräsentationsform der beiden Hauptpromo-torsignale

In Abbildung 5.5 sind in Diagrammform die resultierenden Gewichtsmatrizen derbeiden rezeptiven Felder, eines für die "TATA-Box" und eines für den initiatorgezeigt. Die starken Gewichte modellieren die große Bedeutung einer Base an ei-ner bestimmten Position in der Box.

Die "-TATAAA--------"-Sequenz in der "TATA"-Box und die "---CAG----"-Se-quenz in der initiator-Region erhalten die stärksten Gewichte. Interessant sindauch die sich bildenden negativen Gewichten. Besonders negativ bewertet wirdein "G" an der 4. Stelle, "C" und "G" an der 5. und 6. Stelle für die "TATA"-Boxund "C" an der 5. Stelle, "A" an der 6. Stelle und "G" an der 7. Stelle in der in-itiator-Box. Deutlich wird auch, daß auf die "TATA"-Box ein "GC"-reicher Be-reich folgt, auch wenn dieser keine so große Bedeutung wie die sechs "TATA"-Box-Basen besitzt. Vergleicht man diese Ergebnisse mit den statistischen Be-rechnungen der Auftrittsfrequenzen der einzelnen Basen bei Bucher [18], sostimmen die Ergebnisse mit den Neuronalen Netzen annähernd mit den statisti-schen Ergebnissen überein. Eine auffällige Abweichung kann man an der Stellenach der "CA"-Sequenz im initiator finden. Eine Adenin-Base an dieser Stelletritt nach den statistischen Berechnungen manchmal auf, während das rezeptiveFeld an dieser Stelle sein negativstes Gewicht überhaupt besitzt, wasgleichbedeutend damit ist, daß "A" an dieser Position einen großen negativenEinfluß auf die Geasmtklassifikation hätte. Besonders hervorgehoben werden sollwiederum, daß die Gewichtsmatrix das Verhalten der beiden Promotorboxen indem Gesamtmodell der Transkription symbolisiert, d. h., ein rezeptives Feld stelltsich so ein, daß es für die Vorhersage des Modells über die gesamte Region ambesten geeignet ist. So können auch Abhängigkeiten zwischen den Boxen berück-sichtigt werden, welche als Information in die Gewichtsmatrizen der einzelnen"Boxen" einfließen, was bei statistischen Analysen nicht möglich ist.

Page 112: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 5 Erkennung eukaryontischer Promotoren 112

T

G

C

A

T

G

C

A

1.65

0.63

-0.97

3.74

0.00

.

T A T A A A C A

Abbildung 5.5:

Die resultierende Gewichtsmatrix für die "TATA"-Box und den initiator.

5.5.5.2 Spacing-Klassen der "TATA"-Box

Die Modellierung der spacing-Klassen der "TATA"-Box zum biologisch determi-nierten Transkriptionsstart erfolgt in dem physikalischen Neuronalen Netz für dieeukaryontische Promotorerkennung ebenfalls durch die Gewichtsverteilung vonder "TATA"-Box-hidden layer zur output unit. Der Unterschied zur prokaryonti-schen Untersuchung besteht darin, daß man aufgrund biologischer Experimentedie Anzahl der prokaryontischen spacing-Klassen, hier beschreiben sie die Ab-stände zwischen beiden Promotorboxen ("-10"- und "-35"-Box), kennt, währendes für die Anzahl an spacing-Klassen zwischen "TATA"-Box und Trans-kriptionsstart in eukaryontischen Zellen bisher lediglich Schätzungen gibt, die von10 bis 20 verschiedenen spacing-Klassen ausgehen. (Bucher [18] erwähnt 16spacing-Klassen, während Penotti [72] von elf spacing-Klassen mit zwei Haupt-spacing-Klassen spricht.)

Abbildung 5.6 zeigt diejenigen Gewichte für die spacing-Klassen, die ein positi-ves Gewicht besitzen und damit als spacing-Klassen vorhergesagt werden. DasNeuronale Netz mit der besten Vorhersagegenauigkeit findet danach 17 ver-schiedene spacing-Klassen (spacing-Klasse 17 bis 33). Die spacing-Klasse 17beispielsweise bedeutet, daß sich zwischen dem letzten "A" der "TATAAA"-Se-quenz und dem Transkriptionsstart (+1) 17 bp befinden.

Page 113: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 5 Erkennung eukaryontischer Promotoren 113

Weiterhin erkennt man, daß es drei Haupt-spacing-Klassen (24, 25, und 26) gibtund daß weitere fünf Klassen in unmittelbarer Umgebung dieser Hauptklassen miteiner Bewertung über 2 auftreten (spacing-Klassen 20, 21, 22, 23 und 27).

Alle anderen in der Abbildung nicht gezeigten Verbindungen dieser "TATA"-hidden layer zur output unit besitzen negative Gewichte, was die relativ fixePositionierung der "TATA"-Box bestätigt. Diese Ergebnisse scheinen hilfreich fürweitere experimentelle Untersuchungen zu sein, wenn man bedenkt, daß bis zu80% der eukaryontischen Promotoren eine mehr oder weniger signifikante"TATA"-Box und damit auch "TATA"-Box-spacing-Klasse besitzen.

0.5

1

1.5

2

2.5

3

3.5

4

17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33

conn

ectio

n w

eigh

t

spacing class

Abbildung 5.6:

Die spacing-Klassen der "TATA"-Box.

Page 114: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 5 Erkennung eukaryontischer Promotoren 114

5.5.5.3 Vorhersageergebnisse auf den beiden Test-Genomen

Das Neuronale Netz (TDNN-EU3), welches die besten Vorhersageergebnisse lie-fert, wird zur Promotorsuche auf den Originalgenomen ad-2 und HSV-1 einge-setzt.

Betrachtet man die Vorhersageergebnisse für jede einzelne Position in einem Ge-nom fällt auf, daß in der näheren Umgebung einer starken Bewertung sowohl bei"wahren" Promotoren als auch bei extra sites jeweils ebenfalls hohe Werte für dieum 1 bp bis 5 bp verschobenen Muster auftreten. Dieses läßt sich damit erklären,daß die Muster an keiner konservierten Mustersequenz aligned sind, sondern amnatürlichen Transkriptionsstart, der keine echte Consensus-Sequenz mit festerPosition besitzt. Das bedeutet, daß das Netz, welches fähig ist, positionsunab-hängige Aussagen zu machen, nicht auf eine bestimmte Position festgelegt ist. Beider prokaryontischen Untersuchung trat solch ein Problem nicht auf, da die Mu-ster an der sehr konservierten "-10-Box" aligned waren, und somit die "-10-Box"nur an einer Position erkannt werden konnten. Bei der "TATA"-Box mit der mar-kanten Teilsequenz von "TATAAA" zeigt sich dieses Problem sehr gut. Ein Bei-spiel soll dies verdeutlichen: Tritt in der zu testenden Sequenz beispielsweise eine"TATA"-Box-ähnliche Sequenz von "TATATC" auf, so erhält dieses Muster Iwegen der "TATA"-Teilsequenz eine starke Bewertung an beispielsweise Positi-on 1 in der Merkmals-hidden-layer für die "TATA"-Box. Das Muster II, um 1 bpinkrementiert, hat das Muster "ATATCx". Dieses Muster führt zu keiner starkenAktivierung der Position 1 in der Merkmals-hidden layer. Allerdings ist die zwei-te unit mit Position 2 genauso stark aktiviert wie die unit an Position 1 bei Mu-ster I. Das für die Bewertung verantwortliche rezeptive Feld ist identisch undführt somit zu derselben Bewertung. Besitzen beide Merkmalsneuronen der hid-den layer ein starkes Gewicht für die spacing-Klasse zur output unit, so tragenbeide Muster zur Aktivierung ihres outputs bei, d. h., beide benachbarte Mustererhalten eine hohe Bewertung.

Diese Erkenntnis führt dazu, nicht jede einzelne Position zu bewerten, sondernfür die Promotoren die Muster in einer Umgebung von +5 bp bis -5 bp zu be-trachten und ihre Bewertungen mit dem Muster an der genauen Position zu ver-gleichen. Das Muster mit der höchsten Bewertung wird als Repräsentant für dietatsächliche Promotorstelle genommen und die falsch positiven Klassifikationenmit dem neuen erhöhten Schwellenwert berechnet.

Ergebnisse können in Tabelle 5.5 gesehen werden. Diese Prozedur (best neigh-bour procedure for promotor sites, "N") führt zu einer Reduzierung der falschpositiven Klassifikation bei 100% Erkennung auf ad-2 von 50% auf 6,19%. BeiHSV-1 geht beispielsweise die falsch positive Klassifikation bei einer Erkennungvon neun der elf Promotoren auf 1,23% zurück.

Dieses Verhalten des positionsunabhängigen time-delay-Netzes tritt auch bei"Pseudo"-Promotorstellen auf. Durch eine geeignete Prozedur wird ein Reprä-sentant in einem Fenster von 10 bp, das die falsch positive Promotorstelle um-schließt, bestimmt (10 bp window procedure [-5 .. +5]). So werden beispielsweise

Page 115: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 5 Erkennung eukaryontischer Promotoren 115

drei benachbarte falsch positive Vorhersagen auf eine falsch positive Vorhersagereduziert.

Die Ergebnisse des Einsatzes solch einer Prozedur für die Reduzierung der falschpositiven Klassifikationen sind in der Tabelle 5.5 gezeigt.

Eine Kombination dieser beiden beschriebenen Analyseprozeduren ist anschlie-ßend eingesetzt worden, um eine Promotorsuche auf den beiden Originalgenomendurchzuführen.

In der Tabelle 5.6 und 5.7 sind diese Vorhersagen des Neuronalen Netzes mit ei-nem Schwellenwert von 0,386 für die Suche auf ad-2 und ebenfalls 0,386 für dieSuche auf HSV-1 dokumentiert. Diese Schwellenwerte führen dazu, daß auf ad-2sieben der tatsächlich existierenden neun Promotoren und auf HSV-1 neun der elf"wahren" Promotoren gefunden werden.

Ob die extra sites eine Promotorfunktion besitzen, müssen biologische Versuchezeigen. Auch inwieweit die Stärke der Bewertung der Promotoren mit derFunktion (Transkriptionsfrequenz) korreliert, ist durch biologische Tests zubelegen.

Page 116: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 5 Erkennung eukaryontischer Promotoren 116

ad-2 clockwise

#228 #5999 #16495 #22842 #30965 #34540

#458 #6080 #16775 #22956 #31205 #34625

#1067 #6120 #17008 #23025 #31290 #34639

#1202 #7177 #17326 #23413 #31454 #34727

#1282 #7431 #17597 #23614 #31608 #34755

#1510 #7580 #17628 #24286 #31629 #34941

#1591 #8064 #17937 #25534 #31771 #34966

#1629 #8558 #18122 #25904 #31795 #34990

#1659 #9227 #18737 #26237 #31860 #35020

#1992 #10105 #18958 #26981 #31884 #35214

#2308 #10326 #19381 #27134 #31918 #35234

#2575 #10574 #19615 #27569 #31957 #35326

#2663 #11537 #19729 #27580 #31977 #35341

#3098 #12836 #19885 #28006 #32020 #35445

#3536 #12875 #19925 #28719 #32459 #35542

#4015 #13234 #20578 #28771 #32976 #35553

#4069 #13379 #21026 #28889 #33066 #35594

#4288 #13763 #21307 #28923 #33099 #35620

#4344 #14064 #21727 #29071 #33205 #35631

#4404 #14078 #21898 #29238 #33373 #35712

#4683 #14565 #22077 #29527 #33420 #35775

#5129 #14824 #22089 #29669 #33587

#5523 #15373 #22378 #29964 #33598

#5798 #15644 #22405 #30563 #33748

#5853 #15802 #22477 #30674 #33913

#5956 #16060 #22730 #30952 #34238

ad-2 counter-clockwise

#132 #5647 #12190 #18284 #28697 #34278

#289 #6123 #12510 #19133 #28829 #34307

#557 #6159 #12716 #19793 #29911 #34494

#676 #6238 #13350 #20039 #30072 #34703

#735 #6325 #13428 #20058 #30111 #34750

#967 #6379 #13465 #20112 #30164 #35125

#1270 #6656 #13554 #20915 #30245 #35250

#1369 #6735 #13953 #21078 #30385 #35308

#2320 #6984 #14086 #21255 #31221 #35450

#2371 #7024 #14289 #22373 #31497 #35483

#2382 #7133 #14490 #22430 #31513 #35701

#2932 #7303 #14885 #22527 #31838 #35729

#3231 #7380 #15105 #22554 #31907 #35779

#3471 #7654 #15300 #22677 #32068

#3681 #8223 #15328 #23052 #32379

#3822 #8621 #15364 #23933 #32444

#3858 #8787 #15501 #24035 #32465

#3889 #8806 #15765 #24051 #32561

#3973 #9942 #16055 #24073 #33008

#4018 #10243 #16515 #24467 #33053

#4029 #10375 #16744 #24895 #33172

#4114 #10641 #16800 #27843 #33260

#4620 #10858 #17314 #27866 #33638

#4808 #11494 #17380 #28165 #33784

#4984 #11663 #17623 #28326 #33915

#5135 #11971 #17788 #28544 #33926

Tabelle 5.6:

Positionen der vorhergesagten Promotoren (hits) in dem adenovirus type 2-Ge-nom mit dem TDNN-EU3 nach Anwendung der beiden Minimierungsanalysen (Nund -5 .. +5). Der klassifizierende Schwellenwert beträgt 0,386. Die tatsächlichenPromotoren sind kursiv gedruckt. Muster #1 umfaßt die Positionen 1 bis 51 imOriginalgenom (clockwise).

Page 117: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 5 Erkennung eukaryontischer Promotoren 117

HSV-1 clockwise

#61 #4085 #6382 #9978

#1327 #4193 #6449 #10166

#1361 #4890 #6904 #10598

#2197 #4986 #7050 #10635

#2320 #5389 #7087 #10857

#2402 #5462 #7417 #10967

#2413 #5579 #7765 #11437

#2545 #5675 #8526 #11519

#3767 #5694 #9062 #11531

#3778 #5700 #9799 #11897

HSV-1 counter-clockwise

#64 #3886 #7234 #11690

#358 #4108 #7271 #12648

#783 #4333 #7351 #12878

#1480 #4402 #7949

#2278 #4518 #9410

#2292 #4831 #9528

#2326 #4879 #10219

#2765 #5786 #10381

#2950 #5876 #11041

#3204 #6582 #11618

Tabelle 5.7:

Positionen der vorhergesagten Promotoren (hits) in dem herpes symplex virus-1-Genom mit dem TDNN-EU3 nach Anwendung der beiden Minimierungsanalysen(N und -5 .. +5). Der klassifizierende Schwellenwert beträgt 0,386. Die tatsächli-chen Promotoren sind kursiv gedruckt. Muster #1 umfaßt die Positionen 1 bis 51im Originalgenom (clockwise).

5.5.6 Vergleiche mit anderen Ergebnissen

Die Auswertung des besten mit den eukaryontischen Mustersequenzen trainiertenphysikalischen Neuronale Netzes und die Ergebnisse der Analyseprozeduren sindin Tabelle 5.5 gezeigt. Diese Ergebnisse sind dort den statistischen Ergebnissenvon Bucher [18] gegenübergestellt. Trotz der Anwendung der Analyseprozedu-

Page 118: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 5 Erkennung eukaryontischer Promotoren 118

ren können die Vorhersageresultate von Bucher nicht erreicht werden. Sowohlauf ad-2 als auch auf HSV-1 erzielt Buchers ranking method bessere Vorhersage-genauigkeiten. Beispielsweise erhält Bucher bei einer Erkennung der sieben stärk-sten Promotoren auf ad-2 0,23% falsch positive Klassifikationen, während dasphysikalische Neuronale Netz TDNN-EU3 unter Berücksichtigung der Analyse-prozeduren maximal 0,40% erzielt. Die Ergebnisse für HSV-1 sind entsprechend(10/11 0,08% gegenüber 0,24%). Allerdings muß darauf hingewiesen werden,daß Bucher nicht erwähnt, ob er Vorhersagen für jede Position durchführt oderob er nur markante Stellen untersucht. Außerdem kann Buchers statistische aufeiner Frequenzmatrix beruhende Vorhersage keine Vorhersagen für alle existie-renden Promotoren durchführen. Bei ad-2 werden zwei Promotoren nicht erkanntund bei HSV-1 kann ein Promotor nicht gefunden werden. Das Neuronale Netzhat bei einer 100%igen Erkennung für ad-2 2,50% und für HSV-1 6,37% falschpositive Klassifikationen als negativen Effekt.

5.6 Diskussion der eukaryontischen Promotorvorhersage

Zusammenfassend kann man sagen, daß der Einsatz eines physikalischen time-delay-Neuronalen Netzes zur Vorhersage von eukaryontischen Promotorregionen in unbekann-ten Sequenzen erfolgversprechend zu sein scheint.

Die Untersuchungen, die als erster Test angesehen werden sollen, verdeutlichen, daßsolch ein Modell viele wichtigen Erkenntnisse liefern kann, auch wenn die Ergebnissezeigen, daß noch die statistische Vergleichsuntersuchung für bestimmte Vorhersagen(nur 7/9 bzw. 10/11 Promotoren werden erkannt) besser klassifiziert.

Eine screening-Untersuchung bietet sich bei den eukaryontischen Promotoren nicht an,da zu viele spacing-Variationen auftreten können. Als optimale Boxgröße für die"TATA"-Box hat sich eine Sequenz von 15 bp herausgestellt.

Betrachtet man die benutzten Schwellenwerte, die für die verschiedenen Klassifikationenauf den drei Testmengen benutzt werden, so stellt sich heraus, daß im Gegensatz zu denprokaryontischen Promotorvorhersagen die verschiedenen optimalen Schwellenwertenicht sehr voneinander abweichen. Dieses läßt den Schluß zu, daß die DNA bei allenVertebraten eine ähnliche Struktur besitzt.

Besonders die biologischen Erkenntnisse, die nur durch solch ein physikalisches Modellerhalten werden können, scheinen für weitere auch experimentelle Untersuchungenwichtig zu sein. Hier sind die Basenbewertungen in den Signalboxen "TATA" und"initiator" und die Angaben über die 16 spacing-Klassen der "TATA"-Box zu erwähnen.

Weitere Modellierungsversuche, die beispielsweise die zwei bei Bucher [18] erwähntenweiteren Signale "CCAAT"-Box und "GC"-Box mitmodellieren, könnten eine weitereVerbesserung der Vorhersagegenauigkeit erreichen.

Desweiteren könnten Neuronale Netze mit anderen Topologien eine weitere Verbesse-rung erzielen, doch scheinen diese der Architektur einer Promotorstelle angepaßtenphysikalischen Neuronalen Netze, wie die prokaryontische Vorhersage auch im Ver-

Page 119: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 5 Erkennung eukaryontischer Promotoren 119

gleich zu anderen Topologien Neuronaler Netze gezeigt hat, für derartige Probleme ambesten geeignet zu sein.

Ob jedoch solch gute Vorhersagegenauigkeiten wie bei der prokaryontischen Promotor-vorhersage erzielt werden können, bleibt aufgrund der viel komplexeren Struktur derPromotoren und des gesamten Transkriptionsprozesses abzuwarten.

Page 120: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 6 Diskussion und Ausblick 120

6 Diskussion und Ausblick

Die Ergebnisse der durchgeführten pro- und eukaryontischen Promotorvorhersagenzeigen, daß der Einsatz physikalsischer Neuronaler Netze, die durch ihre Architektur dieStruktur eines Promotors zu modellieren versuchen, zu einer Verbesserung der Vorher-sagegenauigkeit bei unbekannten zu klassifzierenden Testsequenzen führt.

In prokaryontischen DNA-Sequenzen kann die Vorhersagegenauigkeit von existierendenAnsätzen, die sowohl statistische als auch herkömmliche Neuronale Netze benutzen, aufeiner Testmenge von ca. 80% bis 81% auf ca. 85% bis 88% verbessert werden (1% f. p.;C=0,82). In einem weiteren Test an der Originalsequenz von pBR322 konnte für eine100%ige Erkennung eine falsch positive Klassifikation von 0,15% erreicht werden.Vergleichbare Ansätze, die ebenfalls Neuronale Netze benutzen, erhalten eine falschpositive Klassifikationsrate von 2%. Während in anderen Arbeiten bisher noch keine100%ige Erkennung auf dem Phagengenom von fd erreicht werden konnte, kann daseingesetzte time-delay-Neuronale Netz alle elf vorhandenen Promotoren korrekterkennen, wobei die falsch positiven Klassifikationen bei 4,55% liegen, was mit der fürdie Promotorsuche komplizierteren Struktur gegenüber dem Plasmid pBR322zusammenhängt. Die Ergebnisse anderer Arbeiten, die neun der elf Promotoren bei einerfalsch positiven Vorhersagerate von 5% korrekt erkennen, können auf 1,75% falschpositive Vorhersagen verbessert werden.

Die eukaryontischen Vorhersageresultate sind im allgemeinen nicht so gut, was mit derviel komplexeren Struktur des eukaryontischen Promotors, die sich wiederum aus demviel komplizierteren Transkriptionsprozeß bei Eukaryonten ergibt, zusammenhängt. Indiesen Untersuchungen können nur Vorhersageergebnisse auf einer unbekannten Test-menge von 55,12% mit einer Korrelation von 0,66 bei 1% falsch positiver Vorhersageerzielt werden.

Das physikalische Neuronale Netz wurde verifiziert, indem auf zwei Testgenomen für je-de einzelne Position Promotorstellen vorhergesagt werden. Während auf dem adenovirustype 2 bei einer Erkennung aller neun vorhandenen Promotoren 2,5% falsch positiveVorhersagen auftreten, liegt diese Rate bei dem zweiten Testgenom, dem herpes symplexvirus-1, mit elf korrekt erkannten Promotoren bei 6,37%. Die bei einer vergleichbarenArbeit eingesetzte statistische Frequenzmatrix-Methode von Bucher [18] kann nicht alleexistierenden Promotoren korrekt erkennen. Während auf dem adeno-Virus zweiPromotoren nicht gefunden werden, kann diese ranking-Prozedur auf dem herpes-Genom einen Promotor nicht klassifizieren. Die falsch positiven Erkennungsraten vonBucher für eine Erkennung von sieben der neun Promotoren auf dem herpes-Virus von0,08% ist günstiger als die entsprechende falsch positive Klassifikationsrate mit demNeuronalen Netz von 0,24%.

Um diese Vorhersageresultate zu verbessern, könnte man versuchen, weitere Sequenzsi-gnale, wie z. B. die "CCAAT"-Box oder die "GC"-Box durch weitere Netzwerke mitzu-modellieren.

Page 121: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 6 Diskussion und Ausblick 121

Während die Ergebnisse der Untersuchungen für die prokaryontischen Promotoren sogenau sind, daß damit Vorhersagen neusequenzierter Sequenzen im biologischen Labordurchgeführt werden können, scheint die Promotorklassifikation für Eukaryonten nochnicht ganz biologischen Ansprüchen zu entsprechen.

Bei beiden Untersuchungen läßt sich jedoch der große Vorteil einer solchen physikali-schen Modellierung, die versucht die Struktur eines Promotors in ein time-delay-Neuro-nales Netz zu transformieren, neben der Verbesserung der Vorhersageergebnisse an dengewonnenen biologischen Erkenntnissen erkennen. Die einzelnen Strukturelemente desNeuronalen Netzes können als biologische funktionelle Einheiten interpretiert und analy-siert werden. Es lassen sich Erkenntnisse für weitere Untersuchungen ableiten.

Zusammenfassend kann man sagen, daß die erzielte Verbesserung der Vorhersagegenau-igkeit und die biologischen Erkenntnisse den weiteren Einsatz socher physikalischerNeuronaler Netze zu rechtfertigen.

Diese erfolgreiche Anwendung Neuronaler Netze auf das spezielle Problem der Promo-torerkennung belegen, daß Neuronale Netze im allgemeinen für Aufgaben der Sequenz-analyse geeignet sind. Besonders die gegenseitigen Wechselwirkungen zwischen Theorieund Praxis, biologisches Wissen wird zur Transformation in ein Neuronales Netz benutztund theoretische Ergebnisse lassen sich direkt als bioloische Eigenschaften interpretieren,werden in dieser Arbeit besonders deutlich.

Außerdem haben die Untersuchungen gezeigt, daß der interdiziplinärer Wissensaustauschfür alle Diziplinen von Vorteil sein kann. Als ein Beipiel für die theoretischeModellierung und Simulation biologischer Vorgänge zeigt die durchgeführte Arbeit, daßfür die Grundlagenforschung komplexer Naturphänome Methoden aus der Informatikund im speziellen der Künstlichen Intelligenz geeignet sind und bei weiteren Untersu-chungen eingesetzt werden sollten.

Page 122: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 7 Literaturverzeichnis 122

7 Literaturverzeichnis

1 Suhai, S.. Computational Methods in Cancer Research: The Hierarchy of Geno-mic Information. Interdisciplinary Science Reviews, Vol.14 no.3, 225-232, (1989)

2 Reczko, M., Bohr, H., Subramaniam, S., Pamidighantam, S., Hatzigeorgiou, A..Fold-class prediction by Neural Networks in Protein Structure by Distance Analy-sis, IOS Press, Amsterdam, 272-286, (1994)

3 Qian, N., Sejnowski, T. J.. Predicting the secondary structure of globular proteinsusing neural network models. J. Mol. Biol., 202, 865-884, (1988)

4 Holley, H. L., Karplus, M.. Protein secondary structure prediction with a neuralnetwork. Proc. Nat. Acad. Sci., USA, 86, 152-156, (1989)

5 Bohr, H., Bohr, J., Brunak, S., Cotterill, M. J., Lautrup, B., Norskov, L., Olsen,O. H., Petersen, S. B.. Protein Secondary Structure and Homology by Neural Net-works: The Alpha-helices in Rhodopsin. FEBS Lett., 241, 223-228, (1988)

6 Rost, B., Sander, C.. Prediction of protein secondary structure at better than 70%accuracy. J. Mol. Biol., 232, 584-599, (1993)

7 Brunak, S., Engelbrecht, J., Knudsen, S.. Prediction of Human mRNA Donor andAcceptor Sites from the DNA Sequence. J. Mol. Biol., 220, 0-17, (1991)

8 Reczko, M., Suhai, S.. Applications of Artifical Neural Networks in GenomeResearch in Proceedings of the International Symposium on Computational Ge-nome Research, 1992, Heidelberg

9 Watson, J.. Human Genom Project. Science, 248, 44-49, (1990)

10 Stryer, L.. Biochemie. W.H. Freeman and Company, New York, (1988)

11 Knippers, R.. Molekulare Genetik. Georg Thieme Verlag, Stuttgart, (1982)

12 Lewin, B.. Gene. VCH, Weinheim, (1988)

13 Watson, J. D., Gilman, M., Witkowski, J., Zoller, M.. Recombinant DNA. W. H.Freeman and Company, New York, (1992)

14 Watson, J. D.. Die Doppel-Helix. Reinbek (Rowohlt), (1973)

15 Frank-Kamenetskii, M. D.. Unraveling DNA. VCH, Weinheim, (1993)

16 Hawley, D. K., McClure, W. R.. Compilation and analysis of Escherichia colipromoter DNA sequences. Nucl. Acids Res., 11, 2237-2255, (1983)

17 Breathnach, R., Chambon, P.. Organisation and expression of eukaryotic splitgenes coding for proteins. Annu. Rev. Biochem., 50, 349-383, (1981)

18 Bucher, P.. Weight Matrix Descriptions of Four Eukaryotic RNA Polymerase IIPromoter Elements Derived from 502 Unrelated Promoter Sequences, J. Mol.Biol., 212, 563-578, (1990)

Page 123: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 7 Literaturverzeichnis 123

19 Wasylyk, B.. Transcription Elements and Factors of RNA Polymerase B Promo-tors of higher Eukaryotes. CRC Crit. Rev. Biochem., Vol. 23 issue 2, 77-120,(1988)

20 Dynan, W. S.. Modularity in Promoters and Enhancers. Cell, 58, 1-4, (1989)

21 Zawel, L., Reinberg, D.. Initiation of transcription by RNA polymerase II: amulti-step process. Prog. Nuc. Acid Res. Mol. Biol., 44, 67-108, (1993)

22 Kollmar, R., Farnham, P. J.. Site-Specific Initiation of Transcription by RNAPolymerase II. PSEBM, 203, 127-139, (1993)

23 Wiley, S. R., Kraus, R. J., Mertz, J. E.. Functional binding of the "TATA" boxbinding component of transcription factor TFIID to the -30 region of TATA-lesspromoters. Proc. Natl. Acad. Sci., USA, 89, 5814-5818, (1992)

24 Smale, S. T., Baltimore, D.. The "Initiator" as a Transcription Control Element.Cell, 57, 103-113, (1989)

25 Weis, L., Reinberg, D.. Transcription by RNA Polymerase II: initiator-directedformation of transcription-competent complexes. FASEB J., 6, 3300-3309, (1992)

26 O'Shea-Greenfield, A., Smale, S. T.. Roles of TATA and Initiator Elements inDetermining the Start Site Location and Direction of RNA Polymerase II Tran-scription. J. of Biol. Chem.. Vol. 267 no.2, 1391-1402, (1992)

27 Staden, R.. Computer methods to locate signals in nucleic acid sequences. Nucl.Acids Res., 12, 505-519, (1984)

28 Staden, R., McLachlan, A. D.. Codon preference and its use in identifying proteincoding regions in long DNA sequences. Nucl. Acids Res., 10, 141-156, (1982)

29 Staden, R.. Measurements of the effects that coding for a protein has on a DNAsequence and their use for finding genes. Nucl. Acids Res., 12, 551-567, (1984)

30 Harley, C. B., Reynolds, R. P.. Analysis of E.coli promoter sequences. Nucl. AcidsRes., 15, 2343-2361, (1987)

31 Tautu. P.. Markov-Analyse von DNS-Sequenzen. Stochastical spatial processes:mathematical theories and biological applications. Proceedings of a conference heldin Heidelberg 1984, Springer Verlag, (1986)

32 Stormo, G. D., Schneider, T. D., Gold, L. M., Ehrenfeucht, A.. Nucl. Acids Res.,10, 2997-3011, (1982)

33 Farber, R., Lapedes, A., Sirotkin, K.. Determination of Eukaryotic Protein CodingRegions Using Neural Networks and Information Theory. J. Mol. Biol., 226, 471-479, (1992)

34 Überbacher, E. C., Mural, R. J.. Locating protein-coding regions in human DNAsequences by a multiple sensor-neural network approach. Proc. Natl. Acad. Sci.,Vol. 88, 11261-11265, (1991)

Page 124: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 7 Literaturverzeichnis 124

35 Snyder, E., Stormo, G. D.. Identification of coding regions in genomic DNAsequences: an application of dynamic programming and neural networks. Nucl.Acids Res., 21, 607-613, (1993)

36 Eccles, John C.. Evolution of the Brain. Routledge, London, New York, (1989)

37 Rojas, R.. Theorie der Neuronalen Netze. Springer, Berlin, (1993)

38 Ritter, H., Martinetz, T., Schulten, K.. Neuronale Netze: Eine Einführung in dieNeuroinformatik selbstorganisierender Netzwerke. Addison-Verlag, Bonn, (1990)

39 Rosenblatt, F.. Principles of Neurodynamics. Spartan Books, New York, (1962)

40 Minsky, M. L.. Percetrons. MIT Press, Cambridge, (1969)

41 Rumelhart, D. E., McClelland, J. L.. Parallel Distributed Processing. Vol.1. MITPress, Cambridge, Mass., (1986)

42 Kratzer, K. P.. Neuronale Netze. Hanser, München, (1991)

43 Kohonen, T.. 2nd edn., Springer, Berlin (1982)

44 Sutton, R. S.. Machine Learning. 3, 9-44, (1988)

45 Werbos, P.. Ph. D. Thesis, Havard University, (1974)

46 Rumelhart, D. E., Hinton, G. E., Williams, R. J.. In Rumelhart, D. E., McClelland,J. L.. Parallel Distributed Processing: Explorations in the Microstructures of Co-gnition. pp. 318-362, MIT Press, Cambridge, (1989)

47 Cybenko, G.. Departement of computer science, Tufts university, Medford, MA.

48 Waibel, A. H., Hanazawa, T., Hinton, G. E., Shikano, K., Lang, K. J.. PhonemeRecognition Using Time-Delay Neural Networks. IEEE Transactions on Acoustic,Speech, and Signal Processing, Vol.37 no.3, 328-339, (1989)

49 Lang, K. J., Waibel, A. H.. A Time-Delay Neural Network Architcture for isolatedWord Recognition. Neural Networks, 3, 23-43 (1990)

50 Guyon, I., Albrecht, P., Le Cun, Y., Denker, J., Hubbard, W.. Proceedings of theInternatinal neural networks Conference, Paris, France, p. 42-45, (1990)

51 Mulligan, M. E., Hawley, D. K., Entriken, R., McClure, W. R.. Nucl. Acids Res.,12, 789, (1984)

52 Nakata, K., Kanehisa, M., Maizel, J. V. Jr.. CABIOS Vol4 no.3, 367-371, (1988)

53 Lukashin, A. V., Anshelevich, V. V., Amirikyan, B. R., Gragerov, A. I., Frank-Kamenetskii, M. D.. Neural Network Models for Promoter Recognition. J. ofBiomol. Struct. & Dyn., 6, 1123-1133, (1989)

54 Demeler, B., Zhou, G.. Neural network optimization for E.coli promoter pre-diction. Nucl. Acids Res., 19, 1593, (1991)

55 O`Neill, C. M.. Training back-propagation neural networks to define and detectDNA-binding sites. Nucl. Acids Res., 19, 313-318, (1991)

Page 125: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 7 Literaturverzeichnis 125

56 O`Neill, C. M.. Escherichia coli promoters: neural networks develop distinctdescriptions in learning to search for promoters of different spacing classes.Nucl. Acids Res., 20, 3471-3477, (1992)

57 Youderian, P., Bouvier, S., Susskind, M. M.. Cell 10, 843-853, (1982)

58 O`Neill, C. M.. Consensus Methods for Finding and Ranking DNA Binding Sites.J. Mol. Biol., 207, 301-310, (1989)

59 Horton, P. B., Kanehisa, M.. An assessment of neural network and statisticalapproaches for prediction of E.coli. promoter sites. Nucl. Acids Res., 20, 4331-4338, (1992)

60 Shavlik, J. W., Towell, G. G., Noordewier, M. O.. Using knowledge-based NeuralNetworks to Refine Existing Biological Theories. Proceedings of the Second Inter-national Conference on Bioinformatics, Supercomputing, and Complex GenomeAnalysis at St. Petersburg, Florida, USA, World Scientific Publishing, Singapore,(1993)

61 Bucher, P., Trifonov, E. N.. Compilation and analysis of eukaryotic POL II pro-moter sequences. Nucl. Acids Res. 14, 10009-10026, (1986)

62 Sutcliff, J. G.. Complete Nucleotide Sequence of the Escherichia coli PlasmidpBR322. Cold Spring Harbor Symp. Quant. Biol., 43, 77-90, (1978)

63 Peden, K. W. C..Revised sequence of the tetracycline-resistance gene pBR322.Gene, 22, 277-280, (1983)

64 Queen, C., Rosenberg, M.. A promoter of pBR322 activated by cAMP receptorprotein. Nucl. Acids Res., 9, 3365-3377, (1981)

65 Beck. E., Sommer, R., Auerswald, E. A., Kurz, Ch., Zink, B., Osterburg, G.,Schaller, H.. Nucleotide sequence of bacteriophage fd DNA. Nucl. Acids Res., 5,4495-4511, (1978)

66 Beck, E., Zink, B.. Nucleotide sequence and genome organisation of filamentousbacteriophages f1 and fd. Gene, 16, 35-58, (1981)

67 Mathews, B. W.. Comparison of the predicted and observed secondary structureof T4 phage lysozyme. Biochim. Biophys. Acta, 405, 442-451, (1975)

68 Zell, A., Mache, N., Hübner, R., Mamier, G., Vogt, M., Schmalzl, M., Sommer,T., Döring, S., Posselt, D., Herrmann, K. U., Hatzigeorgiou, A., Riedmiller, M.,Reczko, M., Seemann, M., Ritt, M.. Stuttgarter Neural Network Simulator(SNNS), Version 3.1, Universität Stuttgart, (1993)

69 Bucher, P., Bonny, B.. Signal search analysis: a new method to localize andcharacterize functionally important DNA sequences. Nucl. Acids Res. 12, 287-305, (1984)

70 Bucher, P., Trifonov, E. N.. CCAAT Box Revisited: Bidirectionality, Location andContext. J. Biomol. Struct. Dynam., 5, 1231-1236, (1988)

71 Bucher, P.. The Eukaryotic Promoter Database of the Weizmann Institute ofScience. EMBL Nucleotide Sequence Data Library Release 37, (1994)

Page 126: UNIVERSITÄT HEIDELBERG FACHHOCHSCHULE Hmartinr/doc/DiplomThesisReese1994.pdf · 2001-08-28 · wichtige Informationen über die Struktur einer Promotorregion bekommen als auch die

Kapitel 7 Literaturverzeichnis 126

72 Penotti, F. E.. Human DNA TATA Boxes and Transcription Initiation Sites - AStatistical Study. J. Mol. Biol., 213, 37-52, (1990)