Upload
gerrit-esser
View
216
Download
0
Tags:
Embed Size (px)
Citation preview
5. Vorlesung
Formale Sprachen
Erweitertes Backus System
DNA-Funktionseinheiten
DNA-Sprachbetrachtungen
Programmiersprache ?
Literatur:Ratner V.A.: Molekulargenetische Steurungssysteme. Gustav Fischer Verlag, Stuttgart 1977.
Atlan, H., Koppel, M.: The Cellular Computer DNA: Program or Data. Bulletin of Mathematical Biology, 52, 335 – 348, 1990.
Vorlesung Modellierung & Simulation Überblick
Erweitertes Backus-System
Spezifikation der Basensequenz einer DNA Funktionseinheit erfordert die Berücksichtigung der folgenden Eigenarten:
1. Funktionseinheiten sind durch eine spezifische Länge charakterisiert (z. B. die Pribnow-Box 6 bp, der Promotor hat eine Länge von 64 bp).
2. Es gibt Funktionseinheiten, die durch eine spezifische Häufigkeit von gewissen Basenpaaren bestimmt werden (z.B. Anfangsstück des Promotors besteht aus einer GC-reichen Sequenz, der eine AT-reiche Sequenz folgt).
Vorlesung Modellierung & Simulation Sprachen
Zu 1.) Erweiterung des Backus-Systems
Schreibweise: k x k'.
x-mal Anwendung einer Backus-Regel.
Es gelte i = 1..p, j = 1..q, i,ßi,j (θ-{A} )* und k k' mit k,k',p,q
IN.
Backus-System erweitert:
(k:k') <A> ::= 1<A> ß1 | ... | p<A> ßp
<A> ::= 1 . ... . qVorlesung Modellierung & Simulation Sprachen
Semantik:
- <A> ::= <A~k'> | <A~k'-1> | ... | <A~k> wobei <A~i> für i = k..k' neue Variable sind und
- <A~i> ::= 1<A~(i-1)> ß1 | ... | p <A~i-1> ßp
<A~0> ::= 1 | ... | q
wobei <A~i> für i = 0..k neue Variable sind. Vereinbarung:
Steht zu Beginn der erweiterten Regel statt (k:k') nur (k), so bedeutet dies (k:k). Vorlesung Modellierung & Simulation Sprachen
Beispiel:Gegeben seien die folgenden Regeln:(2) <A> ::= <A> a | <A> b <A> ::= <C> <C> ::= <A> | <C>
diese Regeln bedeuten bezüglich der festgelegten Interpretation: <A> ::= <A~2> <A~2> ::= <A~1> a | <A~1> b <A~1> ::= <A~0> a | <A~0> b <A~0> ::= <C> <C> ::= <A> | <C>
Mögliche Ableitung:<A> <A~2> <A~1> a <A~0> aa <C> aa <A> aa ...Vorlesung Modellierung & Simulation Sprachen
2. Erweiterung des Backus-Systems
Sei p,p',q,q' IN+ und gelte p/q p'/q'.
Zusätzliche Regel:
<C> ::= <A> <C> | <B> <C> (p/q,p'/q')
Semantik:
Wird diese Regel in einer Ableitung verwendet, dann liegt die Häufigkeit der Anwendung von
<C> <A> <C> zwischen p/q und p'/q'.
Vorlesung Modellierung & Simulation Sprachen
Beispiel: <Promotor>
Sequenzierung Identifikation der charakteristischen
Nukleotidsequenz (naïve):
“GC-reiche Sequenz gefolgt von einer AT-reichen
Sequenz und der Pribnow-Box”
Spezifikation der Nukleotidsequenz:
G(Promotor) = ( { Promotor, AT_P, GC_P, AT, GC }, { A, T, G, C, Sequenz, Pribnow-Box }, R, Promotor)
mit R:
Vorlesung Modellierung & Simulation Sprachen
<Promotor> ::= <GC_P> <AT_P> Pribnow-Box Sequenz
(10:15) <AT_P> ::= <AT> <AT_P> | <GC> <AT_P> (6/7,1)
<AT_P> ::= A | T
(10:15) <GC_P> ::= <GC> <GC_P> | <AT> <GC_P> (6/7,1)
<GC_P> ::= G | C
<AT> ::= A | T
<GC> ::= G | C
Vorlesung Modellierung & Simulation Sprachen
Anwendungsbeispiel: Komplexität von Organismen
Definition: Wert einer Regel
Der Wert einer Regel ist durch die Multiplikation des Wiederholungs-
parameters (1, wenn kein Wert spezifiziert ist) mit der Anzahl der
Substrings der rechten Seite der Regel gegeben.
Definition: Komplexität eines erweiterten Backus Systems
Die Summe aller Werte der zu einer Grammatik gehörenden Regeln
spezifiziert die Komplexität des Backus Systems.
Vorlesung Modellierung & Simulation Sprachen
<EXAMPLE> ::= <AT <SEQ> <GC> 1
(19) <AT> ::= <AT> T | <AT> A 38
<AT> ::= T | A 2
(9) <GC> ::= <GC> G | <GC> C 18
<GC> ::= G | C 2
(3) <SEQ> ::= A <SEQ> | T <SEQ> | C <SEQ> | G <SEQ> 12
<SEQ> ::= A | T | G | C 4 Summe 77
Vorlesung Modellierung & Simulation Sprachen
Interpretation: DNA als Sprache
DNA: - Steuerungselement des Zellstoffwechsels.
- Lineare Verkettung von Grundelementen.
Grundelemente A = {A,T,G,C} oder {A,U,G,C}
:= Alphabet der Sprache.
Gesucht: Spezifische Sprache S A*.
Vorlesung Modellierung & Simulation Sprachen
Interpretation: DNA als Sprache
Es lassen sich zwei Ebenen der genetischen Sprache erkennen:
- Polynukleotide (Alphabet = { A,G,C,T,U }) und
- Polypeptide (Alphabet besteht aus den 20 Aminosäuren).
Vorlesung Modellierung & Simulation Sprachen
Interpretation: DNA als Sprache
Genetische Sprache besitzt mindestens sechs Ebenen:
- Codon,
- Cistron,
- Scripton,
- Replicon,
- Segregon und
- Genom.
Vorlesung Modellierung & Simulation Sprachen
DNA-Strukturen
Frage:
Mehrzahl der real existierenden Strukturen erfasst ?
- Annahme: Für Viren und Bakterien ist dies der Fall.
- Annahme: DNA-Strukturen sind universell, d.h. sie treten in allen Organismen auf.
Neben der “Universalität” des genetischen Codes ist von einer “Universalität” der DNA-Strukturen und somit der DNA-Sprache auszugehen.
Vorlesung Modellierung & Simulation Sprachen
Idee:
DNA-Strukturen als Programmiersprache interpretierbar ?
Diskussion:
1. Spezifikation der Funktionseinheiten, indem die Basensequenzen und ihre Funktion beschrieben werden.
2. Anforderungen einer Programmiersprache überprüfen.
Vorlesung Modellierung & Simulation Sprachen
DNA-Struktur Bemerkung
Intron Teilstruktur des Strukturgens
Exon Teilstruktur des Strukturgens
Leader Teilstruktur spezieller Strukturgene
Strukturgen durchläuft die Proteinsynthese
Spacer gilt als Trennstruktur
Repetitive Sequenz wiederholende Anordnung spezifischer Sequenzen
Palindrom gegenläufige DNA-Sequenz
Terminator signalisiert das Ende der Transkriptionseinheit
Pribnow-Box Teilstruktur des Promotors
Promotor signalisiert den Beginn der Transkriptionseinheit
Operator Sequenz der Genregulation
Regulator spezifisches Strukturgen
Shine-Dalgarno Sequenz der Genregulation
Operon Einheit der Proteinsynthese
Centromer Erkennungssequenz der Kernspindel
Telomer spezifische Endsequenzen
DNA-Struktur Bemerkung
Origin Erkennungssequenz der DNA-Polymerase
Segregon Vererbungseinheit
LTR long terminal repeat
IS-Elemente dynamische Struktur des Genoms
Transposon dynamische Struktur des Genoms
Viren-DNA-RNA dynamische Struktur
Genfähre dynamische Struktur
Enhancer beeinflusst die benachbarten Promotoren
Mutatorgen beeinflusst die Mutabilität spezifischer Sequenzen
Onkogene Auslösung von Krebs
Sonkogene steuern die Onkogene
Historische Gene evolutionär stabile Sequenzen
Stumme Gene spezifische Strukturgene
Pseudogen spezifisches Strukturgen
überlappende Gene spezifische Strukturgene
Homöogen Operon, belegt die Modularität des Genoms
Chronogen Operon, belegt die Modularität des Genoms
Eigenschaften der DNA-Sprachstrukturen
1. Minimale Anforderungen einer Programmiersprache festlegen.
2. Anforderungen werden von spezifischen DNA-Strukturen erfüllt.
Charakteristiken der DNA-Sprachstrukturen im Rahmen der
genetischen Prozesse erarbeitet.
Basis, für die Genetische Grammatik.
Regelsystem (Syntax)
Erzeugung syntaktisch korrekter DNA-Programmsequenzen.
Vorlesung Modellierung & Simulation Sprachen
Vorbemerkungen
Das von Neumannsche Konzept der Datenverarbeitung
Paralleler 'Universalrechner‘ ?
Von Neumann Rechner:
Programm ist eine lineare Kette von Instruktionen, die sequentiell
abgearbeitet werden. Datentypen bzw. Datenstrukturen sind in
Abhängigkeit von der benutzten Programmiersprache vordefiniert.
Vorlesung Modellierung & Simulation Sprachen
Strukturelemente einer Programmiersprache
B1: Datentypen (definierbare Datentypen oder Standardtypen)
Bemerkung: Theoretisch ist ein Datentyp ausreichend.
B2: Operationen (Anweisungen)
Standardoperationen oder definierbare Operationen
B3: Kontrollanweisungen
Bemerkung: Ablauf des Programms steuern
B4: Interpunktionszeichen (Trennzeichen)
Vorlesung Modellierung & Simulation Sprachen
Kontrollanweisungen
Semantik: Äquivalente Flussdiagramme.
K1: Komposition von Anweisungen
S1; S2;...; Sn
Semikolon wird als Folgeoperator interpretiert; er besagt, dass die nachfolgende Anweisung erst ausgeführt wird, wenn die vorangehende beendet ist.
S1 S2 Sn...
K2: Bedingte Anweisung (If-Anweisung)
If B then S
S sei eine Anweisung und B eine Bedingung, die den Wert WAHR oder FALSCH annehmen kann.
B
S
Falsch
Wahr
K3: Wiederholungsanweisung (While-Anweisung)
While B do S
S sei eine Anweisung und B eine Bedingung, die den Wert WAHR oder FALSCH annehmen kann.
B S
Falsch
Wahr
Außerdem zählt die For-Anweisung
For i=1 to n do S
und die Repeat-Anweisung
Repeat S until B
zur Klasse der Wiederholungsanweisungen.
Simulierbar: Spezifische While-Anweisungen.
Vorlesung Modellierung & Simulation Sprachen
K4: Beginn- und Endmarkierung des Programms
Begin S1;...; Sn End
Bemerkung:
Wiederholungsanweisungen (While, For und Repeat) sind durch bedingte Anweisungen / Sprungbefehl simulierbar.
Vorlesung Modellierung & Simulation Sprachen
Interpretationsversuch als Pogrammiersprache
DNA = Genetisches Programm einer Zelle.
Datentypen = Zellplasma bzw. lokale Zellumgebung.
Datentypen (Metabolitklassen)
vorhanden/definierbar (B1).
Bemerkung: Geeignete Kodierung erlaubt die Einschränkung auf einen Datentyp. Somit wollen wir die weitere Diskussion auf die Substanzen (S) beschränken.
Vorlesung Modellierung & Simulation DNA-Programmiersprache
Interpretationsversuch als Pogrammiersprache
Operationen (Aktionen)
Substanzklasse: Chemische Wechselwirkungen, die durch Enzyme katalysiert werden.
Operatoren
Enzyme: Im Genom durch Strukturgene repräsentiert (B2).
‘Elementare Anweisungen'
DNA-Strukturen: Operationen auf Substanzen etc..
Vorlesung Modellierung & Simulation DNA-Programmiersprache
Bemerkung
Verschiedene Strukturgene repräsentieren neben den 'elementaren Anweisungen' Baupläne für zelluläre Betriebsmittel und werden 'elementare Anweisungen im erweiterten Sinn' genannt.
Definition: Zelluläre Betriebsmittel
Moleküle bzw. Makromoleküle, die die genetischen Prozesse ausführen oder an der Ausführung beteiligt sind (z.B. rRNA, tRNA, RNA-Polymerase, DNA-Polymerase, Ligase, Topoisomerase, etc.).
Vorlesung Modellierung & Simulation DNA-Programmiersprache
Definition: Elemenar anwendbare Anweisung
Eine 'elementare Anweisung' heißt 'elementar anwendbare Anweisung', wenn
1. mindestens eine Erkennungsstelle (Promotor) vorgeschaltet und
2. mindestens eine Terminatorsequenz nachgeschaltet ist.
Durchläuft eine 'elementar anwendbare Anweisung' den Proteinsyntheseprozeß, so wird dies Aktivierung genannt.
Beispiel: Operon
Vorlesung Modellierung & Simulation DNA-Programmiersprache
Strukturgen
Substrat
Enzym
Produkt
Elementare AnweisungElementare Anweisung
AktivierungAktivierung
OperatorOperator
OperationOperation
OperonOperon
ExpressionExpression
SyntheseproduktSyntheseprodukt
BiochemischeBiochemische
ReaktionReaktion
Promotor Strukturgen Terminator
SubstratEnzym
Produkt
Elementar anwendbare Elementar anwendbare AnweisungAnweisung
Komposition von elementaren Anweisungen:
- Operon mit mehreren Strukturgenen,
- Sequentielle Verkettung von 'elementar anwendbaren Anweisungen' möglich (zu K1).
Spacer trennt diese Einheiten (Interpunktionszeichen (zu B4).
Beispiel: Das Lactose-Operon enthält die drei Strukturgene ß-Galactosidase (S1), Galactosid-Permease (S2) und Thiogalactosid-Transacetylase (S3).
Promotor S1 S2 ... Sn Terminator
A0 A1 An-1 An
Promotor S1 Terminator Spacer ... Promotor Sn Terminator Spacer ...
A0 ... An-1 An
Bedingte Anweisung: Ein spezifisches Operon
Operon umfaßt einen Operator und zwei oder mehrere Strukturgene. Eines dieser Strukturgene wirkt als Repressor des Operators, so dass die 'elementar anwendbare Anweisung' nur eine definierte Operation durchführt (zu K2).
Beispiel: Operon L14 von Escherichia coli reguliert eigene Synthese.
Promotor Operator_X Regulator_X Strukturgen S Terminator
A0 An
Der boolesche Wert der Bedingung B wird durch den Zustand des Operators wie folgt festgelegt:
WAHR ::= wenn der Operator geöffnet ist und
FALSCH ::= wenn der Operator geblockt ist.
Operator-X geöffnet
Aktivierung (Regulator-X und Strukturgen-S)
Dabei sorgt der Regulator-X für die 'einmalige' Operation, indem er den spezifischen Operator-X blockiert.
Strukturgen-S repräsentiert die auszuführende Operation S.
Unter dieser Interpretation gilt: If B then S.
Vorlesung Modellierung & Simulation DNA-Programmiersprache
Wiederholungsanweisungen
For-Anweisung: Durch repetitive Sequenzen oder durch einen Zählermechanismus realisierbar.
While-Anweisung: Spezifisches Operon.
Beispiel: Das Tryptophan-Operon besteht aus:
Promotor, Operator und den Strukturgenen
trpE, trpD, trpC, trpB, trpA sowie dem Terminator.
Promotor Operator Strukturgen Terminator
A B
Der boolesche Wert der Bedingung B wird durch den Zustand des Operators wie folgt festgelegt:
WAHR ::= Operator ist geöffnet und
FALSCH ::= Operator ist geblockt ist.
Das Strukturgen repräsentiert die auszuführende Operation S.
Operator geöffnet
Strukturgen in Aktion, bis Operator geblockt (zu K3).
Unter dieser Interpretation gilt:
While B do S
Vorlesung Modellierung & Simulation DNA-Programmiersprache
Beginn- und Endmarke einer Vererbungseinheit, somit eines DNA-Programms, repräsentieren die Telomer-Sequenzen (zu K4).
Ergebnis: Die DNA erfüllt auf der Ebene der analysierten Strukturen die Anforderungen einer Programmiersprache und ist als Programmiersprache interpretierbar.
Klassifikation der DNA-Strukturen:
Strukturgen ist die 'elementare Anweisung'.
Es gibt drei Klassen von 'elementaren Anweisungen':
- Datenmanipulation (Katalyse),
- Zelluläre Betriebsmittelerstellung und
- Synthese von anderen Zellbausteinen.
Vorlesung Modellierung & Simulation DNA-Programmiersprache
Operon ist die 'elementar anwendbare Anweisung‘.
Spacer ist das Interpunktionszeichen.
Kontrollanweisungen sind:
Promotor tritt mit den zellulären Betriebsmitteln in Wechselwirkung und leitet die Transkription ein.
Enhancer beeinflusst die Promotoraffinität.
Terminator tritt mit den zellulären Betriebsmitteln (RNA-Polymerase) in Wechselwirkung und beendet die Transkription.
Operator tritt mit Regulator-Molekülen (Daten bzw. Anweisungen) in Wechselwirkung und steuert dadurch den Transkriptionsprozess.
Vorlesung Modellierung & Simulation DNA-Programmiersprache
Regulator tritt über das Regulatorprotein mit der spezifischen Operatorsequenz in Wechselwirkung und steuert dadurch den Transkriptionsprozeß.
Origins, Palindrome und Shine-Dalgarno Sequenzen treten mit Betriebsmitteln in Kontakt, so dass auch sie zur Klasse der
Kontrollanweisungen zählen.
Chronogene nehmen die Auswahl von verschiedenen Differenzierungsprogrammen vor.
Homöogene aktivieren über ihre Syntheseprodukte die homöotischen Strukturgene.
Transposonen, Viren-RNA und Genfähren enthalten Kontrollanweisungen sowie 'elementar anwendbare Anweisungen‘.
Vorlesung Modellierung & Simulation DNA-Programmiersprache
DNA-Sprachstrukturen zeigen folgende Charakteristiken:
a) Segregon, Chronogene und Homöogene dokumentieren die Modularität des Genoms.
b) Die Aktionsstärke einer 'elementar anwendbaren Anweisung‘ ist probabilistisch (Promotoraffinität, freie Betriebsmitteln, Shine-
Dalgarno Sequenz, Lebenszeit der mRNS und der Lebensdauer des Syntheseproduktes).
c) Dynamische DNA-Strukturen.
d) Überlappende Gene (z.B. SV40-Virus).
e) Alle geöffneten 'elementar anwendbaren Anweisungen‘ sind simultan aktivierbar (parallele Abarbeitung).
f) Operationen werden in Abhängigkeit von Daten gesteuert, da die Operatoren von anderen Daten (Induktoren bzw.
Repressoren) 'geöffnet' bzw. 'geblockt' werden (Datenfluss).
Ergebnis: Die DNA zeigt auf der Ebene der analysierten Strukturen komplexe Sprachkonstrukte.
Zusammenfassende Darstellung der Eigenschaften:
1. Genom ist modular organisiert, Anweisungen und Module können überlappen.
2. Operationsstärke einer 'elementar anwendbaren Anweisung' ist probabilistisch.
3. Genom (DNA-Programm) ist dynamisch (Transposon, Genfähre, Rekombination und Mutation).
Vorlesung Modellierung & Simulation DNA-Programmiersprache
4. Simultane Aktivierung der 'elementar anwendbaren Anweisungen' in Abhängigkeit von den vorhandenen Betriebsmitteln und Kontrollanweisungen.
5. Das Betriebsmittelreservoir ist variabel und vom Programmablauf steuerbar, d.h. die Granularität der genetischen Prozesse und Biosyntheseprozesse (Abarbeitung des genetischen Programms) ist steuerbar.
6. Daten und Kontrollanweisungen steuern den Programmfluß.
7. Der genetische Speicher ist kein adressierbarer Raum.
(Fast) jede Körperzelle besitzt das gesamte genetische Programm.
Genom repräsentiert auch evolutionärer Redundanz.
Regelsystem zur Erzeugung syntaktisch korrekter
DNA-Programmsequenzen
DNA-Programm ~ eine lineare Verkettung von Funktionseinheiten.
DNA-Programme sind Worte über dem Alphabet A,
das sich aus den DNA-Strukturen zusammensetzt.
Frage:
Gibt es eine Regelgrammatik, die syntaktisch korrekte DNA-Programme erzeugt ?
Vorlesung Modellierung & Simulation DNA-Programmiersprache