Joanna WisniewskaSeminar: „Aktuelle Themen der Bioinformatik“SS 2005 Co-transcriptional folding...

Preview:

Citation preview

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genesMoments of the Boltzmann distribution for RNA secondary structures

Joanna WisniewskaSeminar

“Aktuelle Themen der Bioinformatik”

SS 2005 joanna@wisniewski.net

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

Einleitung Fragestellung: „Ob und wie co-transkriptionelle Faltung in Primär-

und Sekundärstruktur von RNA Sequenzen verschlüsselt ist“„Hilft die RNA-Organisation der Entstehung der funktionalen Struktur während der Transkription“

Durch Menge Statistiken, die verschiedene Konkurrenzfälle innerhalb einer Sequenz zählen, untersuchen.

Ergebnis: unterdrücken von alternativen Helices, die in Konkurrenz mit der

funktionalen Struktur stehen fördern von transienten „guide“-Strukturen, die zur co-transkriptioneller

Faltung führen

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

BackgroundBiologische Grundlagen:

Transkription:- gerichteter Prozess: 5`-Ende entsteht zuerst- kann mit unterschiedlicher Geschwindigkeit ablaufen

beeinflusst Faltungsweg und funktionelle Struktur- ob entstandene Struktur transient von Stabilität, ihrer

Entstehungszeit und Konkurrenzsituation zu alternativen Strukturen abhängig

RNA-Faltung:- co-transkriptionell temporäre Sekundärstruktur Elemente- RNA kann zur korrekten Faltung anderer RNA beitragen

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

Struktur:- funktionale Struktur muss nicht Struktur mit minimaler freier

Energie (mfe) sein, kann also auch eine temporäre sein- kinetische Struktur entsteht durch co-transkriptionelle /

sequentielle Faltung

Vermeiden von Miss-Faltungen:- durch RNA-Chaperone- sie setzten die kinetische Barriere zwischen korrekt und falsch

gefalteten Strukturen herab- können Faltungsweg guiden oder korrekte Struktur stabilisieren

Wenig bekannt, ob:co-transkriptionelle Faltung durch spezifische oder nicht-

spezifische Bindeproteine beherrscht wirdPrimärstruktur selbst notwenige Eigenschaften übermittelt

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

allgemeines Beispiel für co-transkriptionelle Faltung:

Anfang der Transkription: 2 Helices und Pseudoknoten (a)

Sekundärstruktur wird kompaktgehalten (b)-(c)

Gegen Ende der Transkription: Endstruktur-ähnlichekeiten (d)-(e)

hairpin-Struktur als funktionale Struktur (f)

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

Konformationen, die den Statistiken entsprechen:RNA-Sequenz mit bekanntem Basenpaar iī in bekannter Sekundärstruktur

Konkurrenzbase c, die potentiell eine Wasserstoffbrückenbindung mit Base i ausbilden kann alternative Helices entstehen

Base c kann vor dem bekannten Basenpaar liegen: 5`-KonformationBase c kann nach dem bekannten Basenpaar liegen: 3`-Konformation

Cis: Base c ist zu Base i „benachbart“Trans: Base c ist zu Base ī „benachbart“

4 Ereignisse: 3´-cis, 5´-cis, 3´-trans und 5´-trans

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

• gibt keinen Hinweis auf co-transkritionelle Faltung

• führt öfter zu falsch gefalteten Helices

•weist auf co-transkritionelle Faltung hin

• es entstehen weniger konkurrierende Helices

• liegt öfter als 5`-trans vor

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

• führt zu transienten Helices guiding

• pathway, der zur funktionellen Sekundärstruktur führt wird gefördert

• liegt öfter als 3`-cis vor

• schlechter pathway wird unterdrückt

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

Ziel:Hypothese: „Keine co-transkriptionelle Faltung liegt vor“ soll verworfen

werden.

Weg:Kopplung von Statistiken, die auf bekannter Primär- und

Sekundärstrukturder RNA-Sequenzen beruhen

Paare von Statistiken bilden messen Präsens von alternativen Helices, die mit bekannter Struktur um ein Basenpaar konkurrieren

konkurrierende Alternativ-Helices über dynamische Programmierungbestimmen

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

An Hand von 2 Datenmengen:A: entspricht den original transkripierten SequenzeinheitenB: unterscheiden sich von den original transkripierten Sequenzeinheiten, Menge sehr kurzer Sequenzen

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

Statistiken2 Eigenschaften:

1) Unterdrücken von möglichen Konkurrenz-Helices2) Fördern von temporären Guide-Helices

H0: es liegt keine co-transkriptionelle Faltung vor

Koppeln von mehreren Statistiken, mit gleichem unbekannten Erwartungswert im H0-Fall1. hat gleiches Verhalten, auch wenn H0-Fall nicht vorliegt2. verändert ihr Verhalten im Fall, dass H0 nicht vorliegt

Differenz zweier Statistiken: neue Statistik mit Erwartungswert gleich Null im H0-Fall

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

2 Gewichtungen pro Ereignis:– plain p: 1 / ( d • log (l) )– free energy g: |G| / ( d • log (l) )

l: Raum aller Möglichkeiten für Konkurrenzbase cSub-String Länge

bei 3`: vom 3´-Ende bis zur mittleren Basebei 5`: vom 5´-Ende bis zur mittleren Base

d: Distanz zwischen c und i (cis) bzw. ī (trans)

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

d: Distanz zwischen ī und c

l: Länge des Sequenzstücks vom 3´-Ende bis ī

p:

g:

d: Distanz zwischen ī und c

l: Länge des Sequenzstücks vom 5´-Ende bis ī

p:

g:

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

d: Distanz zwischen i und c

l: Länge des Sequenzstücks vom 5´-Ende bis i

p:

g:

d: Distanz zwischen i und c

l: Länge des Sequenzstücks vom 3´-Ende bis i

p:

g:

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

1/d: je weiter c von iī liegt, desto unwahrscheinlicher wird es, dass es zu ic kommt also: geht weniger in Statistik ein

1/log(l): je weiter c von iī liegt, desto unwahrscheinlicher wird es, dass es zu ic kommt, log (l) ist proportional zur erwarteten Summe von 1/d Statistikalso: geht weniger in Statistik ein

|G|: stabile Alternativ-Helices gehen mehr ein, wegen größerem Einfluss auf den Faltungsweg fördern co-transkriptionelle Faltung

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

pro Sequenz: 8 skalare Werte

pro Gewichtung: Cis = 5´-Cis – 3´-CisTrans = 3´-Trans – 5´-Trans

mit: 3`-Cis = 3`-cis5`-Cis = 5`-cis3`-Trans = 3`-trans5`-Trans = 5`-trans

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

Falls H0 zutrifft: positive Fälle sind binomial verteilt mit

p = 0,5 und der Statistik

mit Anzahl aller Fälle n

Wert > 0 Hypothese H0 verwerfen

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

Verteilung der Cis- und Trans-Werte:

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

Ergebnisse• approximativ symmetrisch verteilt• Daten A: Durchschnitt > 0 co-transkriptionelle Faltung• Daten B: Durchschnitt = 0 oder kleiner Hypothese nicht verworfen

Durchschnittswerte der Statistiken:

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

Erklärung• Cis > 0: - 5`-Cis > 3´-Cis

- 5`-Cis: ciī transiente Helices, die Weg zur Endstruktur guiden (weniger stabil als diese)

- 3´-Cis: īic wird unterdrückt, da īi dann schon gepaart ist, c entsteht erst später

Guiding durch temporäre Strukturen

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

• Trans > 0: - 5´-Trans < 3´-Trans- 5´-Trans: cīi c und ī entstehen vor i, damit Konkurrenz

und öfter falsche Helices- 3´-Trans: iīc c entsteht erst nach ī, damit weniger Miss-

Faltungen Unterdrücken von Konkurrenzstrukturen

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

• 3´-Trans > 3´-Cis: - iīc > īic: falls H-Brücken-Bruch zwischen iī / īi kommt es bei 3´-Cis öfter zu falschen

Helices Stabilisierung der

funktionalen Sekundärstruktur

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

t-test: für die Hypothese, dass die Statistik den Erwartungswert gleich Null hat

p-Wert: der positiven Fälle der zwei co-transkriptionellen Faltungs-Indikatoren

Stimmt mit den Ergebnissen überein (p-Wert < 0,05: Verwerfen der Hypothese)

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Co-transcriptional folding is encoded within RNA genes

Erkenntnisse• angemessene Transkriptionszeit hilft der korrekten RNA-

Faltung• funktionale Struktur muss nicht der mfe Struktur entsprechen• Statistiken zeigen generelle Effekte, sind nicht mächtig genug

für Aussagen für einzelne Sequenzen• co-transkriptionalle Faltung:

- „guiding principle“ - kann Primär- und Sekundärstruktur beeinflussen- kann in andere Algorithmen integriert werden- erklärt wie RNA faltet (warum Miss-Faltungen, Funktionsausfall

usw.)

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary

structures

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Einleitung:RNA-Variance:

dynamisch programmierter Algorithmus berechnet beliebige Momente der Boltzmann Verteilung (BV) untersucht Unterschiede zwischen biologischen und random RNA Sequenzen

an hand von minimaler freier Energie Strukturen (mfe), Varianz der freien Energie der Strukturen und den

Vergleich zwischen der mfe und der freien Energie der restlichen Strukturen

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Ergebnisse:• Menge der biologischen Sequenzen von Menge random

Sequenzen unterscheidbar• bei einzelnen Sequenzen nicht erkennbar ob biologisch oder

random• biologische Sequenzen:

• kleinere Varianz der freien Energie• mfe Struktur liegt nahe an erwarteter freien Energie der restlichen

Strukturen

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Biologisch funktionelle RNA Sequenz benötigt thermodynamisch stabile mfe Struktur und Menge von Strukturen mit einer freien Energie nahe an mfe

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Background:Biologische Grundlagen:

null loop: „Fuß“

stacking-loop: aus 4 Basen mit 2 H-Brücken

multi-loop: > 2 H-Brücken ohne bestimmte Anordnung

bulge-loop: 2 H-Brücken mit der Entfernung einer kovalenten Bindung

internal-loop: 2 H-Brücken

hairpin loop: 1 H-Brücke

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

• Energie-Beiträge nach Sankoff‘s k-loop decomposition: freie Energie einer Struktur ergibt sich aus der Summe der

freien Energien der loops• Problem: mfe Struktur finden

Zu beachten:• Anzahl möglicher Sekundärstrukturen wächst exponentiell mit

Länge der RNA-Sequenz• RNA Sekundärstrukturen vor allem durch Basenpaarung

stabilisiert• mfe hängt mehr von Verteilung benachbarter Nukleotidpaare ab,

als von Wasserstoffbrücken komplementärer Nukleotide

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Daten:• ohne Pseudo-Knoten• sehr kurz: 100-200 Nukleotide• 3 Datenmengen: (1) precursor miRNA:

- einzelnes hairpin- nicht posttranskriptionell verändert- reife miRNA hat keine ausgeprägte Sekundärstruktur deutlicher Unterschied zu (2) und (3)

(2) tRNA(3) rRNA

(2) und (3): - mehrer posttranskriptionelle Veränderungen möglich - Sekundärstrukturveränderungen während biochemischer Reaktionen

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

• random Sequenzen:- zu jeder Menge korrespondierende random-Menge (500

RNA-Sequenzen)- gleiche Dinukleotid Statistik und Längenverteilung wie

korrespondierende Menge- über Markov Ketten 1. Ordnung

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Bioinformatische Grundlagen:frühere Algorithmen: approximativ

Tinoco (1983): Energiemodel für RNA-Faltung molare freie Energie entspricht der Summe unabhängiger

Beiträge von Basepaarungen und loop-Destabilisierungstermen

Nussinov (1980): findet maximale Anzahl an Basenpaaren in einer Sequenz dynamisch programmiert: polynomiale Zeit und

Speicherplatz

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Falls i und j gepaart sind

Ausgabe: P(1,n) Struktur über traceback-Algorithmus rekonstruieren

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Zuker-Sankoff (1983): Vorhersage von mfe Strukturen dynamisch programmiert: polynomiale Zeit und

Speicherplatz ungenaue Energie-Parameter kein Einbeziehen von Tertiärstrukturen in Biochemie liegt nicht nur mfe Struktur, sondern auch

suboptimale Strukturen mit funktionellen Eigenschaften vor kann falsche Vorhersagen liefern

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

multi-loop

hairpin loop stacking-loop

internal-loop

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Cij,= min {Hij ,

Ci+1,j+1 + Stackingi,i+1,j-1,j ,

min{Cp,q + Li,p,q,j},i+1<p<j-m-2

p+m+1<q<j-1

p=i+1=>q¬=j-1

min{Fmi+1,k-1 + FM1

k,j-1 + a}}i+m+3<k<j-m-2

Ci,j: mfe der Sub-Sequenz (i,j)

Hij: hairpin Energie

Ci+1,j+1 + Stackingi,i+1,j-1,j: stacking-loop Energie

min{Cp,q + Li,p,q,j}: internal-loop Energie

min{Fmi+1,k-1 + FM1

k,j-1 + a}: multi-loop Energie

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

dynamische Programmierung: es werden immer um ein Nukleotid längere Sub-Sequenzen betrachtet

mfe der gesamten Sequenz ergibt sich aus: C1,n

Über traceback-Algorithmus durch die Matrizen ist die mfe Struktur bestimmbar

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Zuker (1989). Algorithmus, der mfe Struktur einer Sequenz mit

vorgeschriebener fester Basenpaarung

Wuchty (1999): alle möglichen Strukturen mit fallender freier Energie mit

vorgeschriebenem Abstand zu mfe nur kleines Intervall nahe an mfe wird beschrieben, wegen

exponentiell wachsender Anzahl an suboptimalen Faltungen bei größerer Distanz zu mfe

Kein Algorithmus kann die Boltzmann Verteilung vollständig vorhersagen

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Boltzmann Verteilung (BV):• Wahrscheinlichkeitsverteilung aus der statistischen Physik

kinetische Gastheorie• statistische Verteilung der freien Energie von suboptimalen

RNA-Strukturen • exakte Wahrscheinlichkeit, dass einzelne RNA-Struktur eine

bestimmte molare freie Energie hat, ist proportional zu • – Verteilungsfunktion

– dient als normierende Konstante – durch McCaskill-Algorithmus berechenbar (1990)

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Ziele:• erwartete freie Energie berechnen• Varianz der erwarteten freien Energie berechnen• Vergleich von erwarteter freier Energie und mfe Wert• Menge an biologischen und random Sequenzen

unterscheiden

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Definitionen

• erwartete freie Energie • Varianz

• S: Struktur der Sequenz L • G(S): molare frei Energie einer Struktur S• Z: Verteilungsfunktion der BV

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Algorithmusberechnet:

folgert:

- ist Variante des Wuchty-Algorithmus (mfe Berechnung)- benutzt McCaskill-Algorithmus um Verteilungsfunktion Z zu

berechnen

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Wuchty-Algorithmus:• Variante des Zuker-Sankoff-Algorithmus• 3 verschiedene Funktionen zur Berechnung: initial, merge

und choose function

initial function: für Sub-Sequenz Li freie Energie Gi für eine elementare Sekundärstruktur berechnen

hairpin loop, bulge loop, internal loop, multi-loop, stacking loop oder null-loop

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

merge function: aus zwei Substrukturen Li und Lj mit deren mfes Mi und Mj, Mij der gemischten Sequenz berechnen (Summe der mfes)

- Konkatenation- stacking loop-Erweiterung

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

choose function: Li mit zwei konkurrierenden Sekundärstrukturen Mi(a) und Mi(b) das Minimum der beiden berechnen kann zu Beschränkungen der Sekundärstruktur führen

erstes und letztes Nukleotid soll gepaart werden

links: optimal, wenn stacking loop entstehen soll

rechts: optimal, wenn multi-loop entstehen soll

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

• um mfe Strukturen in polynomialer Zeit zu berechen:- Beschränkungen der Energie-Funktion zulassen- lineare Funktionen um multi-loop- / null-loop-Energien durch

Hilfsvariablen berechnen (über initial function)

• Start: kurze Sub-Strukturen, wg. merge function immer längere • ohne Beschränkungen der Energie-Funktion ist es nicht möglich

die mfe Struktur in polynomialer Zeit zu berechnen• mfe bekannt mit traceback-Algorithmus mfe Struktur

bestimmbar

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Wuchty-Variante des Zucker-Sankoff-Algorithmus:• errechnet die mfe Sekundärstruktur (entspricht „Best structure“)

• betrachtet jede Struktur exakt ein mal

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

McCaskill:• Variante von Wuchty um Verteilungsfunktion Z zu berechnen• statt freie Energien korrespondierende exponentielle Werte

verwenden• Änderungen:

• merge function: Multiplikation• choose function: Addition

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Miklós-Meyer-Nagy:• berechnet Variablen X und Y• merge function: zwei Sub-Sequenzen Li und Lj mischen

X =

Y =

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Mit dem selben dynamisch programmierten Algorithmus

- mfe M- Verteilungsfunktion Z- X- Y also EB[G], VB[G]

berechnen

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Eine Rekursion an hand der verschiedenen Funktionen berechen (Beispiel für mfe)

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Zusammenfassend

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Implementierung• alle vier Variablen einer Sub-Sequenz werden innerhalb

einer Traversierung der Schleife des Programms berechnet• freie Energie Parameter nach MFOLD• internal-loop Berechnung nach Lyngsø• Zeit O(l3) für eine Sequenz der Länge l• Speicher O(l2) für eine Sequenz der Länge l• berücksichtigt keine Pseudo-Knoten

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Ergebnisse– pro Datenmenge: 4 Statistiken– pro Sequenz: M, Z, EB[G], VB[G]

• mfe M normiert zur Länge li

• log der mfe-Struktur-Wahrscheinlichkeit

• Differenz zwischen mfe und erwarteter freien Energie, normiert zur Länge li

Der Erwartungswert der freien Energie-Verteilung:

• Varianz der BV

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Ergebnisse der miRNA-Daten

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Ergebnisse der tRNA-Daten

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Qualitativ gleiches Verhalten, nur quantitative Unterschiede

Biologische Sequenzen haben- kleinere mfe- größere Wahrscheinlichkeit für die mfe Struktur- kleiner Varianz der BV- kleinere Differenz zwischen mfe und erwarteter freier

Energie ...als

random Sequenzen

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Erkenntnisse nur Menge an biologischen Sequenzen von Menge von

random Sequenzen unterscheidbar, nicht einzelnen Sequenzen

mfe Struktur wird von Natur aus nicht durch deutlich kleineren Wert als erwartete freie Energie hervorgehoben

Sekundärstrukturen mit einer freien Energie nahe an mfe Wert werden gefördert

• haben eigene funktionelle Rolle• z. B. Ensemble-Bildung, dass zur Evolution neuer

Strukturen mit biologischer Funktion führt durch co-transkriptionelle Faltung entstehen temporäre

Strukturen

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Zwei gegensätzliche Beschränkungen:

• Wahrscheinlichkeit für mfe Struktur soll maximiert werden: gewährleistet energetische Stabilität

• Differenz zwischen mfe und erwarteter freier Energie soll minimiert werden: sichert Funktionalität

Dies steht in Konkurrenz, eventuell sind deshalb einzelne Sequenzen nicht in die Menge biologische oder random Sequenz einzuordnen.

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

frühere Algorithmen:– BV nur approximativ bestimmbar– über Aufzählung suboptimaler Faltungen sehr langsam

hier:– Berechnung exakter Werte– nur konstant langsamer, nicht von Anzahl der suboptimalen

Faltungen abhängig– einfacher Algorithmus – leicht erweiterbar: höhere Momente der BV berechnen– auch Pseudo-Knoten können integriert werden

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Andere Standard Techniken: über stochastische kontextfrei Grammatiken (SCFDs)

– jeder Ableitungsbaum entspricht einer Sekundärstruktur einer RNA-Sequenz

– Zuker-Tinoco und dynamisch programmiertem Algorithmus für SCFDs ähnlich, aber noch nicht ineinander überführt

– Analogon zu diesem Algorithmus berechnet Momente der log-Wahrscheinlichkeiten der Ableitungsbäume einer Sequenz

Joanna Wisniewska Seminar: „Aktuelle Themen der Bioinformatik“ SS 2005

Moments of the Boltzmann distribution for RNA secondary structures

Offene Fragen: Ist der Faltungsweg konservativ? Können Faltungsinformationen für Struktur- und / oder

Evolutions-Vorhersagen genutzt werden? Können Faltungssimulationen entwickelt werden?

Recommended