View
52
Download
15
Category
Preview:
DESCRIPTION
Argomenti trattati. Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software. Introduzione biologica. DNA Doppia catena polinucleotidica definita sull’alfabeto: A, C, G, T Gene Regione di DNA che codifica proteine. - PowerPoint PPT Presentation
Citation preview
Argomenti trattatiStruttura di un gene e alternative splicing (AS)
Definizione del problema AS e algoritmo per risolverlo
ASPic software
Introduzione biologicaDNADoppia catena polinucleotidica definita sullalfabeto: A, C, G, TGeneRegione di DNA che codificaproteine
Numero geni e genomi in eucariotiNumber of genes in prokaryotes (up to 8000)Genoma in procarioti (> 9 Mb)
Espressione di un geneDNA
Trascritti e sequenze ESTUn trascritto lelenco delle basi (A, T, C, G) che compongono un mRNA maturoUn EST un frammento di cDNA (copia complementare di un mRNA, prodotta in vitro )
Pattern di un introne GT AGIntroni canonici: 99.24 % Introni non canonici: 0.05 %0.69 %0.02 %ALTROBurset et al., Nucleic Acids Res. 2000, 28:4363-4375
Espressione di un geneMa le cose funzionano davvero cos?Numero Geni corpo umano : 40000 circaNumero Proteine : centinaia di migliaiaLa corrispondenza 1 a 1 non rispettata. Perch?SPLICING ALTERNATIVO
Tipi di Alternative SplicingAI1CDBGENOMICASplice/dont spliceA I1 BCompeting 5ACompeting 3BExon skippingMutually exclusive exonsBC
Perch AS importante?AS avviene nel 40-60% dei geni umani (Modrek and Lee, 2002)AS genera numerosi trascritti a partire da un singolo geneAS is specifico del tessuto in cui si trova la cellula (Graveley, 2001)AS correlato alle malattie
Problema di ASpredire le forme di splicing alternativo di un geneanalizzare il meccanismo di splicing tramite la rappresentazione delle possibili isoformeAS ancora un problema aperto
Cosa c a disposizione?errori di sequenziamento nellEST (inserzioni, delezioni e mismatch) => criteri di ottimizzazionesequenze duplicate sulla genomica => analisi combinata di un cluster di sequenze ESTProgrammi veloci che producono lallineamento di una singola sequenza EST contro la genomica: Spidey (Wheelan et al., 2001)Squall (Ogasawara & Morishita, 2002)
Definizioni formaliDef 1Sequenza genomica, G = I1 f1 I2 f2 I3 f3 In fn In+1, con Ii (i=1, 2, , n+1) introni e fi (i=1, 2, , n) esoniDef 2Fattorizzazione in esoni di G, GE = f1 f2 f3 fnDef 3Fattorizzazione di un EST S compatibile con GE S=s1 s2 sk t.c. per 1 i1 < i2 < < ik n si abbia:st = fit per t=2, 3, , k-1s1 un suffisso di fi1 e sk un prefisso di fik
st = suff (fit) o st = pref (fit)variante di splicingDef 1Sequenza genomica, G = I1 f1 I2 f2 I3 f3 In fn In+1, con Ii (i=1, 2, , n+1) introni e fi (i=1, 2, , n) esoniDef 2Fattorizzazione in esoni di G, GE = f1 f2 f3 fn Def 3Fattorizzazione di un EST S compatibile con GE S=s1 s2 sk t.c. per 1 i1 < i2 < < ik n si abbia:edit (st, fit) errore per t=2, 3, , k-1edit(s1, suff(fi1)) errore e edit(sk, pref(fik)) errore
Il problemaInput
- Una sequenza genomica G- Un cluster di sequenze EST S = {S1, S2, , Sn}
Output
Una fattorizzazione GE di G (GE = f1, f2, , fn) e unset di fattorizzazioni degli EST compatibili con GE
Obiettivo: minimizzare n
EsempioSequenza genomica GEST set S = {S1, S2, S3}A2A1A2BD1C1D1D2C1C2A2D1C1A1A2BD1A2D1D2C1C2A2D1D2C1C2BD1D2C1C2A1A2
RisultatiIl problema MAX-SNP-hard (riduzione lineare da NODE-COVER)
Euristica: Processo iterativo per fattorizzare ogni EST
backtracking per ricomputare fattorizazzioni precedenti se si giunge ad una fattorizzazione non compatibile con GE
Lalgoritmosi1si j-1sijSie1e2GPasso j-esimo: Fattorizzazione parziale dellEST Si (fattore sij)emif (Compatible(em, exon_list)) thenadd em to exon_list;otherwise try to place sij elsewhere; If not possible then backtrack;si-1 1si-1 j-1si-1 jsi-1 nSi-1After placing all the factors sij for the set S,place the external factors;
Lalgoritmo (dettagli)Gsi1si j-1Sisi jCalcolo del fattore sijSij can be divided into n components ck (k=1,2,,n)At least one of these components for k from 1 to (n-1)is error-free and can be placed on Gsijc1c2c3c4c5The algorithm searches a perfect match of c1 on G
c1Suppose that c1 has no perfect match on G
Then the algorithm searches a perfect match of c2 on G
c2c1c1Suppose that c2 has a perfect match on G c2Then the entire factor sij can be placed on G
Find the canonical ag pattern on the left
Find the rightmost gt pattern such that the edit distance between sijy and the genomic substring from ag to gt is boundedsi jyesone
ASPic software (Alternative Splicing PredICtion)Input- La lunghezza minima prevista per un esone- La lunghezza della componente di matching perfetto- Lerrore di riduzione degli introni- Lerrore di sequenziamento di un EST- La sequenza genomica- Il cluster di EST
Output- Un file di testo per tutti gli allineamenti EST-genomica- Un file HTML degli allineamenti in prossimit dei siti displicing predetti
ASPic web siteASPic un web-based tool disponibile allindirizzo http://aspic.algo.disco.unimib.it/aspic-devel che permette di predire i siti di splicing per un gene in input
ASPIC web site
ASPIC web site
ASPIC web sitehttp://www.caspur.it/ASPIC/ Information about the input A graphical view of the predicted gene structure A table of the predicted introns A graphical view of the transcript-genome alignments A graphical view of the predicted full-length isoforms A table of the predicted full-length isoforms OUTPUT:
ASPIC web site
ASPIC web site
ASPIC web site
ASPIC web site
ASPIC web site
ASPIC web site
ASPIC web site
Prediction of p53 protein isoforms
Foglio1
IsoformEntryL (aa)ASPICASAP2ASDACEVIEW
p53 alphaNM_000546393++++
p53 betaDQ186648341+---
p53 gammaDQ186649346+---
DQ186650261++--
DQ186651209+-+-
DQ186652214+-+-
nd354+-+-
nd302----
nd307----
Foglio2
Sequence17:00162021aa
Sequence8:00162012408aa
Sequence7:00162011405aa
Sequence1:00162005393aa
Sequence9:00162013393aa
Sequence4:00162008383aa
Sequence3:00162007317aa
Sequence5:00162009315aa
Sequence2:00162006261aa
Sequence6:00162010261aa
Sequence14:00162018158aa
Sequence16:00162020158aa
Sequence15:00162019139aa
Sequence10:00162014113aa
Sequence11:0016201551aa
Sequence13:0016201748aa
Sequence18:0016202238aa
Sequence19:0016202330aa
Sequence20:0016202426aa
Sequence12:001620167aa
Foglio3
IsoformEntryL (aa)ASPICASAP2ASDACEVIEW
p53 alphaNM_000546393++++
p53 betaDQ186648341+---
p53 gammaDQ186649346+---
D133 p53 alphaDQ186650261++--
D133 p53 betaDQ186651209+-+-
D133 p53 gammaDQ186652214+-+-
D40 p53 alphand354+-+-
D40 p53 betand302----
D40 p53 gammand307----
GRAZIE!
Recommended