37
Tema 6: Secuenciación y análisis bioinformático de secuencias http://mendel.uab.es/doctorat/genomica/

Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Embed Size (px)

Citation preview

Page 1: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Tema 6: Secuenciación y

análisis bioinformático de

secuencias

Tema 6: Secuenciación y

análisis bioinformático de

secuencias

http://mendel.uab.es/doctorat/genomica/

Page 2: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Puntos a tratar en este Tema :Puntos a tratar en este Tema :Puntos a tratar en este Tema :Puntos a tratar en este Tema :

•Métodos de secuenciación del DNA•Secuenciación ordenada (clon a clon)•STS y ETS•Secuenciación aleatoria (Shotgun)•Mapas de expresión•Bancos de datos •Análisis bioinfomático•Paquetes de programas

•Métodos de secuenciación del DNA•Secuenciación ordenada (clon a clon)•STS y ETS•Secuenciación aleatoria (Shotgun)•Mapas de expresión•Bancos de datos •Análisis bioinfomático•Paquetes de programas

http://mendel.uab.es/doctorat/genomica/

Page 3: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Mapas genéticosMapas genéticos (de ligamiento o recombinación): basados en distancias o frecuencias de recombinación

Mapas genéticosMapas genéticos (de ligamiento o recombinación): basados en distancias o frecuencias de recombinación

Xg Proteína grupo sanguíneo

Ictiosis (un efermedad de la piel)

Albinismo ocular

Angioqueratoma (crecto celular)

Centrómero

Fosfoglicerato-quinasa

Alfa-galactosidasaXm

Deutan (ceguera color rojo-verde)

G6PD

Protano (ceguera color rojo-verde)

Hemofilía A

Mapas físicos y genéticosMapas físicos y genéticos

Mapa de ligamiento parcial

del cromosoma X de la especie humana

Page 4: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Mapa genético del

Cromosoma 1 Homo

sapiens.

Page 5: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Mapas físicos y genéticosMapas físicos y genéticos

Mapas físicosMapas físicos: la distancia entre marcadores es una distancia física real, basada en bp, Posición citológica en los cromosomas, o fragmentos de cromosomas.

Mapas físicosMapas físicos: la distancia entre marcadores es una distancia física real, basada en bp, Posición citológica en los cromosomas, o fragmentos de cromosomas.

Page 6: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Secuenciación automatizada del DNASecuenciación automatizada del DNA

Secuenciación basada en la terminación de cadena

Page 7: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Vector de clonación

Vector plasmídico

Vector bacteriófago M13

Fagémido

Vector de clonación

Vector plasmídico

Vector bacteriófago M13

Fagémido

Page 8: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Interpretación de un cromatograma con ChromaInterpretación de un cromatograma con Chroma

Page 9: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Limitaciones de la aproximación clásica1/5.000.000 cada experimento

Secuenciación por capilaridad96 canales, 96 secuencias en paralelo< 2 horas/run -> 1000 secuencias/día

Pirosecuenciación Adición nucleótidos libera pirofosfatoCon enzima sulfurilasa produce flash luminiscente

DNA chips8-meros 65539 combinaciones. 256 bases legibles10-meros 1048576 combinaciones, 1kb20-meros 1012 combinaciones, 1MB

Limitaciones de la aproximación clásica1/5.000.000 cada experimento

Secuenciación por capilaridad96 canales, 96 secuencias en paralelo< 2 horas/run -> 1000 secuencias/día

Pirosecuenciación Adición nucleótidos libera pirofosfatoCon enzima sulfurilasa produce flash luminiscente

DNA chips8-meros 65539 combinaciones. 256 bases legibles10-meros 1048576 combinaciones, 1kb20-meros 1012 combinaciones, 1MB

Alternativas de secuenciaciónAlternativas de secuenciación

Page 10: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

DNA chips (1 millón oligonucleótidos por cm2)

8-meros 65539 combinaciones. 256 bases legibles (raíz cuadrada de las posibles combinaciones)

10-meros 1048576 combinaciones, 1kb

20-meros 1012 combinaciones, 1MB

Alternativas de secuenciaciónAlternativas de secuenciación

Page 11: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Estrategia del perdigonazo (shotgun)

Gran éxito en microorganismos (Haemophilus influenzae)

Aproximación Clon a clon (Consorcio público)

Aproximación del perdigonazo dirigida (Celera Genomics)

Ensamblaje de secuencias de DNA contiguasEnsamblaje de secuencias de DNA contiguas

Francis S. Francis S. CollinsCollins

Proyecto Genoma humano

Consorcio público

J. Craig J. Craig VenterVenter

PE Celera Genomics

J. Craig J. Craig VenterVenter

PE Celera Genomics

Page 12: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Arquitectura del genoma de Haemophilus

influenzae

Arquitectura del genoma de Haemophilus

influenzae

Page 13: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Microorganismos Microorganismos secuenciadossecuenciados

Microorganismos Microorganismos secuenciadossecuenciados

Page 14: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Aproximación consorcio público:

clon a clon (jerárquica)

Aproximación consorcio público:

clon a clon (jerárquica)

Page 15: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Aproximación consorcio público:

clon a clon (jerárquica)

Aproximación consorcio público:

clon a clon (jerárquica)

Page 16: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Mapeo y Anclaje de STSsMapeo y Anclaje de STSs

STS (Sequence tagged sites): Secuencia conocida (permite ensayo con

PCR)Único

Fuentes de STSESTs (Expressed sequence tags)SSLPs (single sequence length

polymorphisms)Random genomic sequences

STS (Sequence tagged sites): Secuencia conocida (permite ensayo con

PCR)Único

Fuentes de STSESTs (Expressed sequence tags)SSLPs (single sequence length

polymorphisms)Random genomic sequences

Page 17: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Mapa de STSs

Page 18: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Integración de mapas mediante el anclaje de STSs

Mapa de Mapa de STSsSTSs

Mapa deMapa deRecombinaciónRecombinación

Mapa deMapa deRHRH

ContigsContigs

Mapa deMapa declonesclones

Page 19: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Estrategias de secuenciación del genoma:Clon a clon vs. Perdigonazo (shotgun)

Estrategias de secuenciación del genoma:Clon a clon vs. Perdigonazo (shotgun)

Page 20: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Microorganismos Microorganismos secuenciadossecuenciados

Microorganismos Microorganismos secuenciadossecuenciados

Nuestra visión del árbol de la vida debe ser modificada

Familias génicas forman un léxico de biología molecular

50% genes son URFs (unidentified reading frames)

Mínimo número de genes para sostener el tipo moderno de célula es 256

El ancestro común de Gram-positivas y negativas tenía probablemente más de 1000 genes

Gene shufflingORFs faltantes de genes existentes

Nuestra visión del árbol de la vida debe ser modificada

Familias génicas forman un léxico de biología molecular

50% genes son URFs (unidentified reading frames)

Mínimo número de genes para sostener el tipo moderno de célula es 256

El ancestro común de Gram-positivas y negativas tenía probablemente más de 1000 genes

Gene shufflingORFs faltantes de genes existentes

Page 21: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Cada genoma completo suministra una Cada genoma completo suministra una cornucopia de información biológicacornucopia de información biológica:

Conocimiento del número total de genes

Principios sobre la organización básica del organismo (clases funcionales,...)

Conocer funciones básicas de los genes conservados en distintas especies (léxico biología molecular)

Miramos el bosque, no el árbol

Cada genoma completo suministra una Cada genoma completo suministra una cornucopia de información biológicacornucopia de información biológica:

Conocimiento del número total de genes

Principios sobre la organización básica del organismo (clases funcionales,...)

Conocer funciones básicas de los genes conservados en distintas especies (léxico biología molecular)

Miramos el bosque, no el árbol

Page 22: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Organismos eucariotas Organismos eucariotas secuenciadossecuenciados

Organismos eucariotas Organismos eucariotas secuenciadossecuenciados

Saccharamyces cerevisiae (levadura del pan)

Caenorhabditis elegans (gusano nemátodo)

Drosophila melanogaster (mosca de la fruta)

Arabidopsis thaliana (mala hierba de los prados)

Page 23: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias
Page 24: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

3000 MbH. sapiens

120 MbA. thaliana

120 Mb (180)D. melanogaster

97 MbC. elegans

12 MbS. cerevisiae

# pb# pbOrganismoOrganismo

~100.000

~25.000

~13.600

~19.000

~6.000

# genes# genes

Page 25: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Lista de bases de datos de biología Lista de bases de datos de biología molecular en NARmolecular en NAR

http://nar.oupjournals.org/contenthttp://nar.oupjournals.org/content/vol2/vol288/issue1//issue1/

BioinformáticaBioinformáticaBioinformáticaBioinformática

Page 26: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Bases de datos

•Primarias

•Compuestas

•Secundarias

Bases de datos

•Primarias

•Compuestas

•Secundarias

Page 27: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

•European Bioinformatics Institute (EBI-UK) Home Page •SRSWWW at EMBnet/CNB

•The National Center for Biotechnology Information (GenBank)

•NCBI als EEUU:    Entrez •DNA Data Bank of Japan (DDBJ) •Nucleic Acid Database •Genome Sequence Database (GSDB) •Genome Database (GDB)

Bases primarias y compuestas de DNA y Proteínas

Bases primarias y compuestas de DNA y Proteínas

•SwissProt •Protein Data Bank (at EBI) •Protein Data Bank (USA) •Protein  Information Resource (PIR at Europe) •PRF HOME PAGE

Page 28: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

SRS SRS

Page 29: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Entrez Entrez

Page 30: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Bases secundarias Bases secundarias

•Motius •  SCOP  Clasificació estructural de proteïnes (Univ. de Cambridge) •  Prosite   Diccionari de motius (Suissa) •  Motif     Cerques de motius proteics al Japó

•Estructura

•NRL Protein Structure Database •Swiss-Model

•REBASE •Codon Usage Database

Page 32: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Eines i software de biologia molecular a la xarxa

•Software de biologia molecular: The Biocatalog

•Molecular Biology Shortcuts

•Biotools

Page 33: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Los 6 marcos de lectura posibles Los 6 marcos de lectura posibles obtenidos a partir de una secuencia obtenidos a partir de una secuencia

de 9 kb de un hongode 9 kb de un hongo

Los 6 marcos de lectura posibles Los 6 marcos de lectura posibles obtenidos a partir de una secuencia obtenidos a partir de una secuencia

de 9 kb de un hongode 9 kb de un hongo

Los ORFs mayores, el 2 y 5, son potenciales genes candidatos

Page 34: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Protocolo para localización de genes Protocolo para localización de genes a partir de la inspección de la a partir de la inspección de la

secuenciasecuencia

Protocolo para localización de genes Protocolo para localización de genes a partir de la inspección de la a partir de la inspección de la

secuenciasecuencia

Traducción conceptual de la secuenciaDetección ORFsSesgo de codonesLímites exón-intrónSecuencias de control río arribaBúsqueda de homologías

Traducción conceptual de la secuenciaDetección ORFsSesgo de codonesLímites exón-intrónSecuencias de control río arribaBúsqueda de homologías

Page 35: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

EjercicioEjercicioEjercicioEjercicio

Observa el patrón de bandas fingerprint de una pareja y sus 5 hijos. Contesta a las siguientes cuestiones: a. ¿Qué marcadores se heredan juntos?b. ¿Qué marcadores parece ser alelos de un mismo locus?c. ¿Qué marcadores segregan independientemente?d. ¿Qué marcadores parecen estar ligados en trans?e. ¿Qué marcadores pueden estar ligados a la enfermedad P?

Page 36: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Cinco clones YAC de DNA humano se probaron para STSs. a. Dibuja el mapa físico de los STSs ordenadosb. Alinea los YACs en un contig

EjercicioEjercicioEjercicioEjercicio

Page 37: Tema 6: Secuenciación y análisis bioinformático de secuencias Tema 6: Secuenciación y análisis bioinformático de secuencias

Este es el pedigrí de una familia con fibrosis quística (en negro). El hijo mayor se ha casado con un primo segundo. Para saber si es portador ha efectuado un test molecular con tres sondas de RFLPs que se sabe están ligadas al gen de la FQ.a. ¿Es este hombre homocigoto normal o portador?b. ¿Son sus tres hermanos normales portador o normales?c. ¿De qué padre heredaron el alelo cada portador?

EjercicioEjercicioEjercicioEjercicio