182
Introducción a la Bioinformática Marta Cuadros, Carlos Cano Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad de Granada

Introduccion a la bioinformatica

Embed Size (px)

DESCRIPTION

Introduccion a la bioinformatica - Marta Cuadros -Massive sequencing data analysis workshop -Granada 2011

Citation preview

Page 1: Introduccion a la bioinformatica

Introducción a la Bioinformática

Marta Cuadros, Carlos Cano

Departamento de Ciencias de la Computación e

Inteligencia Artificial

Universidad de Granada

Page 2: Introduccion a la bioinformatica

De la Biología y la Informática a la Bioinformática……

Historia de la Informatica

Historia de la Biología Molecular

Page 3: Introduccion a la bioinformatica

Bioinformática

De la Biología y la Informática ala Bioinformática……

Page 4: Introduccion a la bioinformatica

¿Que es Bioinformática?

La bioinformática es un campo de la ciencia donde se

integran con la biología diferentes disciplinas como:

Source: http://ccb.wustl.edu/

…. para poder abordar el descubrimiento de nuevo conocimiento

biológico.

Bioinformática

Físca-química

Biología

Molecular

Ciencias de

la Computación

Biología

estructural

EstadísticaMatemáticas

Teoría

de Control

Page 5: Introduccion a la bioinformatica

Interdisciplinaridad y problemas decomunicación

El ADN es un polímero de

nucleótidos. Cada nucleótido está

formado por un grupo fosfato,

una desoxiribosa y una base

nitrogenada.

Los nucleótidos se diferencian

por sus bases nitrogenadas

divididas en dos grupos: dos

purínicas denominadas adenina

(A) y guanina (G) y dos

pirimidínicas denominadas

citosina (C) y timina (T).

GCCACATGTAGATAATTGAAACTGGATCCTCA

TCCCTCGCCTTGTACAAAAATCAACTCCAGAT

GGATCTAAGATTTAAATCTAACACCTGAAACC

ATAAAAATTCTAGGAGATAACACTGGCAAAGC

TATTCTAGACATTGGCTTAGGCAAAGAGTTCG

TGACCAAGAACCCAAAAGCAAATGCAACAAAA

ACAAAAATAAATAGGTGGGACCTGATTAAACT

GAAAAGCCTCTGCACAGCAAAAGAAATAATCA

GCAGAGTAAACAGACAACCCACAGAATGAGAG

AAAATATTTGCAAACCATGCATCTGATGACAA

AG

Es una cadena / “string” de

longitud variable y con un

alfabeto de cuatro

caracteres A, T, C, G

Page 6: Introduccion a la bioinformatica

El crecimiento exponencial de datos y la era de la información

10 Enero 2011:

225,047,396,161 bases

Bioinformatica: convergencia de dos

revoluciones

Page 7: Introduccion a la bioinformatica

Hoy en día…

...las nuevas tecnologías

en biología están

cambiando la forma de

abordar los problemas

debido a:

-la gran cantidad de datos

- y las multiples tipologías

de estos

Ninguna persona o grupo puede tiene

una visión general de todo lo conocido

Se hace necesaria la aparición de

ciencias interdisciplinares como

la Bioinformatica

Page 8: Introduccion a la bioinformatica

Ámbito de aplicación de la Bioinformática

ADN

ARN

Proteína

Trascripción

Traducción

Replicacion

ncRNAs

Dogma Central de la Biología

Fenotipo

Modificaciones

post-transduccionales

Page 9: Introduccion a la bioinformatica

Bioinformatica: Omas y Omicas

ADN

ARN

Proteína

Trascripción

Traducción

Replicacion

Fenotipo

Modificaciones

post-transduccionales

GenomicaSecuencias primarias (DNA, RNA)

Bases de datos (BD), algoritmos

Genomas

Estudios de evolución molecular

Transcriptomica(Genomica Funcional)Datos de expresion (Microarray data)

BDs, herramientas de analisis

ProteomicaSecuencias de proteina y estructuras

espectometría de masas, rayos-X,

cristalografia

Biologia de sistemas (metabolòmica)

flujos metabólicos Interactómicaredes de interacción

Page 10: Introduccion a la bioinformatica

Genómica y genomas

Es el estudio de la secuencia estructura y

funcion del genoma

Año Numero de Geomas

secuenciados

1994 0

1995 1

Enero 2011 1780

Eucariotas 272 (41 mamiferos)

Bacterias 1518

Arqueobacterias 81

Especies Conocidas Evolución de los genomas

secuenciados en los últimos

años

Page 11: Introduccion a la bioinformatica

Projecto: Genoma Humano

Projecto Internacional

Determinar la secuencia genomica humana y de

otros oganismos modelo

Tiempo y coste

han sido los factores limitantes

15 Febrero 2001

Page 12: Introduccion a la bioinformatica

Etapas en el proyecto genoma

1991..Human Genome Project begins

1994-1996..genetic maps

1995-1998..physical maps

1998..DNA sequencing begins

2000...Rough draft DNA sequence

2003…Complete DNA sequence

2005…...Gene map complete

Page 13: Introduccion a la bioinformatica

Evolución del Coste y tiempo

necesario para la Secuenciación

de Genomas

13

2010: 5000$, a few days?

2009: Illumina, Helicos40-50000$

Year

Lo

g1

0(p

ric

e)

201020052000

10

8

6

4

22012: 100$, <24 hrs?

2008: ABI SOLiD60.000$, 2 weeks

2007: 4541M$, 3 months

2001: Celera100M$, 3 years

2001: Human Genome Project2.7G$, 11 years

Page 14: Introduccion a la bioinformatica

Transcriptomica

Desde la caracterización del genoma

humano, han surgido nuevas vías de

investigación sobre el análisis global

del material genético.

Es evidente que NO todo el genoma

es transcrito y traducido finalmente a

proteínas

Transcriptoma surge para

representar todo el mRNA transcrito

bajo unas circunstancias, de forma

global.

Cada organismo tiene infinidad de

transcriptomas dependiendo del tipo

tisular o las condiciones ambientales

que se estudien.

Page 15: Introduccion a la bioinformatica

DNA chip technology

amarillo No especifico

rojo Especifico Muestra 1

verde Especifico muestra 2

Muestra 1

sano

Sintesis de

cDNA

fluorescente

RNA RNA

cDNA cDNA

DNA chip

Extracción

de ARN

Source: deRisi et al., Science 1997

Transcriptomica

Muestra 2

enfermo

Interpretación

Page 16: Introduccion a la bioinformatica

Proteoma y Proteomica

Proteoma. Es el set completo de proteinas y otros

productos génicos producidos por el genoma.

Proteomica. Es el estudio de las interacciones entre

proteinas, incluyendo diferencias en los distintos

estados del desarrollo, tejidos y organos.

Page 17: Introduccion a la bioinformatica

Datos y ciencias utilizadas actualmente en estudios Bioinformáticos

Page 18: Introduccion a la bioinformatica

¿Para qué es necesaria la Bioinformática?

Establece puentes entre distintas

áreas de conocimiento

Lo cual facilita la integración

de información y una mejor

comprensión de los sistemas

Biológicos

…. para poder abordar el descubrimiento de nuevo conocimiento

biológico.

Page 19: Introduccion a la bioinformatica

Medicina Molecular

◦ Nuevos medicamentos

◦ Medicina personalizada

◦ Medicina preventiva

◦ Terapia génica

Aplicaciones genomas

microbiano

◦ Residuos de limpieza

◦ El cambio climático

◦ Fuentes alternativas de energía

◦ Biotecnología

◦ Resistencia a los antibióticos

◦ Análisis forense de los microbios

◦ Estudios evolutivos

Agricultura

◦ Cultivos

◦ Resistencia a los insectos

◦ Mejorar la calidad nutricional

◦ cultivos en suelos más pobres y que son

resistentes a la sequía

Animales

Estudios comparativos

Tipos de estudios que han utilizado la Bioinformática

Page 20: Introduccion a la bioinformatica

Bases de Datos Biológicas

¿Qué es una base de datos?

¿Qué tipos de datos hay disponibles?

¿Qué es el esquema Genbank ?

¿Cómo es una entrada de datos en una BD biologica?

¿Cómo se usan?

Page 21: Introduccion a la bioinformatica

¿Que es una base de datos?

Es una colección de datos que tiene que ser:

◦ estructurada

◦ buscable

◦ actualizaciones regulares

◦ links y referencias a otras colecciones de datos

Page 22: Introduccion a la bioinformatica

AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb,

ARR, AsDb, BBDB, BCGD, Beanref,

Biolmage,

BioMagResBank, BIOMDB, BLOCKS,

BovGBASE,

BOVMAP, BSORF, BTKbase, CANSITE, CarbBank,

CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP,

DictyDb,

Picty_cDB, DIP, DOGS, DOMO, DPD, DPlnteract,

ECDC,

ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL,

EMD db,

ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView,

GCRDB, GDB, GENATLAS, Genbank, GeneCards,

Genline, GenLink, GENOTK, GenProtEC,

GIFTS,

Micado, MitoDat, MITOMAP, MJDB, MmtDB, Mol-

R-Us,

MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0-

lycBase,

OMIA, OMIM, OPD, ORDB, OWL, PAHdb,

PatBase, PDB,

PDD, Pfam, PhosphoBase, PigBASE, PIR, PKR, PMD,

PPDB, PRESAGE, PRINTS, ProDom, Prolysis,

PROSITE,

PROTOMAP, RatMAP, RDP, REBASE, RGP, SBASE,

SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase,

SPAD, SRNA db, SRPDB, STACK, StyGene,Sub2D,

SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE,

SWISS-

MODEL Repository, SWISS-PROT, TelDB, TGN,

tmRDB,

TOPS, TRANSFAC, TRR, UniGene, URNADB, V

BASE,

VDRR, VectorDB, WDCM, WIT, WormPep, YEPD,

YPD,

YPM, etc .................. !!!!

Algunas Bases de datos Biológicas

Page 23: Introduccion a la bioinformatica

Tipos de Bases de Datos

Database Types

Nucleotide

Sequence

RNA Sequence

Protein

Sequence

Structure

Genome (non-

human)

Pathways

Genome

(human)

Disease

Gene

Expression

Other Hay muchas BD de Genomas

La mayoria no son de secuencias

Hay muchas bases de datos especificas

Bases de datos especializadas en

enfermedades

Page 24: Introduccion a la bioinformatica

EBI

GenBank

DDBJ

EMBL

EMBL(Europa)

Entrez

SRS

getentry

NIG (JAPON)

CIB

NCBI

NIH (USA)

•Submissions•Updates

•Submissions•Updates

•Submissions•Updates

• Actualizaciones diarias entre

los paises

• DDBJ, GenBank and EMBL.

Page 25: Introduccion a la bioinformatica

Tipos de Bases de Datos Biologicas

Primarias (almacenamiento)

GenBank/EMBL/DDB

UniProt (proteinas)

PDB (estructuras)

Medline (PubMed) Articulos

Secondary (curadas)

RefSeq

Taxon (taxonomia)

SwissProt (proteinas curadas)

OMIM (genes-enfermedades)

Page 26: Introduccion a la bioinformatica

Formatos frecuentes de secuencias

de ADN y Proteinas

Genbank

ASN1

FASTA

GCG

IG(Intelligenetics)

Text

>gi|1345098|gb|U30791.1|PCU30791

TGAATTCTAAATTTTATATTTCTAATTGCATTTTATATTTTTGATAA

TACTAGATTTATTCCTGGAAACTTAAATTAGTTATTTTAAGTTATG

GGATGTTGTTTTTCTGCTACATATAACCAAGATACACTTCGTTCC

AA

Page 27: Introduccion a la bioinformatica

¿Cómo averiguar si una secuencia ya existe

en una Base de datos?

¿Cómo averiguar si hay una secuencia

similar a la mia en otro genoma?

¿Cómo averiguar cual es la funcion de mi

secuencia desconocida?

Page 28: Introduccion a la bioinformatica

La respuesta:

Busquedas de similaridad

Por homología (similaridad en la secuencia)

Una base de datos

de secuencias

donde BUSCAR

Requiere una

secuencia para

buscar

>Mi_Secuencia_desconocida

TGAATTCTAAATTTTATATT

TCTAATTGCATTTTATATTTT

TGATAATACTAGATTTATTC

CTGGAAACTTAAATTAGTT

ATTTTAAGTTATGGGATGTT

GTTTTTCTGCTACATATAAC

CAAGATACACTTCGTTCCA

A

Un Algoritmo para

buscar con mi

secuencia en la Base

de datos

Page 29: Introduccion a la bioinformatica

BLAST (Basic Local Alignment Search Tool)

http://blast.ncbi.nlm.nih.gov/Blast.cgi

Encuentra las regiones de similitud entre secuencias locales.

El programa compara secuencias de nucleótidos o proteínas con bases de datos de

secuencias y calcula la significancia estadística de concordancias. BLAST puede ser

usado para inferir relaciones funcionales y evolutivas entre las secuencias, así como

ayudar a identificar a miembros de familias de genes.

Page 30: Introduccion a la bioinformatica

BLAST

Page 31: Introduccion a la bioinformatica

Distintos Tipos de BLAST

ProgramaTipo de Base

de datos

Secuencia

desconocida

Tipo de

Alineamiento

BLASTP Proteina Proteina Gapped

BLASTNADN

(Nucleic)

ADN

(Nucleic)Gapped

BLASTX Proteina

ADN

Traducido a

Proteina

Frame

Gapped

TBLASTN

BD de ADN

Traducida a

Proteina

ProteinFrame

Gapped

TBLASTX

BD de ADN

Traducida a

Proteina

Trans.

NucleicUngapped

Page 32: Introduccion a la bioinformatica

Basic BLAST

Page 33: Introduccion a la bioinformatica

Specialized BLAST

Page 34: Introduccion a la bioinformatica
Page 35: Introduccion a la bioinformatica

Regís presentó a Henry Wu, un hombre tranquilo, esbelto, de unos treinta años. El

doctor Wu es nuestro genetista jefe. Dejaré que les explique lo que hacemos aquí.

Por lo menos lo intentaré, sonrió Wu. La genética es un poco complicada. Pero es

probable que ustedes se estén preguntando de donde viene nuestro ADN de

dinosaurio.

Es algo que me pasó por la cabeza, dijo Grant.

A decir verdad, empezó Wu, existen, dos fuentes posibles. Mediante la técnica de

anticuerpos de Loy, a veces podemos obtener ADN directamente de huesos de

dinosaurio.

¿Con qué rendimiento?, preguntó Grant.

Bueno, la mayoría de las proteínas solubles se lixivia durante la fosilización, pero el

veinte por ciento de las proteínas es aún recuperable a través de la pulverización de

los huesos y del posterior uso del procedimiento de Loy. El mismo doctor Loy lo

empleó para obtener proteína de marsupiales australianos extinguidos, así como

células sanguíneas de antiguos de restos humanos. La técnica de Loy es tan refinada

que puede funcionar con una cantidad tan ínfima como cincuenta nanogramos de

material, es decir, cincuenta mil millonésimas de gramo.

¿Y ustedes adaptaron esta técnica aquí? , preguntó Grant.

Page 36: Introduccion a la bioinformatica

Sólo como respaldo. Como podrán imaginar, un rendimiento del veinte por ciento es

insuficiente para nuestro trabajo. Necesitamos toda la cadena de ADN de dinosaurio

para poder hacer clones. Y lo obtenemos aquí. Sostuvo en alto una de las piedras

amarillas de ámbar, la resina fosilizada de savia de árboles prehistóricos. Grant miró a

Ellie y, después, a Malcolm. Eso es muy inteligente en verdad , dijo Malcolm, asintiendo

con la cabeza.

Sigo sin entenderlo , admitió Grant.

La savia de árbol , explicó Wu, a menudo fluye sobre los insectos y los atrapa.

Entonces, los insectos quedan perfectamente conservados dentro del fósil. Se

encuentra toda clase de insectos dentro del ámbar... ..incluyendo insectos picadores

que succionaron sangre de animales más grandes.

Succionaron la sangre —repitió Grant. Quedó con la boca abierta—: Usted quiere

decir «succionaron la sangre de los dinosaurios».

Con suerte, sí.

Y entonces los insectos se conservan en ámbar... ,Grant sacudió la cabeza, ¡Quién lo

hubiera pensado! Podría funcionar.

Se lo aseguro, sí que funciona , dijo Wu. Fue hacia uno de los microscopios

estereoscópicos, en el cual uno de los técnicos ponía en posición un trozo de ámbar

que contenía una mosca bajo los objetivos dobles.

Page 37: Introduccion a la bioinformatica

Sobre la pantalla del monitor observaron cómo el técnico insertaba una aguja larga a

través del ámbar, hasta penetrar en el tórax de la mosca prehistórica. Si este insecto

tiene células sanguíneas no pertenecientes a él, puede que consigamos extraerlas y

obtener ADN, el ADN de un ser extinguido. No lo sabremos con seguridad, claro está,

hasta que extraigamos lo que sea que haya ahí dentro, hagamos réplicas y lo

sometamos a ensayos. Eso es lo que llevamos haciendo desde hace cinco años. Ha sido

un proceso largo y lento, pero que rindió buenos resultados.

Tim vio que el doctor Grant mantenía su aire de escepticismo, y Dennis Nedry, el

gordo desaliñado, parecía carecer por completo de interés, como si ya supiera todo

eso. Pero lo que sí hacía era seguir mirando con impaciencia la sala siguiente.

Veo que el señor Nedry descubrió la fase siguiente de nuestro trabajo , dijo Wu, cómo

identificamos el ADN que extraemos. Para eso, utilizamos ordenadores potentes.

Por unas puertas corredizas pasaron a una sala muy refrigerada. Se oía un fuerte

zumbido. Dos torres redondas de un metro ochenta de alto se erguían en el centro de

la sala y, a lo largo de las paredes, había hileras de cajas de acero cuya altura llegaba a la

cintura de un hombre:

Ésta es nuestra lavandería automática de alta tecnología , explicó el doctor Wu. Todas

las cajas que hay a lo largo de las paredes son secuenciadores automáticos de genes

Himachi-Hood. Los superordenadores «Cray XMP» trabajan a una velocidad muy alta ,

que son las torres que hay en el centro de la sala. En esencia, ustedes se encuentran en

el centro de una fábrica increíblemente poderosa de productos genéticos.

Page 38: Introduccion a la bioinformatica

Intentemos ayudar al Dr. Wu a identificar

su secuencia>LostWorld DNA

gaattccgga agcgagcaag agataagtcc tggcatcaga tacagttgga gataaggacggacgtgtggc agctcccgca gaggattcac

tggaagtgca ttacctatcc catgggagccatggagttcg tggcgctggg ggggccggat gcgggctccc ccactccgtt

ccctgatgaagccggagcct tcctggggct gggggggggc gagaggacgg aggcgggggg gctgctggcctcctaccccc

cctcaggccg cgtgtccctg gtgccgtggg cagacacggg tactttggggaccccccagt gggtgccgcc cgccacccaa

atggagcccc cccactacct ggagctgctgcaaccccccc ggggcagccc cccccatccc tcctccgggc ccctactgcc

actcagcagcgggcccccac cctgcgaggc ccgtgagtgc gtcatggcca ggaagaactg cggagcgacggcaacgccgc

tgtggcgccg ggacggcacc gggcattacc tgtgcaactg ggcctcagcctgcgggctct accaccgcct caacggccag

aaccgcccgc tcatccgccc caaaaagcgcctgcgggtga gtaagcgcgc aggcacagtg tgcagccacg agcgtgaaaa

ctgccagacatccaccacca ctctgtggcg tcgcagcccc atgggggacc ccgtctgcaa caacattcacgcctgcggcc tctactacaa

actgcaccaa gtgaaccgcc ccctcacgat gcgcaaagacggaatccaaa cccgaaaccg caaagtttcc tccaagggta

aaaagcggcg ccccccgggggggggaaacc cctccgccac cgcgggaggg ggcgctccta tggggggagg

gggggacccctctatgcccc ccccgccgcc ccccccggcc gccgcccccc ctcaaagcga cgctctgtacgctctcggcc ccgtggtcct

ttcgggccat tttctgccct ttggaaactc cggagggttttttggggggg gggcgggggg ttacacggcc cccccggggc tgagcccgca

gatttaaataataactctga cgtgggcaag tgggccttgc tgagaagaca gtgtaacata ataatttgcacctcggcaat tgcagagggt

cgatctccac tttggacaca acagggctac tcggtaggaccagataagca ctttgctccc tggactgaaa aagaaaggat ttatctgttt

gcttcttgctgacaaatccc tgtgaaaggt aaaagtcgga cacagcaatc gattatttct cgcctgtgtgaaattactgt gaatattgta

aatatatata tatatatata tatatctgta tagaacagcctcggaggcgg catggaccca gcgtagatca tgctggattt gtactgccgg

aattc

Page 39: Introduccion a la bioinformatica

¿Existe una proteína similar?

Vamos a hacer un Blastx con esta secuencia

BLASTx Proteina

ADN

Traducido a

Proteina

Frame

Gapped

Page 40: Introduccion a la bioinformatica

Copiar y pegar la

secuencia en el cuadro

Pincha en Blast

Selecciona el algoritmo adecuado

Seleccionar la Base de Datos

Page 41: Introduccion a la bioinformatica

Resultados: ¿como interpetarlos?

Page 42: Introduccion a la bioinformatica

Resultados: ¿cómo interpretarlos?

Page 43: Introduccion a la bioinformatica

Resultados: ¿como interpetarlos?

Page 44: Introduccion a la bioinformatica

Resultados: ¿como interpretarlos?

Page 45: Introduccion a la bioinformatica

2.Haz un Blastx.

Busca proteínas usando la secuencia de nucleótidos

La secuencia publicada en el libro de Michael Crichton “El mundo

perdido” ( The Lost World) la generó Mark Boguski, el experto en

biología molecular con el que trabajo Mr. Crichton para escribir la

clonación de los dinosaurios. Mark gastó una broma cuando hizo

esta secuencia.

Si seguimos el link

Page 46: Introduccion a la bioinformatica

¿Como conseguimos más

informacion?

¿que podemos deducir?

1- Existe una proteina

que se parece mucho a la

nuestra, pero no tiene la

misma longitud

2- La proteina es un factor

de transcripcion de

eritrocitos, es decir una

proteina que activa la

expresion del un gen para

la produccion de globulos

rojos en pollo (Gallus

gallus)

Page 47: Introduccion a la bioinformatica

¿Y si buscamos en una base de datos de

secuencias nucleotidicas?

Vamos a hacer un Blastn con esta secuencia para buscar si hay

alguna/s secuencias de ADN similares

BLASTNADN

(Nucleic)

ADN

(Nucleic)Gapped

Page 48: Introduccion a la bioinformatica

Copiar y pegar la

secuencia en el cuadro

Pincha en Blast

Selecciona el algoritmo adecuado

Seleccionar la Base de DatosOthers

Page 49: Introduccion a la bioinformatica

Resultados: ¿como interpetarlos?

Gallus gallus

GATA binding protein 1

(globin transcription factor 1)

Chicken erythroid-specific

transcription factor eryf1

mRNA, complete cds

Xenopus laevis

GATA-binding protein

(XGATA-2) gene,

complete cds

Xenopus laevis

GATA binding

protein 1 (globin

transcription factor

1) (gata1-b), mRNA

Nuestra secuencia de Dinosaurio

esta compuesta de 3 secuencias

actuales

Page 50: Introduccion a la bioinformatica

¿Que significa lo que hemos encontrado?

Nuestra secuencia desconocida

capturada en el ámbar hace

millones de años está compuesta

de 3 secuencias actuales de dos

especies distintas

1 de Gallus gallus (pollo)

2 de Xenopus laevis (la rana)

Podemos concluir que

nuestra secuencia es de

Dinosaurio

Page 51: Introduccion a la bioinformatica

¿Qué es Ensembl?

•Es un repositorio de genomas completos e información

adicional.

•Tiene múltiples niveles de acceso con una gran

flexibilidad.

Da acceso tanto al genoma humano como a otros

50 genomas.

Permite la realización de búsquedas de homología

Permite descargarse regiones completas del

genoma, genes, proteínas, ect..

Permite extraer todas las SNPs en un gen concreto,

así como sus consecuencias.

http://www.ensembl.org

Page 52: Introduccion a la bioinformatica

¿Existen otros navegadores genómicos?

NCBI Map Viewer

http://www.ncbi.nlm.nih.gov/mapview/

UCSC Genome Browser

http://genome.ucsc.edu

Page 53: Introduccion a la bioinformatica

• Ensembl basa su anotación en evidencias experimentales:

mRNA y proteínas (más fiable)

• Permite realizar análisis comparativos de genes

• Permite la integración de datos procedentes de otras bases de

datos (DAS)

• Permite realizar minería de datos: BioMart (Data-mining tool)

¿Cuál es la diferencia de estos

navegadores comparados con

Ensembl?

Page 54: Introduccion a la bioinformatica

50 especies la mayoría son vertebrados

Genomas disponibles en Ensembl

Page 55: Introduccion a la bioinformatica

• ARNs (genes no codificadores de proteínas)

• Referencias a bases de datos externas

• Genes, proteínas, variaciones de un gen

• Otras características del genoma: elementos repetitivos,

islas CpG

• Secuencias similares y alineamientos de secuencias al

genoma completo

• Datos de regulación: promotores

• Datos de otras fuentes o usuarios(DAS)

¿Qué datos podemos encontrar?

Page 56: Introduccion a la bioinformatica

Genoma

cDNAs alineado

y proteínas

Exon Exon Exon

Untranslated+Coding Coding Untranslated

…. demasiada información y poco interpretable

Integración de la información

Page 57: Introduccion a la bioinformatica

con evidencia subyacente

Ensembl muestra sólo transcritos

tipo

Page 58: Introduccion a la bioinformatica

¿Qué significa una ID en

Ensembl?

ENSG### Ensembl Gen ID

ENST### Ensembl Transcrito ID

ENSP### Ensembl Proteína ID

ENSE### Ensembl Exon ID

Para las demás especies, se añade un código de tres

letras que la representa:

MUS (Mus musculus) for mouse: ENSMUSG###

DAR (Danio rerio) for zebrafish: ENSDARG###, etc.

Page 59: Introduccion a la bioinformatica

¿Cómo está organizada toda la

información?¿Cómo accedo?

Ensembl Views

(Website)

• BioMart „DataMining tool‟

Page 60: Introduccion a la bioinformatica

• Vamos a obtener el resumen de datos para el gen y sus enlaces

relaccionados: (Gene Tab)

• ¿Cuántas variantes tiene el gen?

• Vamos a ver las secuencias genómicas para esas variaciones

• Vamos a encontrar secuencias con la misma función en otros

organismos

• Vamos a obtener los datos para cada transcrito: (Transcript Tab)

• ¿Cuál es la secuencia de la proteína que codifica?

• ¿Qué informaciones podemos encontrar en otras bases de

datos?

•¿En qué región del genoma, en qué cromosoma se encuentra el gen?:

(Location Tab)

Nuestro ejemplo: el gen de la rodopsina humana (RHO)

Vamos a pasear por el genoma…

Page 61: Introduccion a la bioinformatica

Vamos a empezar…

Ve al navegador y accede a

www.ensembl.org

Page 62: Introduccion a la bioinformatica

Vamos a buscar con el nombre del

gen

Escribe „gene RHO‟ en la barra de búsqueda como se muestra en la imagen y

presiona el botón „Go‟ .

Page 63: Introduccion a la bioinformatica

¿Cómo encuentro lo que busco?

Selecciona el primer

resultado

Page 64: Introduccion a la bioinformatica

Location Tab o ¿dónde está mi gen?

Genes que

rodean a

RHO

Variaciones

conocidas del

gen Rho

Todas las visualizaciones se pueden personalizar, añadiendo o retirando información.

Para ello usa el enlace Configure a tu izquierda.

Page 65: Introduccion a la bioinformatica

¿Qué son los enlaces en la ventana

de la izquierda?

¿Cómo veo la

secuencia en el

genoma?

Selecciona Gene Tab

Page 66: Introduccion a la bioinformatica

Para configurar la página haz

click aquí

Selecciona: Display variations

Determina el número

de líneas: Number of lines

¿Cómo defino lo que quiero ver?

Page 67: Introduccion a la bioinformatica

Después de investigar las ventanas: Location/Gene display,

nos gustaría conseguir la secuencia genómica en la que se

encuentra el gen RHO.

Para ello ve a “Export data option” y haz click en “Next”

¿Cómo puedo extraer la secuencia?

Page 68: Introduccion a la bioinformatica

Genómica Comparativa: Alineamientos

genómicos

¿Cómo puedo ver los

alineamientos genómicos

que hay de esta region?

Para ver el alineamiento genómico a

nivel de nucleótidos

Selecciona “12 eutherian mammals

EPO”. EPO se refiere al flujo de

programas detrás de los alineamientos

de genomas completos

Los residuos idénticos están

marcados

Page 69: Introduccion a la bioinformatica

• Ortólogas: Son secuencias muy parecidas que

realizan la misma función en distintos organismos.

Normalmente comparten un ancestro común y se

identifican en los árboles por eventos de especiación.

• Parálogas: Cualquier secuencia parecida que

proviene de un proceso de duplicación. Normalmente

terminan desempeñando otra función.

Tipos de secuencias Homólogas

Secuencias homólogas son secuencias muy parecidas

Page 70: Introduccion a la bioinformatica

Haz click en Gene tree (image). Esta imagen te muestra todos los genes

parecidos a tu secuencia en el contexto de un árbol filogenético.

Este árbol sirve para identificar secuencias ortólogas y parálogas

Click en cualquier nodo para extender o reducir el árbol.

Click en

Orthologues para

ver las

secuencias

ortólogas

identificadas por

el árbol

Cómo ver secuencias Homológas en Ensembl:

Tree View

Page 71: Introduccion a la bioinformatica

¿Qué es „1 to 1‟?

¿Qué es „1 to many‟?

one-to-one ortólogo:

En ambas especies sólo hay un ortológo.

one-to-many or many-to-many ortólogos:

en al menos una de las dos especies hay una

duplicación después de la separación de ambas

especies (especiación)

Tabla de secuencias ortólogas

Page 72: Introduccion a la bioinformatica

Un cuadrado

rojo es un

proceso de

duplicación

(Paralogos)

Un cuadrado

azul es un

proceso de

especiación

(Orthologos)

Cómo interpretar los árboles

Page 73: Introduccion a la bioinformatica

Vuelve al Gene Tab.

Vamos a concentrarnos en el transcrito (mRNA, es el gen sólo con la parte

informativa).

Selecciona el transcrito más largo de la tabla (ENST00000296271).

Esto te llevará al resumen del transcrito Transcript Tab

En el menú de la izquierda en Configure puedes seleccionar qué y cómo lo quieres

ver.

Gene Tab: Información de un gen

Page 74: Introduccion a la bioinformatica

Selecciona Exons en el menú de la izquierda para visualizar las secuencias de

los exones. Esta vista te muestra

(exones, intrones y las secuencias que flanquean al gen).

Configure para cambiar la vista:

enseñar las secuencias de los intrones enteras,

mostrar sólo exones, ect..

Intrones

(azul)Secuencias codificadoras de

proteínas (CDS)

(negro)

UTRs

(morado)

flancos

(verde)

Exones de un Transcrito

Page 75: Introduccion a la bioinformatica

General identifiers

Aquí podrás ver todas las referencias

a bases de datos externas que se

conocen sobre tu secuencia.

¿Hay información sobre mi

secuencia en otras bases de datos

biológicas?

Page 76: Introduccion a la bioinformatica

Ensembl

proteína

Motivos

mapeados a la

secuencia

Haciendo

click en

Domains &

features se

muestran

todos los

motivos

que se han

encontrado

en la

proteína.

¿Cómo es la proteína que codifica mi

gen?

Page 77: Introduccion a la bioinformatica

• Polymorfismo: Es una variación del ADN que está presente en al

menos un 1% de la población

• El 90% de los polimorfismos son SNPs (Single Nucleotide

Polymorphisms). Es decir variaciones de un solo nucleótido (símbolo)

en el ADN

Variaciones Genómicas: SNP

Type Description Consequence

non-synonymous SNP SNPs en el ADN altera un

aa de la proteína

Fibrosis cística(CFTR)

Hemofilia (F8)

synonymous SNP SNPs en el ADN no altera

la secuencia de la proteína

Pero puede afectar a la

correcta producción del

transcrito

regulatory SNP SNPs está en una región

reguladora de la expresión

Puede afectar el nivel de

expresión

SNPs en otras regiones Útiles como marcadores “No tiene impacto”

Page 78: Introduccion a la bioinformatica

Mira la tabla de variaciones para RHO a partir de la Gene Tab

Tabla de Variaciones Genómica

Page 79: Introduccion a la bioinformatica

Muestra de una forma gráfica las variaciones sobre la secuencia del Transcrito

Selecciona en

Configure

“Consequence

Type”

Selecciona sólo

Non_Synonimo

us SNPs

Imagen de Variaciones Genómica

Page 80: Introduccion a la bioinformatica

Conceptos básicos antes de empezar

Page 81: Introduccion a la bioinformatica

GCCACATGTAGATAATTGAAACTGGATCCTCATCCCTCGCCTTGTACAAAAATCAACTCCAGATGGATCTAA

GATTTAAATCTAACACCTGAAACCATAAAAATTCTAGGAGATAACACTGGCAAAGCTATTCTAGACATTGGC

TTAGGCAAAGAGTTCGTGACCAAGAACCCAAAAGCAAATGCAACAAAAACAAAAATAAATAGGTGGGACCTG

ATTAAACTGAAAAGCCTCTGCACAGCAAAAGAAATAATCAGCAGAGTAAACAGACAACCCACAGAATGAGAG

AAAATATTTGCAAACCATGCATCTGATGACAAAGGACTAATATCCAGAATCTACAAGGAACTCAAACAAATC

AGCAAGAAAAAAATAACCCCATCAAAAAGTGGGCAAAGGAATGAATAGACAATTCTCAAAATATACAAATGG

CCAATAAACATACGAAAAACTGTTCAACATCACTAATTATCAGGGAAATGCAAATTAAAACCACAATGAGAT

GCCACCTTACTCCTGCAAGAATGGCCATAATAAAAAAAAATCAAAAAAGAATAAATGTTGGTGTGAATGTGG

TGAAAAGAGAACACTTTGACACTGCTGGTGGGAATGGAAACTAGTACAACCACTGTGGAAAACAGTACCGAG

ATTTCTTAAAGAACTACAAGTAGAACTACCATTTGATCCAGCAATCCCACTACTGGGTATCTACCCAGAGGA

AAAGAAGTCATTATTTGAAAAAGACACTTGTACATACATGTTTATAGCAGCACAATTTGCAATTGCAAAGAT

ATGGAACCAGTCTAAATGCCCATCAACCAACAAATGGATAAAGAAAATATGGTATATATACACCATGGAACA

CTACTCAGCCATAAAAAGGAACAAAATAATGGCAACTCACAGATGGAGTTGGAGACCACTATTCTAAGTGAA

ATAACTCAGGAATGGAAAACCAAATATTGTATGTTCTCACTTATAAGTGGGAGCTAAGCTATGAGGACAAAA

GGCATAAGAATTATACTATGGACTTTGGGGACTCGGGGGAAAGGGTGGGAGGGGGATGAGGGACAAAAGACT

ACACATTGGGTGCAGTGTACACTGCTGAGGTGATGGGTGCACCAAAATCTCAGAAATTACCACTAAAGAACT

TATCCATGTAACTAAAAACCACCTCTACCCAAATAATTTTGAAATAAAAAATAAAAATATTTTAAAAAGAAC

TCTTTAAAATAAATAATGAAAAGCACCAACAGACTTATGAACAGGCAATAGAAAAAATGAGAAATAGAAAGG

AATACAAATAAAAGTACAGAAAAAAAATATGGCAAGTTATTCAACCAAACTGGTAATTTGAAATCCAGATTG

AAATAATGCAAAAAAAAGGCAATTTCTGGCACCATGGCAGACCAGGTACCTGGATGATCTGTTGCTGAAAAC

AACTGAAAATGCTGGTTAAAATATATTAACACATTCTTGAATACAGTCATGGCCAAAGGAAGTCACATGACT

AAGCCCACAGTCAAGGAGTGAGAAAGTATTCTCTACCTACCATGAGGCCAGGGCAAGGGTGTGCACTTTTTT

TTTTCTTCTGTTCATTGAATACAGTCACTGTGTATTTTACATACTTTCATTTAGTCTTATGACAATCCTATG

AAACAAGTACTTTTAAAAAAATTGAGATAACAGTTGCATACCGTGAAATTCATCCATTTAAAGTGAGCAATT

CACAGGTGCAGCTAGCTCAGTCAGCAGAGCATAAGACTCTTAAAGTGAACAATTCAGTGCTTTTTAGTATAT

TCACAGAGTTGTGCAACCATCACCACTATCTAATTGGTCTTAGTCTGTTTGGGCTGCCATAACAAAATACCA

CAAACTGGATAGCTCATAAACAACAGGCATTTATTGCTCACAGTTCTAGAGGCTGGAAGTGCAAGATTAAGA

TGCCAGCAGATTCTGTGTCTGCTGAGG

¿Qué es el ADN?

Es un alfabeto de 4 caracteres

Este alfabeto de 4 caracteres contiene suficiente información para

crear organismos complejos, mediante el uso de largas palabras

Similitud con el código binario

Page 82: Introduccion a la bioinformatica

¿Qué es el ADN?

• ADN: Deoxyribonucleic Acid (ácido dexosiribonucleíco)

• 4 nucleotidos:

– Adenosina (A)

– Citosina (C)

– Guanina (G)

– Timina (T)Azúcar

Fosfato Base nitrogenada

Nucleótido

Page 83: Introduccion a la bioinformatica

Un Gen es un segmento de

DNA que da lugar a una

proteína

Page 84: Introduccion a la bioinformatica

Guanina (G)

Citosina (C)

Siempre se une a

Adenina (A)

Siempre se une a

Timina (T)

A G CT A T G C

T C GA T A C G

Proteína

Ser Stop

C

Arg

G

Page 85: Introduccion a la bioinformatica

Estructura de un gen

Page 86: Introduccion a la bioinformatica

Esquema de la transcripción

Page 87: Introduccion a la bioinformatica

Adenina Timina Guanina Citosina

20 aminoácidos

Código genético

Un codón tiene 3 bases

4 * 4 * 4 = 64 combinaciones posibles (codon)

Codón de inicio: AUG

Codónes de parada o Stop: UAA, UAG, UGA

61 codones codifican el resto de los 20 amino ácidos (AUG también

Metionina)

Page 88: Introduccion a la bioinformatica

Organización del genoma humano

Distribución no uniforme de genes y repeticiones a

lo largo del GH.

5% es codificante

50% es copia única

50% DNA repetitivo

Page 89: Introduccion a la bioinformatica

Organización del genoma humanoCariotipo normal: 46, XX

Page 90: Introduccion a la bioinformatica

Organización del genoma humano

Page 91: Introduccion a la bioinformatica

Ejemplo de organización de una

región del GH

Page 92: Introduccion a la bioinformatica

Organización del genoma humano

Page 93: Introduccion a la bioinformatica

93

IntroducciónOrganización del genoma humano

Page 94: Introduccion a la bioinformatica

Cambios permanentes/heredables producidos durante la

replicación de DNA

Probabilidad de mutación en células humanas: 1 de cada 105

Mutación

Page 95: Introduccion a la bioinformatica

DURANTE LA REPLICACIÓN:

-Roturas de una de las hebras de DNA (DNA polimerasa

I/DNA Ligasa)

-Inserción de un nucleótido (DNA polimerasa

(exonucleasa3’-5’, actividad correctora de errores)

POR EXPOSICIÓN A RADIACIONES EXTERNAS:

-Formación de dimeros de timina (DNA polimerasa

I/endomnucleasa 5’-3’

Mecanismos celulares de reparación

Page 96: Introduccion a la bioinformatica

A C T G C T

A C G C

TA C G C TC

A C T G C TT

SUSTITUCION

INSERCION

DELECION

- T

+ T

TxC

Mecanismos de mutación

Page 97: Introduccion a la bioinformatica

MUTACIÓN

C A C A A G U A U C A C

His Lys Tyr His

His Lys Tyr His

C A C A A G U A G C A C

Mutación neutra

Page 98: Introduccion a la bioinformatica

C A C A A G U A U C A C

His Lys Tyr His

C A C A A G U A A

His Lys

TRIPLETE DE

PARADA

MUTACIÓN

Mutación sin significado

(nonsense mutation)

Page 99: Introduccion a la bioinformatica

MUTACION

C A C A A G U A U C A C

His Lys Tyr His

C A C A A G U G U C A C

His Lys Cis His

Mutación de significado erróneo

(missense mutation)

Page 100: Introduccion a la bioinformatica

La detección de mutaciones es esencial para la caracterización

molecular, diagnostico, prevención y tratamiento de enfermedades.

Los cambios en el DNA son responsables de fenotipos particulares

MÉTODO DE DETECCIÓN:

- SECUENCIACIÓN DIRECTA

- ANÁLISIS FRAGMENTOS DE RESTRICCIÓN (RFLP)

- SSCP (Single-Strand Conformational Polymorphism)

- HA (Heterodúplex Analysis)

- CSGE (Conformation Sensitive Gel Electrophoresis)

Métodos de detección de

mutaciones

Page 101: Introduccion a la bioinformatica

Qué son los SNPs?

GAGAC

GATAC

La secuencia nucleotídica de dos personas difiere

en un punto determinado de ésta

Ocurre muchas veces?

Es la variación genética más abundante en los genomas

y en especial en el Genoma Humano

Como media hablamos de 1 cambio cada 500 ó 1000 pares de bases

Actualmente se conocen más 2.25x106 validados

Transitiones: pu/pu (A y G) py/py (T y C) (~70%)

Transversiones: py/pu

Page 102: Introduccion a la bioinformatica

Qué son los SNPs?Allele frecuency (1%)

Frecuencia alélica o frecuencia génica es la proporción que se

observa de un alelo específico respecto al conjunto de los que

pueden ocupar un locus determinado en la población.

Page 103: Introduccion a la bioinformatica

Qué es un alelo?

Alelo es cada una de las formas alternativas que puede tener un

gen que se diferencian en su secuencia y que se puede manifestar

en modificaciones concretas de la función de ese gen.

Page 104: Introduccion a la bioinformatica

Qué es un locus/loci?

Locus (plural loci) es una posición fija sobre un cromosoma,

como la posición de un gen o de un biomarcador (marcador

genético).

El locus cromosómico de un gen podría ser anotado, por ejemplo,

como 22p11.2:

Page 105: Introduccion a la bioinformatica

Haplotipos

En general, en las diferentes regiones cromosómicas se observan

pocos haplotipos

Estos pocos haplotipos representan la mayoría de variación

existente entre distintas personas de una población

Combinación de alelos en diferente loci a lo largo de un

cromosoma los cuales son transmitidos juntos de una

generación a la siguiente

C/T G/A

CG

CA

TA

TG

CG

CA

TG

TA

CG

CG

TA

TA

CA

CA

TG

TG

CG

TA

TG

CA

CA

TA

CG

TG

haplotipos diplotipos

Page 106: Introduccion a la bioinformatica

Gen

Alelos posibles

Uno de los posibles haplotipos

o = LD

+ disease

Haplotipo de riesgo

Qué es un haplotipo

Page 107: Introduccion a la bioinformatica

Qué son los SNPs?

• Polimorfismo: coexistencia de variante en la población sin

repercusión fenotípica.

• Presentes en un porcentaje superior al 1% de la población

general.

• Lo que hace que todo el mundo sea portador de varios

cambios respecto a sus vecinos.

• Diferentes tipos: genéticos, cromosómicos, proteínicos.

• Ejemplo de polimorfismos: Grupos sanguíneos, Rh, HLA.....

• Responsables de la variabilidad humana.

Page 108: Introduccion a la bioinformatica

Tipos de

Polimorfismos

SNP = single nucleotide polymorphism

Cambio simple de una base por otra

Pequeñas delecciones e inserciones

Large-scale copy-number variation/polymorphism

(LCV/CNP):

Delecciones e inserciones grandes que llevan a

variación en el número de repeticiones de una

secuencia

Alteraciones estructurales: inversiones,

translocaciones y aneuploidías

Page 109: Introduccion a la bioinformatica

Genetic

Environmental

Disease

Cause

Mendelian diseases

Independently from genetic

input

Common multifactorial

complex diseases

Papel de los SNPs en las

enfermedades compleja

Page 110: Introduccion a la bioinformatica

Gen A

Enfermedad monogénica

100

Riesgo genético en distintas familias

30

Riesgo genético en distintos individuos

100

Riesgo genético poblacional

100

30

Riesgo genético poblacional

Gen A

Gen B Gen C

Gen D

Enfermedad compleja

Herencia dominante, recesiva o ligada al X

Caso esporádico

Papel de los SNPs

Page 111: Introduccion a la bioinformatica

Modelo multilocus interactuando con factores

ambientales

Gen principal Genes modificadores Ambiente

Gen 1 Gen 2 Gen 3 Gen 4 Amb1 Amb 2

Fenotipo

Page 112: Introduccion a la bioinformatica

Para qué sirven SNPs?

1. Como variación directamente asociada a fenotipo/enfermedad

SNPs causales (con función y efecto fenotípico)

Farmacogenética (enzimas con cambios funcionales en proteína o

promotor. Influyendo en la actividad o expresión y por tanto en la capacidad

de metabolizar)

SNPs que afectan la terapia contra

leucemias a | La mercaptopurina (MP) se

convierte en nucleotido tioguanina mediante

(HPRT) (metabolito activo),

Otro enzima, la TPMT convierte la MP en (MeMP),

el metabolito inactivo.

b | La frecuencia en la población de la actividad

de TPMT muestra un patrón trimodal.

--0.3% (mut/mut) for mutations in TPMT,

--10% (wt/mut) for mutations in TPMT,

-- 90% (wt/wt) TPMT.

c | TPMT genotipo esta correlacionado con el

fenotipo.

Page 113: Introduccion a la bioinformatica

Para qué sirven SNPs?

2. Como marcadores genéticos en estudios de:

2.1. Asociación: Casos vs Controles no relacionados

REPRESENTATIVE BREAST CANCER POPULATION

REPRESENTATIVE CONTROL POPULATION

Clinical information of tumours(histológical grade, tumor grade,

....)Patient age/ diagnostico age

Environmental data:(smoke, alcohol, diet, sport...)

........

Ej: 900 cases/900 controls

CNIO Human genetics Depart

Page 114: Introduccion a la bioinformatica

Para qué sirven SNPs?

2. Como marcadores genéticos en estudios de:

2.2 Búsqueda de genes implicados en enfermedades: familias

A

B

C

D

a

b

c

d

a

b

c

d

a

b

c

d

A

B

C

D

a

b

c

d

a

b

c

d

a

b

c

D

a

B

C

D

A

B

C

d

A

b

c

d

a

b

c

D

a

b

c

d

a

b

c

d

a

b

c

d

a

b

c

d

a

b

c

d

a

b

c

d

a

b

c

d

a

b

c

d

Los Haplotipos se realizan para

confirmar la posición del locus de la

enfermedad.

Seguimiento de los marcadores a traves

del pedigree observando los puntos de

reconbinación

Tradicionalmente realizados con

microsatélites en enfermedades

monogénicas,

Actualemente se pueden realizar con

SNPs (menos informativos pero mucho

más abundantes).

1 2

3 4 5 6

7 8 9 10

Page 115: Introduccion a la bioinformatica

Para qué sirven SNPs?

2. Como marcadores genéticos en estudios de:

2.3 Genética de poblaciones

Otras aplicaciones:

Forense: Identificación individuos y/ relaciones de parentesco

clasificación de especies/subespecies (plantas y animales)

Page 116: Introduccion a la bioinformatica

TFS Amino acid

change

Directamente: SNPs (funcionales)

Haplotipos: mirando desequilibrio de ligamiento

Cómo trabajar con los SNPs?

Page 117: Introduccion a la bioinformatica

LD = 0 LD = 1

Alto LD.

Pocos Haplotipos

>% de representación

Bajo LD.

Muchos Haplotipos

<% de representación

Desequilibrio de ligamiento

Page 118: Introduccion a la bioinformatica

Tag_SNP

Genotipar tag_SNPs en un bloque con alto desequilibrio de

ligamiento da la misma información que genotipando todos los

SNPs comunes presentes.

Ventaja: económica y tiempo en obtener resultados

Page 119: Introduccion a la bioinformatica

Re

lative

po

we

r (%

)

Average marker density (per kb)

tag SNPs

random

SNPs

~300,000 tag SNPs

needed to cover common

variation in whole genome

in CEU

Eficacia y poder

Page 120: Introduccion a la bioinformatica

THE INTERNATIONAL HAPMAP PROJECTA community resource for disease gene discovery

Page 121: Introduccion a la bioinformatica

Proyecto HapMap:

http://www.hapmap.org/index.html

% sequencing among partners

Japan

25%

UK

24%

Canada

10%

China

10%

USA

31%

• 270 DNAs from different populations

• 30 trios from Nigeria (Yoriba)

• 45 Han Chinese (Beijing)-

• 45 Japanese (Tokyo)

• 30 trios from CEPH:

-African_American

-European_American

chromosomes to be screened

5,11,14,15,16,17,19

1,6,10,13,20

2,4p 3,8p,21

8q,9,18q,22,X,4q,7,18,Y,12

Page 122: Introduccion a la bioinformatica

Proyecto HapMap

• Desarrollo tecnológico: plataformas/herramientas

análisis

• Definir patrones de variación genética a lo largo del

genoma humano

• Guiar la selección de SNPs eficientemente hacia

variantes comunes “tags”

• Acceso público de todos los datos (ensayos, genotipos,

ld, bloques, tags) via página web.

Phase I: 1.3 M markers in 270 people

Phase II: +2.8 M markers in 270 people

Page 123: Introduccion a la bioinformatica

Variabilidad Humana (Proyecto Genoma Humano)

• A raíz del proyecto Genoma Humano se vio que el 0.1%

de nuestro genoma es variable, en gran parte debido a los

SNP ó polimorfismos de una sola base.

•Los SNP son muy frecuentes (se han descrito alrededor

de 8 millones a lo largo del genoma)

• Están localizados tanto en intrones como en exones (5-

10 SNPs/gen)

• Pueden producir ligeras alteraciones en la proteína que

van a ser responsables de nuestra variabilidad.

Proyecto HapMap

Page 124: Introduccion a la bioinformatica

Como se detectan los SNPs?

LTA

TNF

LST

Allele1 (A)Allele2 (G)

Allele2 (A)Allele1 (G)

Allele1 (A)Allele2 (C)

G (wt)

G (het)A

Page 125: Introduccion a la bioinformatica

CSGE

SSPC

DHPLC

Desventajas: muestra, tiempo, dinero.

1 muestra – 1 SNP

Secuenciación

Técnicas clásicas de genotipado

Page 126: Introduccion a la bioinformatica

Permite genotipar 384 muestras para un único SNP.

Ventaja: mayor número de muestras.

Taqman

Page 127: Introduccion a la bioinformatica

Hom atgHom tgt

Het A(2nd,3rd pos)Hom tgt

Het B (1st postion)Hom tgt

Hom atg

2a. DHPLC results

Discriminates Heteroduplex fragments from homoduplexes

. Appropiated fragment melting t

. Specific ACN % according to size and GC content

NME1 promotor fragment

DHPLC

Page 128: Introduccion a la bioinformatica

SNPlexIllumina Sequenom

+ -Capacidad de genotipado

Amplificación

Minisecuenciación

Análisis Espectrómetro

384 muestras/plexes de 8

SNPs

Extensión

Amplificación

Hibridación sondas

fluorescentes

384 muestras/plexes 48 SNPs

Highthoughput

Page 129: Introduccion a la bioinformatica

Plataforma Illumina1536 tipos de Bead

Un solo tubo

P35’

P1

P25’

3’

P1

P2

P3

DNA Genómico

Captura en soporte sólido

Hibridación de oligos

Extensión alelo-específicay Ligación

PCR con primers Universales

Etiqueta

Etiqueta

Hibridación contra el arrayEscaneo

T/T C/CT/C

LSO

ASOs

Page 130: Introduccion a la bioinformatica

electroforesis

NNNNNNNNN

ZipCode1

NNNNNNNNN

ZipCode2

A1A1 A2A2A1A2

SNPlex

1. Activación de los oligonucleótidos

2. Ligación de los oligonucleótidos

3. Purificación de los oligonucleótidos ligados

4. Amplificación con primers universales

5. Captura del DNA biotinilado

6. Hibridación con sondas ZipChute

7. Elución de las sondas ZipChute

8. Electroforesis capilar para la detección de las sondas ZipChute

9. Análisis de los resultados con GeneMapper

Page 131: Introduccion a la bioinformatica

La tecnología de MassArray (Sequenom) se basa en la detección de los

productos de la reacción de discriminación alélica mediante MALDI-TOF.

El proceso de genotipado consta de dos reacciones.

• Amplificación de los fragmentos de ADN que contienen los SNPs de

interés mediante una PCR multiplex.

• Reacción de discriminación alélica, a través de una reacción de

minisecuenciación que bien terminará en la base polimórfica o bien

continuará por la región amplificada de cada SNP dependiendo de la

presencia o ausencia de uno de los dos alelos.

El uso de cebadores de minisecuenciación con distintas longitudes permite

identificar los picos de los productos de cada SNP. Las reacciones tienen lugar

en placas de 384 pocillos y los productos de dichas reacciones son

transferidos de forma automatizada mediante un robot a la superficie del chip

que será leído en el espectrómetro, donde se pueden procesar hasta 10 chips

simultáneamente..

Capacidad aproximada: 45.000 genotipos / semana

Sequenom

Page 132: Introduccion a la bioinformatica

NEXT SEQUENCING (NGS)

Plataforma Casa comercial Técnica DNA Longitud

lectura

454 Roche Síntesis Emulsión PCR 250-400pb

SOLID Applied

Biosystem

Ligación Emulsión PCR 50pb

Helicoscope Helicos Síntesis No

amplificación

25-25pb

GenomeAnalyzer Illumina Síntesis Bridge PCR 32-40 (100)pb

Plataforma Capacidad Precio Error Errores

454 300 Mb/día 60$/Mb <1% Si hay muchas

bases iguales no

sabe cuantas

SOLID

Lee todo 2 veces

Lee en los 2 sentidos

600 Mb/día 1$/Mb <0,1% Sustituciones

Helicoscope 1200Mb/día

90Gb

1$/Mb Alto 4% NC

GenomeAnalyzer

Lee en los 2 sentidos

400 Mb/día 2$/Mb 1%/Mb Sustituciones

Page 133: Introduccion a la bioinformatica

Plataforma Casa comercial Ventajas/Inconve

nientes

Ventajas/Inconveni

entes

454 Roche

SOLID Applied Biosystem Si diferencia SNPs Lee 2 veces

Lee en los 2 sentidos

Helicoscope Helicos DNA directamente

GenomeAnalyzer Illumina No diferencia SNPs Lee en los 2 sentidos

NEXT SEQUENCING (NGS)

Polomator, NanoPore, Visigen, Nabsys, Bionanometre, ZSGenetic

Page 134: Introduccion a la bioinformatica

Herramientas para la

búsqueda y selección

adecuada de SNPs

Page 135: Introduccion a la bioinformatica

Demasiada información

Page 136: Introduccion a la bioinformatica

http://www.ncbi.nlm.nih.gov/projects/SNP/

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=sn

p

http://genome.ucsc.edu/

http://www.hapmap.org/index.html.en

http://pga.mbt.washington.edu

http://snpeffect.vib.b

e/

http://pupasnp.bioinfo.ochoa.fib.e

s/

http://pupasview.bioinfo.ochoa.fib.e

s/

http://bioinformatica.cegen.upf.es/public/principal/index.p

hp

Herramientas SNPs

Page 137: Introduccion a la bioinformatica

http://www.ncbi.nlm.nih.gov

/

dbSNP

Entrez System

Herramientas SNPs NCBI

http://www.ncbi.nlm.nih.gov/projects/SNP/

Page 138: Introduccion a la bioinformatica

http://www.ncbi.nlm.nih.gov/projects/SNP/

dbSNPs

1998

Page 139: Introduccion a la bioinformatica

Contiene distintas fuentes de variación génica:

(1) SNPs

(2) short deletion and insertion polymorphisms (indels/DIPs),

(3) microsatellite markers or short tandem repeats (STRs)

(4) multinucleotide polymorphisms (MNPs)

(5) named variants

dbSNPs

ss o submitted SNP : Todo centro privado o público puede enviar información

acerca de SNP (frecuencia, población,...) en concreto y para eso a cada centro

se le asigna un código.

Varios ss pueden hacer referencia a un único SNP y por tanto la información

general relativa a éste se guarda en un rs o reference SNP.

Page 140: Introduccion a la bioinformatica

http://www.ncbi.nlm.nih.gov/SNP/

Page 141: Introduccion a la bioinformatica

http://www.ncbi.nlm.nih.gov/SNP/

Page 142: Introduccion a la bioinformatica

http://www.ncbi.nlm.nih.gov/SNP/

Page 143: Introduccion a la bioinformatica

http://www.ncbi.nlm.nih.gov/SNP/

Page 144: Introduccion a la bioinformatica

http://genome.ucsc.edu

/

http://genome.ucsc.edu/

Page 145: Introduccion a la bioinformatica

http://genome.ucsc.edu

/

Page 146: Introduccion a la bioinformatica

http://www.hapmap.org/index.html.en

Page 147: Introduccion a la bioinformatica

http://www.hapmap.org/index.html.en

Page 148: Introduccion a la bioinformatica

http://pga.mbt.washington.edu

Page 149: Introduccion a la bioinformatica

http://pga.mbt.washington.edu

Page 150: Introduccion a la bioinformatica

http://snpeffect.vib.b

e/

Page 151: Introduccion a la bioinformatica

Ontologías

Secuenciación de genomas Enormes cantidades de información biológica

Necesidad de extraer conocimiento de estos datos

Identificar funciones de genes

Papel fundamental de las Bio-ontologias para integraciónautomática de conocimiento.

151

Page 152: Introduccion a la bioinformatica

Motivación

Resultados de los métodos estadísticos y algoritmos de aprendizaje

automático (clustering, clasificación):

Largas listas de genes

PROBLEMA: dar interpretación biológica a estos conjuntos de

genes (asignarles una función/rol biológico)

SOLUCIÓN: Utilizar las anotaciones de bases de datos y recursos

bioinformáticos disponibles

Page 153: Introduccion a la bioinformatica

Anotación funcional

Para ayudar a la interpretación biológica de grandes listas de

genes:

◦ Consultar bases de datos de anotaciones como GO, KEGG,

FatiGo, PANTHER, DAVID, IPA

◦ Poner genes en contexto a partir de información extraída de

la literatura científica

◦ Identificar Pathways y Procesos enriquecidos

◦ Visualizar la red de interacciones y editarla.

◦ Estudiar si hay clases funcionales enriquecidas entre los

genes seleccionados

◦ Agrupar los genes por su similitud funcional

Page 154: Introduccion a la bioinformatica

¿Qué es GO?

GENE ONTOLOGY (GO) http://www.geneontology.org/

Ontología: un vocabulario estructurado y riguroso

Función: describir los roles de los genes y sus productos.

Utiliza: 3 ontologías independientes: Biological process, molecular function y cellular component.

Los términos (nodos) de la ontología tienen relaciones entre sí (es-un, es-parte-de) y forman un Grafo Dirigido Acíclico (DAG).

Page 155: Introduccion a la bioinformatica

Genes y términos GO

Términos más generales cuanto más cerca de la raiz

Los genes se anotan en el nivel más específico posible, pero

comparten los atributos de todos los nodos ancestros.

Page 156: Introduccion a la bioinformatica

Redes genéticasPoner en contexto nuestras listas de genes

PANTHER

DAVID

FATIGO

Page 157: Introduccion a la bioinformatica

KEGG

Page 158: Introduccion a la bioinformatica

Ingenuity Pathway Analysis ®(IPA)

Page 159: Introduccion a la bioinformatica

Database for Annotation, Visualization

and Integrated Discovery (DAVID)

Page 160: Introduccion a la bioinformatica

Protein ANalysis THrough Evolutionary

Relationships (PANTHER)

Page 161: Introduccion a la bioinformatica

FATIGO

Page 162: Introduccion a la bioinformatica

Caso práctico: estudio de arrays

de Cancer de Recto

Page 163: Introduccion a la bioinformatica
Page 164: Introduccion a la bioinformatica
Page 165: Introduccion a la bioinformatica
Page 166: Introduccion a la bioinformatica
Page 167: Introduccion a la bioinformatica
Page 168: Introduccion a la bioinformatica
Page 169: Introduccion a la bioinformatica

IL1 signalling

Accumulative evidence suggests that IL-1 plays critical roles in the development of malignant lesions. The most compelling evidence was

generated in IL-1 knockout (KO) mouse models. Voronov et al. have demonstrated the critical roles of IL-1 in tumor invasiveness and

angiogenesis. Mice solely deficient in IL-1 or IL-1 exhibit dramatically impaired tumor development and blood vessel growth.

Page 170: Introduccion a la bioinformatica

Cancer y

pirimidinas

Page 171: Introduccion a la bioinformatica
Page 172: Introduccion a la bioinformatica
Page 173: Introduccion a la bioinformatica

Caso práctico de ontologías

PANTHER

http://www.pantherdb.org/

Page 174: Introduccion a la bioinformatica

Interpretación lista de genes

Page 175: Introduccion a la bioinformatica

Interpretación lista de genes

Page 176: Introduccion a la bioinformatica

Interpretación lista de genes

Page 177: Introduccion a la bioinformatica

Interpretación lista de genes

Page 178: Introduccion a la bioinformatica

Pathways

Page 179: Introduccion a la bioinformatica

Pathways

Page 180: Introduccion a la bioinformatica

Biological process

Page 181: Introduccion a la bioinformatica

Molecular function

Page 182: Introduccion a la bioinformatica

Go cellular component