Upload
lorita-viernes
View
130
Download
2
Embed Size (px)
Citation preview
GenBank
International Nucleotide Sequence Database Collaboration
GenBank
¿Qué es Genbank?
GenBank es la base de datos de secuencias genéticas del NIH. Contiene todas las secuencias de ADN de acceso
público y, además, incluye anotaciones. Las secuencias están distribuídas en 3 BD: Nucleotide, EST y GSS
http://www.ncbi.nlm.nih.gov/genbank/
GenBank
NAR (Database Issue)
GenBankCada dos meses sale una
nueva versión de GenBank.
La versión 200 (15 de Febero de 2014)
contiene más de 171 millones de secuencias
Es posible descargar la base de datos completa
desde el sitio ftp del NCBI.
Más o menos cada 18 meses se duplica el número de secuencias de GenBank
ftp://ftp.ncbi.nih.gov/genbank
El crecimiento de GenBank
GenBank
También crece el número de usuarios de GenBank
GenBank
¿Cómo envío una secuencia a GenBank?
Hay varias formas de enviar secuencias a GenBank
GenBank
¿Cómo accedo a una secuencia de GenBank?
Hay varias formas de acceder a las secuencias de nucleótidos almacenadas en Gen Bank: (1) a través de
la base de datos Nucleotide, (2) a través de la herramienta BLAST o (3) a través de programas
específicos desarrollados por el NCBI.
GenBank
Acceso directo: La base de datos Nucleotide
Puedo acceder a las secuencias almacenadas en GenBank a través de la base de datos Nucleotide.
http://www.ncbi.nlm.nih.gov/nucleotide/
GenBankPuedo acceder a las secuencias almacenadas en GenBank a través de la base de datos EST.
Acceso directo: La base de datos EST
http://www.ncbi.nlm.nih.gov/nucest/
GenBankPuedo acceder a las secuencias almacenadas en GenBank a través de la base de datos GSS.
Acceso directo: La base de datos GSS
http://www.ncbi.nlm.nih.gov/nucgss/
GenBank
Acceso indirecto: desde la herramienta BLAST
http://blast.ncbi.nlm.nih.gov/Blast.cgi
GenBank
Resultados de una búsqueda en BLAST
Pincha aquí para acceder al registro de
GenBank correspondiente a una de las secuencias que ha encontrado BLAST
Acceso indirecto desde la página de resultados
GenBank
Pincha aquí para acceder al fichero de GenBank correspondiente al gen
que codifica esta proteína
Pincha aquí para
seleccionar GenBank
Acceso indirecto: desde un registro de la BD UniProtKB
GenBank
Cada secuencia pertenece a una de las 20 divisiones de GenBank
(12)
(8)
GenBank
Puedes seleccionar otras bases de datos
Introduce aquí el término de la búsqueda
Inicia la búsqueda
Otras bases de datos
Documentación sobre el NCBI
Información sobre el NCBI
http://www.ncbi.nlm.nih.gov/nucleotide
GenBank
Cómo hacer una búsqueda sencilla
Para buscar secuencias en Gen Bank se puede introducir el nombre de una proteína, de un gen o del autor que envió la secuencia.
También se puede introducir directamente el número de acceso. Si se ponen términos compuestos, entre comillas.
GenBank
Aquí se introduce el término que queremos buscar: colicin
Inicio la búsqueda
NUCLEOTIDE: Búsqueda rápida
GenBank
Resultados de la búsqueda
35187 secuencias encontradas
Esta búsqueda no ha sido muy productiva
Hay que definir mejor los términos de la búsqueda
para que me sea útil
También ha encontrado secuencias EST y GSS
GenBank
Búsqueda más detallada con un término compuesto
Introduzco el término: “colicin A”
Inicio de la búsqueda
Los términos compuestos se ponen entre comillas
GenBank
Se pueden imponer límites a la búsqueda
Puedes filtrar los resultados de la búsqueda
Resultados de la búsqueda clasificados por organismo
Selecciona las secuencias de Escherichia coli
63 secuencias encontradas
Filtrado de los resultados de la búsqueda
GenBank
También se pueden poner límites a la búsqueda
GenBank
Búsqueda con varios términos usando operadores lógicos
Puedo introducir más de un término y usar
los operadores lógicos (AND, OR, NOT)
Inicio de la búsqueda
GenBank
Pincha aquí para cambiar el formato de presentación de los resultados de
la búsqueda
Pincha aquí para acceder a la secuencia
Selecciona la secuencia que quieres ver
GenBank
Se puede cambiar el formato de presentación de los resultados
GenBank
Registro de GenBank con el resultado de la búsqueda
Enlaces a otras bases de datos
GenBank
Un registro de la base de datos GenBank
Los registros almacenados en la base de datos GenBank constan de varios apartados:
1.- Encabezamiento: información general sobre el registro (identificadores, número de acceso, descripción del gen y del organismo de donde procede)
2.- Referencias bibliográficas
3.- Tabla de características (Features table)
4.- Secuencia de nucleótidos (en código de una letra)
GenBank
Encabezamiento y referencias bibliográficas
Encabezamiento
Referencias bibliográficas
La última referencia (en este caso es la 2) incluye detalles sobre quién ha enviado la secuencia a la base de datos
GenBank
Tabla de características (Features table)
Se detalla la ubicación exacta (location) de
cada tipo de característica y se añaden uno o más
calificadores (qualifiers). También
hay enlaces a otras BD.
Tipos de característica
Tabla que reúne las características
de la secuencia
GenBank
La secuencia de nucleótidos
Secuencia de nucleótidos. Cada línea contiene 60 nucleótidos
agrupados en 6 bloques de 10.
Símbolo que indica que se ha llegado al final
del registro
GenBank
Otras formas de ver la secuencia
Pincha aquí para obtener la
secuencia en formato FASTA
Pincha aquí para ver la secuencia
mediante un gráfico interactivo
El formato FASTA es aceptado por la mayoría de los programas de
análisis de secuencias
GenBank
La secuencia de nucleótidos en formato FASTA
Es posible que te interese guardar esta secuencia en tu ordenador. Puedes hacer
corta y pega y guardarla en un fichero Word.
Línea de definición: En la primera línea se incluye una escueta definición de la secuencia. Siempre empieza por el símbolo >
Secuencia ininterrumpida de
nucleótidos (70 por cada línea)
GenBank
Gráfico interactivo de la secuencia
Zoom
Región vista en pantalla
Hebra directa (5’3’) y proteína que codifica. La hebra
complementaria también puede codificar proteínas.
Hebra directa 5’3’ (forward)
Hebra complementaria (complement)
GenBank
Forward, reverse, complement and reverse-complement
5’-gaggagaagtctgccgttactgccctgtgg-3’
Forward: Cualquier secuencia escrita en sentido (5’ 3’)
3’-ggtgtcccgtcattgccgtctgaagaggag-5’
Reverse: la secuencia anterior escrita en sentido (3’ 5’)
3’-ctcctcttcagacggcaatgacgggacacc-5’
Complement: la secuencia complementaria escrita en sentido (3’ 5’)
5’-gaggagaagtctgccgttactgccctgtgg-3’
Reverse-complement: la secuencia complementaria escrita en sentido (5’ 3’)
5’-ccacagggcagtaacggcagacttctcctc-3’5’-gaggagaagtctgccgttactgccctgtgg-3’
GenBank
¿Qué sentido tiene todo esto?
La hebra que sirve de molde para la transcripción es la hebra antisentido. También se llama hebra
no codificante, hebra (-) o hebra de Watson.
La hebra complementaria, que no sirve de molde para la transcripción, es la hebra con sentido. Su secuencia es igual a la del transcrito RNA (cambiando U por T). También se llama hebra codificante, hebra (+) o hebra de Crick.
GenBank
Pinchando en cada característica
(feature), la puedes ver con todo detalle
Se puede ver cada característica por separado
GenBank
Vista detallada de una característica (CDS)
Pincha aquí para obtener
la región seleccionada en el formato de GenBank
Pincha aquí para obtener la región seleccionada en formato FASTA
Pincha aquí para ver los detalles
relacionados con la característica
seleccionada
Pincha aquí para
seleccionar otra
característica
Pincha aquí para saltar de
una característica
a otra
Se resalta la región de la secuencia de nucleótidos que corresponde a la CDS (empieza por ATG y termina en TAA)
Enlaces a otras BD que ofrecen
información relacionada
GenBank
Cómo guardar una copia del registro en tu ordenador
GenBank
Cómo guardar una copia del registro en tu ordenador
Pincha aquí para seleccionar el
formato en que quieres
almacenar el registro
Pincha aquí para hacerte con una
copia del registro
Seleccionar la parte del registro
que te interesa
Pincha aquí para crear un fichero con tu selección
GenBank
Bibliografía
Capítulo 3: Using nucleotide sequences databases
Capítulo 2: How most people use Bioinformatics