42

Introducción a EMBOSSsrvgen.upct.es/caldum_emboss_v6.pdf ·  · 2011-07-11Bibliotecas de funciones accesorias: manejo de cadenas de texto, búsqueda de patrones, enlace con bases

  • Upload
    lykhue

  • View
    217

  • Download
    1

Embed Size (px)

Citation preview

IntroducciónTaller

Introducción a EMBOSSTaller Caldum 2011

Izaskun Mallona

11 de julio de 2011

[email protected] Introducción a EMBOSS

IntroducciónTaller

1 IntroducciónDesarrolloLicencia GPLVentajasUsos

2 TallerManos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

[email protected] Introducción a EMBOSS

IntroducciónTaller

DesarrolloLicencia GPLVentajasUsos

Publicación

Rice et al. (2001) EMBOSS: the European molecular biology opensoftware suite. Trends in genetics.

Impacto

Más de 2000 citas.

[email protected] Introducción a EMBOSS

IntroducciónTaller

DesarrolloLicencia GPLVentajasUsos

Origen

1988: nace EGCG. EMBnet y otros proporcionan unaalternativa al software comercial. Se emplea en el SangerCentre.

Distribución a más de 10000 usuarios de EMBnet situados en150 plataformas de investigación. Problemas relacionados conla licencia académica de las bibliotecas de GCG.

Desarrollo de una nueva generación de software, esta vez GPL.Nace EMBOSS (European Molecular Biology Open SoftwareSuite).

Inclusión de elementos con otras licencias: Embassy.

[email protected] Introducción a EMBOSS

IntroducciónTaller

DesarrolloLicencia GPLVentajasUsos

Software libre

GPL (General Public License) es tipo de licencia copyleft quepermite la consulta del código fuente del software, sudistribución y que protege esta libertad de acceso ymodi�cación cuando se realizan cambios sobre el softwareoriginal.

Implicaciones: libre acceso y conocimiento exacto de quérealiza cada aplicación (pues se conoce el código fuentesubyacente).

[email protected] Introducción a EMBOSS

IntroducciónTaller

DesarrolloLicencia GPLVentajasUsos

Embassy: elementos no GPL

PHYLIP (�logenia); HMMER (análisis de secuencias mediantemodelos ocultos de Márkov); DOMAINATRIX, DOMALIGN,DOMSEARCH, SIGNATURE, STRUCTURE (estructuras deproteínas); VIENNA (estructuras de RNA).

[email protected] Introducción a EMBOSS

IntroducciónTaller

DesarrolloLicencia GPLVentajasUsos

Ventajas I

Diseño sólido que facilita la construcción de �ujos de datosrobustos.

Diversidad de herramientas de análisis.

Soporte de cualquier formato de secuencias y muchos dealineamientos y estructurales.

Biblioteca de funciones usuales de análisis de secuencias.

Bibliotecas de funciones accesorias: manejo de cadenas detexto, búsqueda de patrones, enlace con bases de datos.

Gratuito.

[email protected] Introducción a EMBOSS

IntroducciónTaller

DesarrolloLicencia GPLVentajasUsos

Ventajas II

Código abierto.

Funciona en prácticamente cualquier UNIX, así como enMicrosoft Windows y MacOS.

Las interfaces de todos los programas son semejantes:dominado uno, dominados todos.

Facilidad de integración en GUIs y �ujos de trabajo dada estaconsistencia.

No hay límites arbitrarios en el tamaño de los datos a manejar(sólo la que corresponde a la capacidad de cómputo de cadamáquina). Facilidad para gestionar la memoria(programadores).

[email protected] Introducción a EMBOSS

IntroducciónTaller

DesarrolloLicencia GPLVentajasUsos

Aplicaciones: generalidades

Alineamiento de secuencias.

Búsqueda rápida de pautas en bases de datos.

Identi�cación de motivos proteicos, incluyendo el análisis dedominios.

Análisis de ESTs.

Búsqueda de patrones en secuencias de nucleótidos (p.e. islasCpG).

Detección de repeticiones simples o especí�cas de especie.

Análisis del uso de codones.

Representación grá�ca de datos para publicación.

Y mucho más...

[email protected] Introducción a EMBOSS

IntroducciónTaller

DesarrolloLicencia GPLVentajasUsos

Aplicaciones: ejemplos I

infoseq. Impresión de información sobre secuencias.

water. Alineamiento local del Smith-Waterman.

pepstats. Estadísticas sobre proteínas.

showfeat. Muestra las características de una secuencia.

palindrome. Búsqueda de palíndromes.

[email protected] Introducción a EMBOSS

IntroducciónTaller

DesarrolloLicencia GPLVentajasUsos

Aplicaciones: ejemplos II

eprimer3. Diseño de cebadores.

extractseq. Extracción de regiones de una secuencia.

marscan. Búsqueda de zonas MAR/SAR en ácidos nucleicos.

tfscan. Búsqueda de zonas de unión a factores de transcripción.

patmatmotifs. Compara una secuencia proteica con la base dedatos de motivos PROSITE.

abiview. Lee �cheros ABI y recupera las secuencia.

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

Índice

1 IntroducciónDesarrolloLicencia GPLVentajasUsos

2 TallerManos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

La terminal y el texto plano

Trabajando con linux.

Se abre una terminal de texto enAplicaciones>Accesorios>Terminal (arriba a la izquierda).Nos movemos mediante las teclas desplazamiento del teclado.El manual se consulta escribiendo man clustalw; para salir seescribe q.La �echa hacia arriba recupera la última orden dada.El tabulador completa mágicamente las instrucciones trasintroducir sus primeros caracteres. Por ejemplo, si queremosescribir la orden embossversion basta con escribir embossv ydarle al tabulador.

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

La terminal y el texto plano II

Trabajando con �cheros de texto.

EMBOSS ni ninguna herramienta bioinformática lee �cheros.doc, .docx y semejantes.Las archivos con secuencias y en general cualquier �chero debeser texto plano.

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

Codi�cación y traducción

5′ aactgcagtacgtaacgtca 3′+3 5′ a.act.gca.gta.cgt.aac.gtc.a 3′+2 5′ aa.ctg.cag.tac.gta.acg.tca 3′+1 5′ aac.tgc.agt.acg.taa.cgt.ca 3′-1 3′ ttg.acg.tca.tgc.att.gca.gt 5′-2 3′ tt.gac.gtc.atg.cat.tgc.agt 5′-3 3′ t.tga.cgt.cat.gca.ttg.cag.t 5′

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

Interfaz de Emboss

Escriba wossname en un terminal Unix

Complete la orden escribiendo protein y accederá a todas lasaplicaciones que contengan la palabra protein en su descripción.

Finds programs by keywords in their one-line

documentation

Keyword to search for: protein

SEARCH FOR 'PROTEIN'

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

Incluyendo parámetros

No obstante la mayoría de programas de EMBOSS aceptanparámetros. En el caso de wossname se solicita la inclusión deparámetros escribiendo:

Escriba wossname -opt

Text to search for, or blank to list all programs:

protein

Use the expanded group names [N]:

Match all words in the search string [Y]: Y

Show keywords with program documentation [N]:

Output program details to a file [stdout]: my�le

Format the output for HTML [N]: Y

Output only the group names [N]:

Output an alphabetic list of programs [N]:

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

Índice

1 IntroducciónDesarrolloLicencia GPLVentajasUsos

2 TallerManos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

Lectura y escritura de secuencias

Escriba seqret

Reads and writes (returns) a sequence

Input (gapped) sequence(s): nudge.gb

Output sequence [seg_af203020s.fasta]: nudge.fasta

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

Resumen de características de una secuencia

Escriba infoseq embossSequences.fasta

Displays some simple information about sequences

# USA Name Accession Type Length GC Description

embl-id:XLRHODOP XLRHODOP L07770 N 1684 45.72 X.laevis rhodopsin

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

Traducción y búsqueda de ORFs

Escriba sixpack (también getorf, plotorf o transeq)

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

Índice

1 IntroducciónDesarrolloLicencia GPLVentajasUsos

2 TallerManos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

Concepto

Comparación de dos o más secuencias para detectar sus zonasde similitud.

La representación es mediante una matriz cuyas �lascorresponden a secuencias distintas y las columnas a loscaracteres comparables de dichas secuencias.

Pueden insertarse espacios para alinear zonas similaresaledañas.

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

Un ejemplo

HBA_HUMAN .MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF.DLSH.....GSAQVKGHGKKVADALT

HBB_HUMAN MVHLTPEEKSAVTALWGKV..NVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFS

HBA_HORSE .MVLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF.DLSH.....GSAQVKAHGKKVGDALT

HBB_HORSE .VQLSGEEKAAVLALWDKV..NEEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFG

MYG_PHYCA .MVLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASEDLKKHGVTVLTALG

LGB2_LUPLU MGALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKDLFSFLKGTSEVPQ..NNPELQAHAGKVFKLVY

HBA_HUMAN ...M..PNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR......

HBB_HUMAN ...L..KGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH......

HBA_HORSE ...L..PGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR......

HBB_HORSE ...L..KGTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH......

MYG_PHYCA ...H..EAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG

LGB2_LUPLU TGVVVTDATLKNLGSVHVSK.GVADAHFPVVKEAILKTIKEVVGAKWSEELNSAWTIAYDELAIVIKKEMNDAA...

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

Tipos

Atendiendo al número de secuencias: de pares o múltiples.

Atendiendo a la estrategia de búsqueda de similitud: globales olocales.

Alineamiento global: buscan el alineamiento óptimo entre dossecuencias teniendo en cuenta toda toda su longitud.Alineamiento local: busca una o más zonas de similitud entredos secuencias.

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

Local vs global

global1 FTFTALILLAVAV

global2 F..TAL.LLA.AV

local1 FTFTALILL.AVAV

local2 ..FTAL.LLAAV..

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

Programas de alineamiento de secuencias

Antes del alineamiento: ¾es lo que buscamos?

cons: Obtiene la secuencia consenso a partir de unalineamiento múltiple.di�seq: Compara dos secuencias casi idénticas para buscarpequeñas diferencias (p.e. SNPs).Gran variedad de programas de alineamiento de secuencias:water, needle, clustalw2, kalign, muscle, tco�ee, webPrank...Criterios para escoger uno u otro: ¾el alineamiento es local oglobal? ¾a pares o múltiple? ¾interesa obtener un árbol�logenético? ¾prima la velocidad o el poder de resolución?

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

Needle vs water y amigos

Escriba needle (las secuencias son nudge.gb y spam.gb)

Escriba water (las secuencias son nudge.gb y spam.gb)

Escriba clustalw (las secuencias están en embossSequences.fasta)

Escriba muscle -in embossSequences.fasta -out

embossSequences.muscle -clw

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

Extracción de secuencias desde alineamientos

Escriba extractalign (escoja uno de los alineamientos que haobtenido anteriormente)

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

Índice

1 IntroducciónDesarrolloLicencia GPLVentajasUsos

2 TallerManos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

De�nición de éxito en PCR

Especi�cidad

Sensibilidad

Rendimiento

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

Especi�cidad

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

Sensibilidad

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

Rendimiento

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

¾Cómo diseñar los cebadores de PCR?

Características del cebador

Longitud, contenido en G+C, nucleótido en el 3'...

Características de la secuencia

Longitud, contenido en G+C, presencia de repeticiones...

Características del medio de reacción

Concentración salina, de cationes Mg2+, de enzima...

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

Primer3: características de los cebadores

Cebadores: temperatura de disociación, tamaño, contenido GCy tendencia a formar dímeros de cebadores.

Producto: longitud y estructura.

Otros.

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

Uso

Con los parámetros estándar:

Escriba eprimer3 embossSequences.fasta cebadores.eprimer3

Con algunos parámetros especí�cos:

Escriba eprimer3 embossSequences.fasta cebadores.eprimer3

-osize 22 -numreturn 10 -dnaconc 55 -saltconc 65

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

Índice

1 IntroducciónDesarrolloLicencia GPLVentajasUsos

2 TallerManos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

Palindromes

Escriba palindrome embossSequences.fasta

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

Repeticiones en tándem

Escriba equicktandem tandem.fasta

[email protected] Introducción a EMBOSS

IntroducciónTaller

Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas

Pautas generales

Escriba fuzznuc embossSequences.fasta

[email protected] Introducción a EMBOSS

IntroducciónTaller

Forja

http://emboss.sourceforge.net/

[email protected] Introducción a EMBOSS