Upload
lykhue
View
217
Download
1
Embed Size (px)
Citation preview
IntroducciónTaller
Introducción a EMBOSSTaller Caldum 2011
Izaskun Mallona
11 de julio de 2011
[email protected] Introducción a EMBOSS
IntroducciónTaller
1 IntroducciónDesarrolloLicencia GPLVentajasUsos
2 TallerManos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
[email protected] Introducción a EMBOSS
IntroducciónTaller
DesarrolloLicencia GPLVentajasUsos
Publicación
Rice et al. (2001) EMBOSS: the European molecular biology opensoftware suite. Trends in genetics.
Impacto
Más de 2000 citas.
[email protected] Introducción a EMBOSS
IntroducciónTaller
DesarrolloLicencia GPLVentajasUsos
Origen
1988: nace EGCG. EMBnet y otros proporcionan unaalternativa al software comercial. Se emplea en el SangerCentre.
Distribución a más de 10000 usuarios de EMBnet situados en150 plataformas de investigación. Problemas relacionados conla licencia académica de las bibliotecas de GCG.
Desarrollo de una nueva generación de software, esta vez GPL.Nace EMBOSS (European Molecular Biology Open SoftwareSuite).
Inclusión de elementos con otras licencias: Embassy.
[email protected] Introducción a EMBOSS
IntroducciónTaller
DesarrolloLicencia GPLVentajasUsos
Software libre
GPL (General Public License) es tipo de licencia copyleft quepermite la consulta del código fuente del software, sudistribución y que protege esta libertad de acceso ymodi�cación cuando se realizan cambios sobre el softwareoriginal.
Implicaciones: libre acceso y conocimiento exacto de quérealiza cada aplicación (pues se conoce el código fuentesubyacente).
[email protected] Introducción a EMBOSS
IntroducciónTaller
DesarrolloLicencia GPLVentajasUsos
Embassy: elementos no GPL
PHYLIP (�logenia); HMMER (análisis de secuencias mediantemodelos ocultos de Márkov); DOMAINATRIX, DOMALIGN,DOMSEARCH, SIGNATURE, STRUCTURE (estructuras deproteínas); VIENNA (estructuras de RNA).
[email protected] Introducción a EMBOSS
IntroducciónTaller
DesarrolloLicencia GPLVentajasUsos
Ventajas I
Diseño sólido que facilita la construcción de �ujos de datosrobustos.
Diversidad de herramientas de análisis.
Soporte de cualquier formato de secuencias y muchos dealineamientos y estructurales.
Biblioteca de funciones usuales de análisis de secuencias.
Bibliotecas de funciones accesorias: manejo de cadenas detexto, búsqueda de patrones, enlace con bases de datos.
Gratuito.
[email protected] Introducción a EMBOSS
IntroducciónTaller
DesarrolloLicencia GPLVentajasUsos
Ventajas II
Código abierto.
Funciona en prácticamente cualquier UNIX, así como enMicrosoft Windows y MacOS.
Las interfaces de todos los programas son semejantes:dominado uno, dominados todos.
Facilidad de integración en GUIs y �ujos de trabajo dada estaconsistencia.
No hay límites arbitrarios en el tamaño de los datos a manejar(sólo la que corresponde a la capacidad de cómputo de cadamáquina). Facilidad para gestionar la memoria(programadores).
[email protected] Introducción a EMBOSS
IntroducciónTaller
DesarrolloLicencia GPLVentajasUsos
Aplicaciones: generalidades
Alineamiento de secuencias.
Búsqueda rápida de pautas en bases de datos.
Identi�cación de motivos proteicos, incluyendo el análisis dedominios.
Análisis de ESTs.
Búsqueda de patrones en secuencias de nucleótidos (p.e. islasCpG).
Detección de repeticiones simples o especí�cas de especie.
Análisis del uso de codones.
Representación grá�ca de datos para publicación.
Y mucho más...
[email protected] Introducción a EMBOSS
IntroducciónTaller
DesarrolloLicencia GPLVentajasUsos
Aplicaciones: ejemplos I
infoseq. Impresión de información sobre secuencias.
water. Alineamiento local del Smith-Waterman.
pepstats. Estadísticas sobre proteínas.
showfeat. Muestra las características de una secuencia.
palindrome. Búsqueda de palíndromes.
[email protected] Introducción a EMBOSS
IntroducciónTaller
DesarrolloLicencia GPLVentajasUsos
Aplicaciones: ejemplos II
eprimer3. Diseño de cebadores.
extractseq. Extracción de regiones de una secuencia.
marscan. Búsqueda de zonas MAR/SAR en ácidos nucleicos.
tfscan. Búsqueda de zonas de unión a factores de transcripción.
patmatmotifs. Compara una secuencia proteica con la base dedatos de motivos PROSITE.
abiview. Lee �cheros ABI y recupera las secuencia.
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
Índice
1 IntroducciónDesarrolloLicencia GPLVentajasUsos
2 TallerManos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
La terminal y el texto plano
Trabajando con linux.
Se abre una terminal de texto enAplicaciones>Accesorios>Terminal (arriba a la izquierda).Nos movemos mediante las teclas desplazamiento del teclado.El manual se consulta escribiendo man clustalw; para salir seescribe q.La �echa hacia arriba recupera la última orden dada.El tabulador completa mágicamente las instrucciones trasintroducir sus primeros caracteres. Por ejemplo, si queremosescribir la orden embossversion basta con escribir embossv ydarle al tabulador.
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
La terminal y el texto plano II
Trabajando con �cheros de texto.
EMBOSS ni ninguna herramienta bioinformática lee �cheros.doc, .docx y semejantes.Las archivos con secuencias y en general cualquier �chero debeser texto plano.
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
Codi�cación y traducción
5′ aactgcagtacgtaacgtca 3′+3 5′ a.act.gca.gta.cgt.aac.gtc.a 3′+2 5′ aa.ctg.cag.tac.gta.acg.tca 3′+1 5′ aac.tgc.agt.acg.taa.cgt.ca 3′-1 3′ ttg.acg.tca.tgc.att.gca.gt 5′-2 3′ tt.gac.gtc.atg.cat.tgc.agt 5′-3 3′ t.tga.cgt.cat.gca.ttg.cag.t 5′
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
Interfaz de Emboss
Escriba wossname en un terminal Unix
Complete la orden escribiendo protein y accederá a todas lasaplicaciones que contengan la palabra protein en su descripción.
Finds programs by keywords in their one-line
documentation
Keyword to search for: protein
SEARCH FOR 'PROTEIN'
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
Incluyendo parámetros
No obstante la mayoría de programas de EMBOSS aceptanparámetros. En el caso de wossname se solicita la inclusión deparámetros escribiendo:
Escriba wossname -opt
Text to search for, or blank to list all programs:
protein
Use the expanded group names [N]:
Match all words in the search string [Y]: Y
Show keywords with program documentation [N]:
Output program details to a file [stdout]: my�le
Format the output for HTML [N]: Y
Output only the group names [N]:
Output an alphabetic list of programs [N]:
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
Índice
1 IntroducciónDesarrolloLicencia GPLVentajasUsos
2 TallerManos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
Lectura y escritura de secuencias
Escriba seqret
Reads and writes (returns) a sequence
Input (gapped) sequence(s): nudge.gb
Output sequence [seg_af203020s.fasta]: nudge.fasta
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
Resumen de características de una secuencia
Escriba infoseq embossSequences.fasta
Displays some simple information about sequences
# USA Name Accession Type Length GC Description
embl-id:XLRHODOP XLRHODOP L07770 N 1684 45.72 X.laevis rhodopsin
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
Traducción y búsqueda de ORFs
Escriba sixpack (también getorf, plotorf o transeq)
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
Índice
1 IntroducciónDesarrolloLicencia GPLVentajasUsos
2 TallerManos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
Concepto
Comparación de dos o más secuencias para detectar sus zonasde similitud.
La representación es mediante una matriz cuyas �lascorresponden a secuencias distintas y las columnas a loscaracteres comparables de dichas secuencias.
Pueden insertarse espacios para alinear zonas similaresaledañas.
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
Un ejemplo
HBA_HUMAN .MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF.DLSH.....GSAQVKGHGKKVADALT
HBB_HUMAN MVHLTPEEKSAVTALWGKV..NVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFS
HBA_HORSE .MVLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHF.DLSH.....GSAQVKAHGKKVGDALT
HBB_HORSE .VQLSGEEKAAVLALWDKV..NEEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKVKAHGKKVLHSFG
MYG_PHYCA .MVLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASEDLKKHGVTVLTALG
LGB2_LUPLU MGALTESQAALVKSSWEEFNANIPKHTHRFFILVLEIAPAAKDLFSFLKGTSEVPQ..NNPELQAHAGKVFKLVY
HBA_HUMAN ...M..PNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR......
HBB_HUMAN ...L..KGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH......
HBA_HORSE ...L..PGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPAVHASLDKFLSSVSTVLTSKYR......
HBB_HORSE ...L..KGTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGKDFTPELQASYQKVVAGVANALAHKYH......
MYG_PHYCA ...H..EAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG
LGB2_LUPLU TGVVVTDATLKNLGSVHVSK.GVADAHFPVVKEAILKTIKEVVGAKWSEELNSAWTIAYDELAIVIKKEMNDAA...
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
Tipos
Atendiendo al número de secuencias: de pares o múltiples.
Atendiendo a la estrategia de búsqueda de similitud: globales olocales.
Alineamiento global: buscan el alineamiento óptimo entre dossecuencias teniendo en cuenta toda toda su longitud.Alineamiento local: busca una o más zonas de similitud entredos secuencias.
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
Local vs global
global1 FTFTALILLAVAV
global2 F..TAL.LLA.AV
local1 FTFTALILL.AVAV
local2 ..FTAL.LLAAV..
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
Programas de alineamiento de secuencias
Antes del alineamiento: ¾es lo que buscamos?
cons: Obtiene la secuencia consenso a partir de unalineamiento múltiple.di�seq: Compara dos secuencias casi idénticas para buscarpequeñas diferencias (p.e. SNPs).Gran variedad de programas de alineamiento de secuencias:water, needle, clustalw2, kalign, muscle, tco�ee, webPrank...Criterios para escoger uno u otro: ¾el alineamiento es local oglobal? ¾a pares o múltiple? ¾interesa obtener un árbol�logenético? ¾prima la velocidad o el poder de resolución?
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
Needle vs water y amigos
Escriba needle (las secuencias son nudge.gb y spam.gb)
Escriba water (las secuencias son nudge.gb y spam.gb)
Escriba clustalw (las secuencias están en embossSequences.fasta)
Escriba muscle -in embossSequences.fasta -out
embossSequences.muscle -clw
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
Extracción de secuencias desde alineamientos
Escriba extractalign (escoja uno de los alineamientos que haobtenido anteriormente)
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
Índice
1 IntroducciónDesarrolloLicencia GPLVentajasUsos
2 TallerManos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
De�nición de éxito en PCR
Especi�cidad
Sensibilidad
Rendimiento
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
Especi�cidad
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
Sensibilidad
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
Rendimiento
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
¾Cómo diseñar los cebadores de PCR?
Características del cebador
Longitud, contenido en G+C, nucleótido en el 3'...
Características de la secuencia
Longitud, contenido en G+C, presencia de repeticiones...
Características del medio de reacción
Concentración salina, de cationes Mg2+, de enzima...
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
Primer3: características de los cebadores
Cebadores: temperatura de disociación, tamaño, contenido GCy tendencia a formar dímeros de cebadores.
Producto: longitud y estructura.
Otros.
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
Uso
Con los parámetros estándar:
Escriba eprimer3 embossSequences.fasta cebadores.eprimer3
Con algunos parámetros especí�cos:
Escriba eprimer3 embossSequences.fasta cebadores.eprimer3
-osize 22 -numreturn 10 -dnaconc 55 -saltconc 65
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
Índice
1 IntroducciónDesarrolloLicencia GPLVentajasUsos
2 TallerManos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
Palindromes
Escriba palindrome embossSequences.fasta
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
Repeticiones en tándem
Escriba equicktandem tandem.fasta
[email protected] Introducción a EMBOSS
IntroducciónTaller
Manos a la obraConversión ente formatosAlineamiento de secuenciasPrimer3Búsqueda de pautas
Pautas generales
Escriba fuzznuc embossSequences.fasta
[email protected] Introducción a EMBOSS