29
Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

Embed Size (px)

DESCRIPTION

Bioinformática ::Identificar genes en una Interfaz gráfica vía web para la comparación de genomas. Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta. ÍNDICE. Introducción Estado del Arte Objetivos Estrategias Dificultades Demo Conclusiones. - PowerPoint PPT Presentation

Citation preview

Page 1: Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

Ivan Babitsch SolerDirigido: Jordi Gonzàlez Sabaté

Co-Dirigido: Mario Huerta

Page 2: Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

1. Introducción2. Estado del Arte3. Objetivos4. Estrategias5. Dificultades6. Demo7. Conclusiones

Page 3: Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

Tener identificados los genes del ADN y las proteínas que codifican nos ofrece la información necesaria para el estudio del metabolismo de una célula, y por tanto del organismo en sí al que pertenece.

El genoma de un organismo contiene toda la información genética que define a ese organismo.

Page 4: Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

Grupos clasificación organismos vivos: Arquea, Bacteria y Eucariota.

Page 5: Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

Mediante la comparación de genomas se busca la detección de los rasgos(genes) comunes que se han mantenido en los organismos vivos, herencia de un ancestro común que hayan compartido a lo largo de su historia evolutiva.

Page 6: Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

Una de las estructuras de datos que se utilizan para la comparación de genomas son:◦ MUMs (Maximal Unique Matching, secuencia

correlativa de bases máxima y única encontrada en ambos genomas)

◦ SuperMUMs (agrupación de MUMs mediante Approximate String Matching)...taggcATGGCACAATAGaacCGATAAGCTACActttaggcATATGCACAATAG

a..

..gtataATGGCACAATAGgtaCGATAAGCTACAtaacctgGATAACACGGTATAt..

Page 7: Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

Una de las estructuras de datos que se utilizan para la comparación de genomas son:◦ MUMs (Maximal Unique Matching, secuencia

correlativa de bases máxima y única encontrada en ambos genomas)

◦ SuperMUMs (agrupación de MUMs mediante Approximate String Matching)...taggcATGGCACAATAGaacCGATAAGCTACActttaggcATATGCACAATAG

a..

..gtataATGGCACAATAGgtaCGATAAGCTACAtaacctgGATAACACGGTATAt..

MUM DirectoMUM Directo MUM DirectoMUM Directo MUM InversoMUM Inverso

Page 8: Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

Una de las estructuras de datos que se utilizan para la comparación de genomas son:◦ MUMs (Maximal Unique Matching, secuencia

correlativa de bases máxima y única encontrada en ambos genomas)

◦ SuperMUMs (agrupación de MUMs mediante Approximate String Matching)...taggcATGGCACAATAGaacCGATAAGCTACActttaggcATATGCACAATAG

a..

..gtataATGGCACAATAGgtaCGATAAGCTACAtaacctgGATAACACGGTATAt..

MUM DirectoMUM Directo MUM DirectoMUM Directo MUM InversoMUM Inverso

SuperMUM DirectoSuperMUM Directo

Page 9: Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

MALGEN (2003)

Page 10: Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

Complejidad en la comparación de genomas: Recopilación y ensamblaje de la información

disponible de los genomas secuenciados. Altísimo coste computacional en tiempo y

memoria para su proceso. Visualización interactiva del gran volumen

de datos obtenidos.

Page 11: Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

Comparación genomas, subdivisión del problema.

Page 12: Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

Subdivisión del problemaFTP NCBI

Page 13: Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

Subdivisión del problemaFTP NCBI

Page 14: Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

Subdivisión del problemaFTP NCBI

Page 15: Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

Subdivisión del problemaFTP NCBI

Page 16: Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

Subdivisión del problemaFTP NCBI

Page 17: Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

Subdivisión del problemaFTP NCBI

Servidor Web

Page 18: Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

Subdivisión del problemaFTP NCBI

Servidor Web

Pre-Proceso

Page 19: Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

Subdivisión del problemaFTP NCBI

Servidor Web

Pre-Proceso

Exploración de datos

Page 20: Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

Subdivisión del problemaFTP NCBI

Servidor Web

Pre-Proceso

Exploración de datos

Page 21: Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

Subdivisión del problemaFTP NCBI

Servidor Web

Pre-Proceso

Exploración de datos

Page 22: Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

◦ Crear una interfaz web que mediante el uso de MUMs y SuperMUMs permita comparar genomas completos.

◦ Exploración flexible potenciando usabilidad.◦ Múltiples genomas.◦ Representar los genes y permitir su interacción.◦ Crear aplicación de pre-proceso para recuperar,

procesar y ensamblar la información relativa a los genes.

◦ Ajuste aplicaciones de pre-proceso para poder trabajar con genomas grandes.

◦ Permitir explorar genomas grandes.

Page 23: Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

Contexto de la aplicación

Mummy-Tree Mummy

Page 24: Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

Uso de las últimas herramientas y soluciones disponibles (Flex Builder, PureMVC, Biojava,…).

Análisis de una sesión de trabajo de un investigador a fin de maximizar su usabilidad.

Potenciar el pre-computo de datos a fin de aligerar el proceso de exploración.

Múltiples técnicas de optimización de la representación visual.

Modo automático de selección de datos a representar ajustado a la capacidad de computo de la máquina cliente.

Page 25: Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

Límites del Flash Player:◦ Limites de computo a 15-60 segundos. ◦ Máximo de 16.000 símbolos.◦ Memoria máxima y bug.

Filtro y ordenación de datos:◦ Pre-computo.◦ Búsqueda dicotómica.

Transiciones de exploración:◦ Resolución interna / suavizado.

Modo Auto. Ensamblaje de genes. Computo de Eucariotas utilizados como datos

de estudio.

Page 26: Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

◦ Local Bacterias◦ Local Eucariota

◦ Mummy-Tree◦ RevResearch

Page 27: Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

Objetivos marcados. Cualquier etapa del proceso de la

comparación de genomas es no trivial.◦ Simplificar al investigador final la comparación de

genomas, accesible desde una interfaz web es un logro relevante.

Se estima que la versión actual resulta útil hasta Eucariotas de tamaño medio.

Page 28: Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

Mejoras◦ Tiempos de carga y límites de memoria

Carga de datos relegada una vez establecido orden y tipo de genomas a comparar.

Serialización de datos en formato nativo. Paginación de datos.

Page 29: Ivan Babitsch Soler Dirigido: Jordi Gonzàlez Sabaté Co-Dirigido: Mario Huerta

http://revolutionresearch.uab.es : web server for the comparison of all known genomes.

Mario Huerta . Suffix Tree Construction with slide nodes . technical report LSI-02-63-R Universitat Politècnica de Catalunya (2002).

Mario Huerta , Xavier Messeguer . Efficient Space and Time multicomparision of Genomes. Technical report LSI-02-64-R. Dep. Llenguatge i Sistemes Informàtics, Universitat Politècnica de Catalunya.(2002).

Domènec Farré, Romà Roset, Mario Huerta, José E. Adsuara, Llorenç Roselló, M. Mar Albà, Xavier Messeguer. Identification of patterns in biological sequences at the ALGGEN server. PROMO and MALGEN. Nucleic Acids Research 31(13): 3651-3653 (2003).