Tópicos en Bioinformática Elmer A. Fernández (PhD, Bioing) CONICET-UCC elmer.fernandez@ucc.edu.ar...

Preview:

Citation preview

Tópicos en Bioinformática

Elmer A. Fernández (PhD, Bioing)CONICET-UCCelmer.fernandez@ucc.edu.arhttp://www.uccor.edu.ar/modelo.php?param=3.8.5.15

Fac. de Ingeniería – UNC - 2010

Pregunta?

Qué es Bioinformática

Bioinformatics is the application of information technology to the field of molecular biology. Bioinformatics entails the creation and advancement of

databases, algorithms, computational and statistical techniques, and theory to solve formal and practical problems arising from the management and

analysis of biological data. …. It is the name given to these mathematical and computing approaches used to glean understanding of biological processes. Common activities in Bioinformatics include mapping and analyzing DNA and protein sequences, aligning different DNA and protein sequences to compare

them and creating and viewing 3-D models of protein structures.

Bioinformatics is that branch of life science,which deals with the study of application of information technology to the field of molecular biology.The primary goal of bioinformatics is to increase our understanding of biological processes. What sets it apart from other approaches, however, is its focus on developing and applying computationally intensive techniques (e.g., data mining, and machine learning algorithms) to achieve this goal. Major research efforts in the field include sequence alignment, gene finding, genome assembly, protein structure alignment, protein structure prediction, prediction of gene expression and protein-protein interactions, and the modeling of evolution.

Qué es para mi?

Biología

Medicina

Agronomia BiologíaMolecular

….

….Informática

Bases de datos

Sistemas de Información

EstadísticaApnredizaje Automático

Tecnología

Modelos

Equipamiento

…..

Bioinformático

Bioingeniero

Un mejor modelo

Biología

Medicina

Agronomia BiologíaMolecular

….

….

Informática

Bases de datos

Sistemas de Información

EstadísticaApnredizaje Automático

Tecnología

Modelos

Equipamiento

…..

Con qué objetivo?

Bioinformático-Bioingeniero

No son antagónicos sino complementarios

Capacidades diferenciadasDeben actuar como nexo entre las

necesidades en el ámbito de la Biología y las tecnologías asistentes.

Porqué surge la bioinformática

Las planillas de MS Excel ya no alcanzan. Globalización de la información y de los recursos. Necesidades de cálculo intensivo Necesidades de modelado intensivo Contrastar por modelos lo observado en la

realidad Tecnologías de alto rendimiento, un nuevo

paradigma ….

Resumiendo…

reporte2mCE Dato

datito

Datum

DataPlanilla excel

Calculo

DATO

Variables

Atributos

Archivocongreso

presentación

Imagen

Perfil

Expresión génica

Datos

Base de datos

Servidor

Laboratorio

Data

ATRIBUTOS

Proteinas

DATOS

DATOS

DATITITO

Dato

Cuál es el rol fundamental del BioIn…loquesea

Instaurar un lenguaje común entre el mundo de la biología y el de la tecnología.

Ejemplos IA-EstadísticaProyecto Bélgica.Diseño stentUS-Latin American Cancer Research

Network

Cómo es el entorno de trabajo

MultidisciplinarBiólogos

Médicos

Bioingenieros

Estadísticos

Físicos

Matemáticos

Técnicos

Informáticos

Etc.

Algunos títulos

LIMSChemometricsBiometricsGenomicsProteomicsTechnologyBDData Mining

LIMS

Laboratory Information Management Systems Administrar la información Biotecnológica Proveer herramientas de comunicación Proveer herramientas de análisis y búsqueda Conectar los distintos sistemas y equipos. Proveer capacidades de seguimiento Importante para las facilities ¿Capacidades?

Chemometrics

Modelado molecularInteracción de moléculas con el medioModelos molecularesLIMSNIRDesarrollo de Drogas

Biometrics

Diseño de experimentosModelos estadísticos en biologíaInferenciaTécnicas estadísticas para resumen y

visualización de datos.¿Capacidades?

Genomics

Secuenciamiento (Biosidus)Microarreglos de ADN (Biosidus, INTA,

Leloir, UBA) (ETC international, Agilent)OntologíasCurado de bases de datosTextMiningCáncer, etc..¿Capacidades?

Tecnologías asociadas:Microarreglos de ADN

Proteomics

Folding, predicción estructural Secuenciamiento Interacción con el agua Modelado 3D (Homologías) Ontologías Curado de bases de datos Vías Metabólicas M/Z Geles bidimensionales ¿Capacidades?

Tecnologías asociadas:MALDI-TOF

LIMS?

Tecnologías asociadas:Expresión diferencial de proteínas

Tecnologías asociadas:Modelado de moléculas

• Modelado

Bases de Datos

No existen en Argentina bases de datos preparadas para ámbitos de biología

Las bases de datos solo están pensadas con el propósito de almacenar

No hay consenso en Argentina Flexibilidad insuficiente (sharing) Estructuras inadecuadas (Data Mining) Curado ¿Capacidades?

Data Mining

Knowledge Discovery in Databases es el proceso no trivial de identificación de patrones sobre los datos. Estos deberán resultar ser válidos, novedosos, potencialmente útiles y entendibles.

Data Mining

Knowledge Discovery

Estadística

Computación avanzada Tecnologías

de Bases de datos

Reconocimiento de patrones

Visualización

Inteligencia Artificial

Sistemas de adquisición y Monitorización

Y casi al final…Ontologías

La estrella del momento

Secuenciadores de “próxima” generación

• 454 Roche: Pirosecuenciador (Arg)• De novo sequencing• Metagenomica

• Solexa ILLUMINA

• Solid ABI

Next? Generation Sequencing

Nuestro grupo

Grupo de Minería de Bio-Datos

(BioData Mining)Dr. Elmer Fernández, Bioing. Cristobal Fresno

Universidad Católica de Córdoba

CONICETCampus-Camino Alta Gracia km 7 ½

5000 – Cba.

Con quien trabajamos?

Dra.Mónica Balzarini (Dpto. Biometria-UNC)

Dr. Osvaldo Podhajcer (Terapia Celular y Molecular- Inst. Leloir)

Dra. Andrea Llera (Terapia Celular y Molecular- Inst. Leloir)

Adivisor: Dr. Terence Speed (WHEI-Australia & UC Berkeley-USA)

Nuestro grupo en la UCC

http://sites.google.com/site/biologicaldatamininggroup/Home/

Historia en la UCC

• Comienzos en 2004• 2006 post-doc visitante @ islab,

Antwerp, Belgica• 2006-2008 Master en App. Stat.• 2009 candidato Doctorado

Líneas de interés en investigación

• KDD en ciencias biomédicas a través de técnicas estadístico-computacionales

• Aprendizaje Maquinal– Artificial Neural Networks– Support Vector Machines– Clustering

• Estadística– Generalized Linear Mixed Models– Partial Least Squares– Clustering

Líneas de interés en investigación

• Proceso Unificado de Análisis para DM en Bio-ciencias (PUA-DMB)– Administración de datos biológicos

– Desarrollo de técnicas basadas en aprendizaje computacional para Clustering and Classificación

– Desarrollo de estrategias estadísticas para análisis de datos bajo diferentes supuestos distribucionales con efectos aleatorios y estructuras de correlación

– Procesamiento de señales/datos Biomédicos

Historia en la UCC

• Comienzos en 2004• 2006 post-doc visitante @ islab,

Antwerp, Belgica• 2006-2008 Master en App. Stat.• 2009 candidato Doctorado

Líneas de interés en investigación

• KDD en ciencias biomédicas a través de técnicas estadístico-computacionales

• Aprendizaje Maquinal– Artificial Neural Networks– Support Vector Machines– Clustering

• Estadística– Generalized Linear Mixed Models– Partial Least Squares– Clustering

Líneas de interés en investigación

• Proceso Unificado de Análisis para DM en Bio-ciencias (PUA-DMB)– Administración de datos biológicos

– Desarrollo de técnicas basadas en aprendizaje computacional para Clustering and Classificación

– Desarrollo de estrategias estadísticas para análisis de datos bajo diferentes supuestos distribucionales con efectos aleatorios y estructuras de correlación

– Procesamiento de señales/datos Biomédicos

Líneas de interés en investigación

• Proceso Unificado de Análisis para DM en Bio-ciencias (PUA-DMB)– PUA-DMB es un entorno ordenado para el

análisis de estudios biológicos

PUA-DMB

HemodialisisControlCardiovascular

Genómica y Proteómica Funcional ……

• PUA-DMB en Hemodialisis– Desarrollo de técnicas analíticas para

monitoreo molecular-antropométrico en pacientes en tratamiento:

• Diagnóstico de la eficiencia• Evaluación de biomarcadores• Caracterización de pacientes en pos de

tratamientos sujeto-específico

Líneas de interés en investigación

• PUA-DMB en Control Cardiovascular– Abordaje estadístico del control

Cardiovascular mediante supuestos no-normales

– Estudios del balance en el sistema nervioso central

– Análisis del ECG para detección de apnea– Desórdenes eléctricos y Mechano-Electrical

Feedback.

Líneas de interés en investigación

• PUA-DMB en Genómica y Proteómica Funcaional– Métodos estadísticos y de Aprendizaje

maquinal para análisis patrones de genes y proeínas

• DNA Microarray data analysis (INSPECTOR,SOM)– Agriculture, cancer, etc.

• Gel based protein analysis (2D-DIGE technology)

• Modelos estadísticos para análisis de invación celular.

Líneas de interés en investigación

• Optimización y diagnóstico de clasificadores y regresores no-paramétricos (aprendizaje maquinal)– Selección de características

– Validación, evaluación y selección de modelos

– Aprendizaje Maquinal en contextos estadísticos:

– Comportamiento de técnicas computacionales de reconocimiento de patrones bajo hipótesis distribucionales conocidas.

Líneas de interés en investigación

El mapa de colaboraciones

J. Lopez del Olmo (PhD)CNIC - Spain

M. Balzarini (PhD)Biometrics Dept. UNC

BDMGUCC

Functional Genomics and Proteomics

A. Llera (PhD)Moll. And Cell therapy Lab.Leloir Inst. - Argentina

Estudios moleculares y funcionales de la transición epitelio mesenquimal y su impacto en el aumento de la agresividad tumoral. PICT-2008

Statistical Models for protein pattern analysis. MinCyt –cba 2008

Somewhere in the world:Terry Speed

El mapa de colaboraciones

P. Willshaw (PhD)School of Health SciencesSwansea Univ. - UK

R. Valtuille (Phys)Fresenius Medical CareArg.

M. Balzarini (PhD)Biometrics Dept. UNC

BDMGUCC

Hemodialysis

El mapa de colaboraciones

P. Abry (PhD)Ecole Normal Superieur de Lyon - France

M. Balzarini (PhD)Biometrics Dept. UNC

BDMGUCC

Cardiovascular Control and Signal Processing

Experiencias en empresas/centros de I+D

• GALIX (Holter de ECG)• Fresenius Medical Care• Aeromedical (Stent Coronario)• INTA• INTI• UBA• Ledesma

Hasta la próxima

Make everything as simple as possible, but not simpler (A. Enstain)

Si uno hace lo que todo el mundo hace, obtiene lo que todo el mundo obtiene. (¿?)

El atroz encanto de ser argentinos, M. Aguinis

Muchas Gracias