32
Bioinformática e Bioinformática e O Projeto GENOMA EST O Projeto GENOMA EST da CANA da CANA Katia Guimarães Katia Guimarães 1o. de março de 2000 1o. de março de 2000

Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

Embed Size (px)

Citation preview

Page 1: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

Bioinformática e Bioinformática e O Projeto GENOMA EST da O Projeto GENOMA EST da CANACANA

Katia GuimarãesKatia Guimarães1o. de março de 20001o. de março de 2000

Page 2: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

Bioinformática e o Projeto Bioinformática e o Projeto GENOMA EST da CANAGENOMA EST da CANA Introdução elementar à Bioinformática Introdução elementar à Bioinformática

• Biologia 1.01Biologia 1.01• Como o genoma é estudadoComo o genoma é estudado• O Projeto Genoma HumanoO Projeto Genoma Humano

Projeto GENOMA EST da Cana de AçúcarProjeto GENOMA EST da Cana de Açúcar• Objetivos, Parceiros, Estado AtualObjetivos, Parceiros, Estado Atual• Oportunidades dentro do ProjetoOportunidades dentro do Projeto

Page 3: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

O que é Bioinformática?O que é Bioinformática? Bioinformática é uma nova disciplina, que Bioinformática é uma nova disciplina, que

serve de serve de ponteponte entre a Biologia e a entre a Biologia e a Computação. Computação.

Principal característica: InterdisciplinaridadePrincipal característica: Interdisciplinaridade

Origem: Origem: • Explosão de informações biológicas (ORGANIZAÇÃO)Explosão de informações biológicas (ORGANIZAÇÃO)• Perguntas mais complexas (ANÁLISE DE DADOS)Perguntas mais complexas (ANÁLISE DE DADOS)

Page 4: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

A Explosão das A Explosão das InformaçõesInformações O crescimento dos bancos de dados O crescimento dos bancos de dados

tem-se dado de forma exponencial tem-se dado de forma exponencial (em março/1999, o (em março/1999, o banco de nucleotídios EMBL continha banco de nucleotídios EMBL continha 2.3 bilhões de bases). 2.3 bilhões de bases).

Fenômeno similar à INTERNET: Fenômeno similar à INTERNET: • Como recuperar informação útil ?Como recuperar informação útil ?

Page 5: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

Biologia 1.01Biologia 1.01 A química da vida é realizada por moléculas A química da vida é realizada por moléculas

chamadas chamadas proteínasproteínas e e ácidos nucléicosácidos nucléicos.. De forma simplística, podemos dizer que:De forma simplística, podemos dizer que:

• As proteínas são responsáveis por “As proteínas são responsáveis por “o o quêquê”” um ser vivente é e faz, enquanto ”” um ser vivente é e faz, enquanto

• Os ácidos nucléicos contêm a informação Os ácidos nucléicos contêm a informação necessária para produzir proteínas, necessária para produzir proteínas, passando esta receita para as gerações passando esta receita para as gerações subseqüentes. subseqüentes.

Page 6: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

Biologia 1.01 - Biologia 1.01 - ProteínasProteínas As As proteínasproteínas são cadeias de moléculas mais são cadeias de moléculas mais

simples, chamadas simples, chamadas aminoácidos (aminoácidos (ouou resíduos)resíduos)..

Há 20 aminoácidos mais comuns na natureza. Há 20 aminoácidos mais comuns na natureza.

Proteínas típicas contêm 300 aminoácidos, Proteínas típicas contêm 300 aminoácidos, mas existem proteínas com 100 ou com 5.000.mas existem proteínas com 100 ou com 5.000.

Page 7: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

Biologia 1.01 - Biologia 1.01 - ProteínasProteínas

Uma proteína não é uma seqüência Uma proteína não é uma seqüência linear de aminoácidos (chamada linear de aminoácidos (chamada estrutura primária). Ela se dobra em estrutura primária). Ela se dobra em três dimensões, e a sua forma está três dimensões, e a sua forma está relacionada com a sua função.relacionada com a sua função.

Page 8: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

Biologia 1.01 - Biologia 1.01 - Ácidos Ácidos NucléicosNucléicos

Há dois tipos de ácidos nucléicos : DNA e Há dois tipos de ácidos nucléicos : DNA e RNA. RNA.

O DNA (ácido desoxirribonucléico) contém O DNA (ácido desoxirribonucléico) contém codificadas informações suficientes para codificadas informações suficientes para construir cada proteína . construir cada proteína .

O DNA também é uma cadeia (embora O DNA também é uma cadeia (embora dupla) de moléculas mais simples. dupla) de moléculas mais simples.

Page 9: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

Biologia 1.01 Biologia 1.01 - - O DNAO DNA Uma cadeia simples (Uma cadeia simples (strandstrand) é constituída ) é constituída

por um “por um “backbonebackbone” formado por uma ” formado por uma repetições de uma molécula de açúcar. repetições de uma molécula de açúcar.

Esta molécula de açúcar, por sua vez, contém Esta molécula de açúcar, por sua vez, contém cinco átomos de carbono (orientação). cinco átomos de carbono (orientação).

Ligada a Carbono’1 do Ligada a Carbono’1 do backbonebackbone estão outras estão outras moléculas, chamadas moléculas, chamadas basesbases..

Page 10: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

Biologia 1.01 Biologia 1.01 - - O DNAO DNA

Ligada a Carbono’1 do Ligada a Carbono’1 do backbonebackbone estão estão outras moléculas, chamadas outras moléculas, chamadas basesbases..

Ver uma parte do backboneVer uma parte do backbone

Page 11: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

Biologia 1.01 Biologia 1.01 - - O DNAO DNA Há quatro tipos de bases: adenina (A), Há quatro tipos de bases: adenina (A),

guanina(G), citosina (C) e timina (T). guanina(G), citosina (C) e timina (T).

A unidade básica de uma molécula de DNA A unidade básica de uma molécula de DNA formada por um açúcar, um fosfato e sua formada por um açúcar, um fosfato e sua base é chamada um base é chamada um nucleotídeonucleotídeo. .

Uma molécula de DNA contém 200 bases = Uma molécula de DNA contém 200 bases = uma molécula de DNA contém 200 uma molécula de DNA contém 200 nucleotídeos. nucleotídeos.

Page 12: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

Biologia 1.01 Biologia 1.01 - - O DNAO DNA As bases formam pares ao longo do As bases formam pares ao longo do

strandstrand (A -- T, e C --G). (A -- T, e C --G).

Esses pares de bases constituem a Esses pares de bases constituem a unidade de comprimento mais usada unidade de comprimento mais usada para as moléculas de DNA -- para as moléculas de DNA -- bpbp..

Em Biologia Computacional, o DNA é Em Biologia Computacional, o DNA é considerado uma cadeia de caracteres, considerado uma cadeia de caracteres, onde cada letra representa uma base. onde cada letra representa uma base.

Page 13: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

Biologia 1.01 Biologia 1.01 - - O DNAO DNA Alguns trechos contíguos do DNA contêm Alguns trechos contíguos do DNA contêm

informação útil para construção de proteínas, informação útil para construção de proteínas, enquanto outros trechos não. enquanto outros trechos não.

Para cada tipo diferente de proteína em um Para cada tipo diferente de proteína em um organismo normalmente corresponde um e organismo normalmente corresponde um e somente um desses trechos ao longo do DNA, somente um desses trechos ao longo do DNA,

Um trecho desses é conhecido como Um trecho desses é conhecido como genegene. .

Page 14: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

Biologia 1.01 - Biologia 1.01 - CromossomosCromossomos Cada célula de um organismo contém algumas Cada célula de um organismo contém algumas

moléculas muito longas de DNA. moléculas muito longas de DNA. Cada uma dessas moléculas é chamada um Cada uma dessas moléculas é chamada um

cromossomocromossomo. . Genes são regiões contíguas dos cromossomos, Genes são regiões contíguas dos cromossomos,

mas elas não cobrem toda a molécula.mas elas não cobrem toda a molécula. As regiões entre genes são chamadas “As regiões entre genes são chamadas “junk junk

DNADNA”.”.

Page 15: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

Biologia 1.01 - Biologia 1.01 - CromossomosCromossomos O conjunto de cromossomos em uma O conjunto de cromossomos em uma

célula é chamado um célula é chamado um genomagenoma. .

O número de cromossomos em um O número de cromossomos em um genoma é característico de uma espécie. genoma é característico de uma espécie.

Toda célula humana tem 46 cromossomos. Toda célula humana tem 46 cromossomos.

Page 16: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

Biologia 1.01 - Biologia 1.01 - CromossomosCromossomos O cromomossomo humano tem cerca de 10**8 O cromomossomo humano tem cerca de 10**8

pares de bases (bp). pares de bases (bp).

O mais longo pedaço de DNA que se pode O mais longo pedaço de DNA que se pode seqüenciar em um laboratório tem 700 bp. seqüenciar em um laboratório tem 700 bp.

Esta é a motivação dos problemas em áreas Esta é a motivação dos problemas em áreas como como fragment assemblyfragment assembly e e physical mappingphysical mapping. .

Page 17: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

Biologia 1.01 - Biologia 1.01 - CromossomosCromossomos Em uma analogia comum (Em uma analogia comum (veja JC 27/fevveja JC 27/fev), se ), se

• O genoma humano fosse um livro,O genoma humano fosse um livro,• os cromossomos seriam os capítulos, os cromossomos seriam os capítulos, • os genes seriam as frases e os genes seriam as frases e • as seqüências de DNA seriam as sílabas. as seqüências de DNA seriam as sílabas.

Parte do trabalho está em decifrar os genes. Parte do trabalho está em decifrar os genes.

Page 18: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

Biologia 1.01 - Biologia 1.01 - GenesGenes O gene varia de tamanho. No caso dos seres O gene varia de tamanho. No caso dos seres

humanos, um gene pode ter algo como humanos, um gene pode ter algo como 10.000 pares de bases. 10.000 pares de bases.

Certos mecanismos das células são capazes Certos mecanismos das células são capazes de reconhecer no DNA os pontos precisos de reconhecer no DNA os pontos precisos onde um gene começa e onde ele termina. onde um gene começa e onde ele termina.

ESTs (ESTs (Expressed Sequence Tags Expressed Sequence Tags ) são trechos ) são trechos de DNA (aprox. 200 bp) ajudam a identificar de DNA (aprox. 200 bp) ajudam a identificar genes e sua localização no genoma. genes e sua localização no genoma.

Page 19: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

Como o Genoma é Como o Genoma é EstudadoEstudado Informação básica que queremos obter Informação básica que queremos obter

de qualquer trecho do DNA = de qualquer trecho do DNA = seqüência de pares de basesseqüência de pares de bases

Processo para obter a seqüência = Processo para obter a seqüência = seqüenciamento seqüenciamento

Page 20: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

SeqüenciamentoSeqüenciamento O cromossomo humano tem 10**8 pb.O cromossomo humano tem 10**8 pb.

Seqüenciamento em labotatórios < = 700 Seqüenciamento em labotatórios < = 700 bp.bp.

Há três níveis de “escalas de trabalho”:Há três níveis de “escalas de trabalho”:• Mapas genéticos (10**7 - 10**8 bp)Mapas genéticos (10**7 - 10**8 bp)• Mapas físicos (10**5 -- 10**^ bp) Mapas físicos (10**5 -- 10**^ bp) • Seqüências (10**3 -- 10**4 bp) Seqüências (10**3 -- 10**4 bp)

Page 21: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

Seqüenciamento - Seqüenciamento - Mapa Mapa GenéticoGenético

O O mapa genéticomapa genético mostra a ordem e mostra a ordem e distância relativa entre os genes, usando distância relativa entre os genes, usando informações obtidas a partir de informações obtidas a partir de observações estatísticas. observações estatísticas.

Problemas: Problemas: • Não dá a verdadeira distância ao longo do Não dá a verdadeira distância ao longo do

cromossomo, e cromossomo, e • Se os genes estiverem muito próximos, a sua Se os genes estiverem muito próximos, a sua

ordem não pode ser definida. ordem não pode ser definida.

Page 22: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

Seqüenciamento - Seqüenciamento - Mapas Mapas FísicosFísicos

Os Os mapas físicomapas físico s refletem a distância s refletem a distância real em pares de bases. real em pares de bases.

Um mapa físico mostra a localização de Um mapa físico mostra a localização de markersmarkers, que são pequenas seqüências , que são pequenas seqüências conhecidas precisamente, dentro de conhecidas precisamente, dentro de 10**4 pares de bases. 10**4 pares de bases.

Page 23: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

Seqüenciamento - Seqüenciamento - Seqüenciamento em larga escala Seqüenciamento em larga escala

É possível obter a seqüência exata de É possível obter a seqüência exata de pedaços do DNA na ordem de 10**3 bp.pedaços do DNA na ordem de 10**3 bp.

A idéia básica é:A idéia básica é:• Quebrar diversas cópias de uma pedaço já Quebrar diversas cópias de uma pedaço já

conhecido (de 700bp) de maneiras diferentes,conhecido (de 700bp) de maneiras diferentes,• Seqüenciar esses fragmentos diretamente, e Seqüenciar esses fragmentos diretamente, e

entãoentão• Juntar de novo os fragmentos usando técnicas Juntar de novo os fragmentos usando técnicas

computacionais.computacionais.

Page 24: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

O Projeto Genoma O Projeto Genoma HumanoHumano É um esforço multinacional iniciado em 1988, É um esforço multinacional iniciado em 1988,

cujo objetivo é produzir a seqüência cujo objetivo é produzir a seqüência completa do DNA humano. completa do DNA humano.

Como parte do projeto, os genomas de Como parte do projeto, os genomas de outros organismos, como bactérias, moscas e outros organismos, como bactérias, moscas e ratos, também estão sendo estudados. ratos, também estão sendo estudados.

Previsão era para 2005; agora é para 2003. Previsão era para 2005; agora é para 2003.

Page 25: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

O Projeto Genoma O Projeto Genoma HumanoHumano

Até hoje muitos genomas de vírus foram Até hoje muitos genomas de vírus foram completamente seqüenciados, mas os completamente seqüenciados, mas os comprimento vão de 1 Kbp a 10 Kbp.comprimento vão de 1 Kbp a 10 Kbp.

Outros resultados positivos: Outros resultados positivos: • bactéria Haemophilus influenzae (18 Kbp) bactéria Haemophilus influenzae (18 Kbp) • yeast (10 milhões de bp) -- 1996.yeast (10 milhões de bp) -- 1996.

Em fev, o Projeto Genoma da Xylella fastidiosa da Em fev, o Projeto Genoma da Xylella fastidiosa da FAPESP encerou com sucesso o seqüenciamento. FAPESP encerou com sucesso o seqüenciamento.

Page 26: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

O Projeto Genoma O Projeto Genoma HumanoHumano Tarefa enorme, que só pode ser resolvida Tarefa enorme, que só pode ser resolvida

com colaboração. com colaboração.

Hoje existem muitos bancos de dados com Hoje existem muitos bancos de dados com informações sobre seqüências conhecidas informações sobre seqüências conhecidas e dados associados. Ex: GenBank e dados associados. Ex: GenBank

Esses bancos crescem numa velocidade Esses bancos crescem numa velocidade exponencial. Técnicas foram desenvolvidas exponencial. Técnicas foram desenvolvidas para permitir buscas aceleradas e para permitir buscas aceleradas e versáteis neles. versáteis neles.

Page 27: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

O Projeto Genoma O Projeto Genoma HumanoHumano Até hoje muitos genomas de vírus foram Até hoje muitos genomas de vírus foram

completamente seqüenciados, mas os completamente seqüenciados, mas os comprimento vão de 1 Kbp a 10 Kbp.comprimento vão de 1 Kbp a 10 Kbp.

Outros resultados positivos: Outros resultados positivos: • bactéria Haemophilus influenzae (18 Kbp) bactéria Haemophilus influenzae (18 Kbp) • yeast (10 milhões de bp) -- 1996.yeast (10 milhões de bp) -- 1996.

Em fev, o Projeto Genoma da Xylella fastidiosa da Em fev, o Projeto Genoma da Xylella fastidiosa da FAPESP encerou com sucesso o seqüenciamento.FAPESP encerou com sucesso o seqüenciamento.

Page 28: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

O Projeto Genoma EST da O Projeto Genoma EST da CanaCana

OBJETIVOS:OBJETIVOS: Como o genoma da cana é muito mais Como o genoma da cana é muito mais

complexo, o objetivo é identificar e complexo, o objetivo é identificar e seqüenciar alguns genes relevantes, seqüenciar alguns genes relevantes, que permitam alterar algumas que permitam alterar algumas propriedades importantes da cana propriedades importantes da cana (ex: teor de sacarose), e (ex: teor de sacarose), e possivelmente modificá-las.possivelmente modificá-las.

Page 29: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

O Projeto Genoma EST da O Projeto Genoma EST da CanaCana

Parceiros no ProjetoParceiros no Projeto: : • Os mesmos Laboratórios de Os mesmos Laboratórios de

seqüenciamento e de Bioinformática seqüenciamento e de Bioinformática envolvidos no Projeto Genoma da envolvidos no Projeto Genoma da Xyllela fastidiosa Xyllela fastidiosa

• Instituto de Pesquisa Agropecuária (IPA)Instituto de Pesquisa Agropecuária (IPA)• Departamento de Biologia da UFRPEDepartamento de Biologia da UFRPE• Centro de Informática da UFPE Centro de Informática da UFPE

Page 30: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

O Projeto Genoma EST da O Projeto Genoma EST da CanaCana Estado Atual:Estado Atual:

• Iniciado em junho / 1999Iniciado em junho / 1999• Seqüenciadores comprados, faltam chegar.Seqüenciadores comprados, faltam chegar.• Laboratórios de seqüenciamento de SP já Laboratórios de seqüenciamento de SP já

estão registrando os seus “reads” (33 Kbp).estão registrando os seus “reads” (33 Kbp).• Este processo vai parar em 400 Kbp.Este processo vai parar em 400 Kbp.• Contatos estão estabelecidos para uma visita Contatos estão estabelecidos para uma visita

ao Lab. de Bioinformática da UNICAMP no ao Lab. de Bioinformática da UNICAMP no final de março.final de março.

Page 31: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

O Projeto Genoma EST da O Projeto Genoma EST da CanaCana Oportunidades dentro do Projeto:Oportunidades dentro do Projeto:

• Aprender técnicas novas, numa área que Aprender técnicas novas, numa área que só tende a crescer. (*****)só tende a crescer. (*****)

• Bolsas de Iniciação Científica da FACEPE.Bolsas de Iniciação Científica da FACEPE.• Trabalhar com problemas que se Trabalhar com problemas que se

reproduzem em outras áreas da reproduzem em outras áreas da computação: computação: – Algoritmos sobre cadeias de caracteres longasAlgoritmos sobre cadeias de caracteres longas– Busca em bancos de Dados gigantescosBusca em bancos de Dados gigantescos

Page 32: Bioinformática e O Projeto GENOMA EST da CANA Katia Guimarães 1o. de março de 2000

O Projeto Genoma EST da O Projeto Genoma EST da CanaCana Se Se você gostaria de trabalhar neste você gostaria de trabalhar neste

prjeto:prjeto:• Preencha a ficha de inscrição, e Preencha a ficha de inscrição, e • Traga o seu histórico escolar.Traga o seu histórico escolar.

Trabalho há muito.Trabalho há muito.

As bolsas estão aprovadas, mas ...... As bolsas estão aprovadas, mas ...... não se sabe quando vão sair. não se sabe quando vão sair.