30
TURNO: Norturno VERSÃO: N o UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS DEPARTAMENTO DE SISTEMAS E COMPUTAÇÃO CURSO DE CIÊNCIAS DA COMPUTAÇÃO — BACHARELADO COORDENAÇÃO DE TRABALHO DE CONCLUSÃO DE CURSO PROPOSTA PARA O TRABALHO DE CONCLUSÃO DE CURSO TÍTULO: TÍTULO EM LETRAS MAIÚSCULAS - TÍTULO EM LETRAS MAIÚSCULAS - TÍTULO EM LETRAS MAIÚSCULAS (SEM NEGRITO) ÁREA: Área de Concentração (cada substantivo escrito com a primeira letra maiúscula) Palavras-chave: Palavra-chave 1. Palavra-chave 2. Palavra-chave 3. (separadas por ponto, com primeira letra maiúscula). 1 IDENTIFICAÇÃO 1.1 ALUNO Nome: Felipe Fernandes Albrecht Código/matrícula: 61791 / 14451 Endereço residencial: Rua: Manaus N°: 59 Complemento: Bairro: Bela Vista CEP: 89110-000 Cidade: Gaspar UF: SC Telefone fixo: 3329-3232 Celular: 9655-6210 Endereço comercial: Empresa: Senior Pesquisa e Tecnologia L Rua: Joinville N°: 526 Bairro: Vila Nova CEP: 89035-200 Cidade: Blumenau UF: SC Telefone: 3221-3365 E-Mail FURB: [email protected] E-Mail alternativo: [email protected] 1.2 ORIENTADOR Nome: Jomi Fred Hübner E-Mail FURB: [email protected] E-Mail alternativo: Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

Embed Size (px)

Citation preview

Page 1: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

TURNO: Norturno VERSÃO: No

UNIVERSIDADE REGIONAL DE BLUMENAUCENTRO DE CIÊNCIAS EXATAS E NATURAISDEPARTAMENTO DE SISTEMAS E COMPUTAÇÃOCURSO DE CIÊNCIAS DA COMPUTAÇÃO — BACHARELADOCOORDENAÇÃO DE TRABALHO DE CONCLUSÃO DE CURSO

PROPOSTA PARA O TRABALHO DE CONCLUSÃO DE CURSO

TÍTULO: TÍTULO EM LETRAS MAIÚSCULAS - TÍTULO EM LETRAS MAIÚSCULAS - TÍTULO EM LETRAS MAIÚSCULAS (SEM NEGRITO)

ÁREA: Área de Concentração (cada substantivo escrito com a primeira letra maiúscula)

Palavras-chave: Palavra-chave 1. Palavra-chave 2. Palavra-chave 3. (separadas por ponto, com primeira letra maiúscula).

1 IDENTIFICAÇÃO

1.1 ALUNO

Nome: Felipe Fernandes Albrecht Código/matrícula: 61791 / 14451

Endereço residencial:

Rua: Manaus N°: 59 Complemento:

Bairro: Bela Vista CEP: 89110-000 Cidade: Gaspar UF: SC

Telefone fixo: 3329-3232 Celular: 9655-6210

Endereço comercial:

Empresa: Senior Pesquisa e Tecnologia L

Rua: Joinville N°: 526 Bairro: Vila Nova

CEP: 89035-200 Cidade: Blumenau UF: SC Telefone: 3221-3365

E-Mail FURB: [email protected] E-Mail alternativo: [email protected]

1.2 ORIENTADOR

Nome: Jomi Fred Hübner

E-Mail FURB: [email protected] E-Mail alternativo:

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

Page 2: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

2 DECLARAÇÕES

2.1 DECLARAÇÃO DO ALUNODeclaro que estou ciente do Regulamento do Trabalho de Conclusão de Curso de

Ciências da Computação e que a proposta em anexo, a qual concordo, foi por mim rubricada

em todas as páginas. Ainda me comprometo pela obtenção de quaisquer recursos necessários

para o desenvolvimento do trabalho, caso esses recursos não sejam disponibilizados pela

Universidade Regional de Blumenau (FURB).

Assinatura: Local/data:

2.2 DECLARAÇÃO DO ORIENTADORDeclaro que estou ciente do Regulamento do Trabalho de Conclusão do Curso de

Ciências da Computação e que a proposta em anexo, a qual concordo, foi por mim rubricada

em todas as páginas. Ainda me comprometo a orientar o aluno da melhor forma possível de

acordo com o plano de trabalho explícito nessa proposta.

Assinatura: Local/data:

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

Page 3: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

3 AVALIAÇÃO DA PROPOSTA

3.1 AVALIAÇÃO DO(A) ORIENTADOR(A)Acadêmico(a): Felipe Albrechr

Orientador(a): Jomi Fred Hübner

ASPECTOS AVALIADOS

aten

de

aten

de

parc

ialm

ente

não

aten

de

ASP

ECTO

S T

ÉCN

ICO

S

1. INTRODUÇÃO1.1. O tema de pesquisa está devidamente contextualizado/delimitado?1.2. O problema está claramente formulado?

2. OBJETIVOS2.1. O objetivo geral está claramente definido e é passível de ser alcançado?2.2. São apresentados objetivos específicos (opcionais) coerentes com o objetivo geral?

Caso não sejam apresentados objetivos específicos, deixe esse item em branco.3. RELEVÂNCIA

3.1. A proposta apresenta um grau de relevância em computação que justifique o desenvolvimento do TCC?

4. REQUISITOS DO SOFTWARE A SER DESENVOLVIDO4.1. Os requisitos funcionais e não funcionais do software a ser desenvolvido foram

claramente descritos? 5. METODOLOGIA

5.1. Foram relacionadas todas as etapas necessárias para o desenvolvimento do TCC?5.2. Os métodos e recursos estão devidamente descritos e são compatíveis com a

metodologia proposta?5.3. A proposta apresenta um cronograma físico (período de realização das etapas) de

maneira a permitir a execução do TCC no prazo disponível?6. REVISÃO BIBLIOGRÁFICA

6.1. As informações apresentadas são suficientes e têm relação com o tema do TCC? 6.2. São apresentados trabalhos correlatos, bem como comentadas as principais

características dos mesmos?7. CONSIDERAÇÕES FINAIS

7.1. As considerações finais relacionam os assuntos apresentados na revisão bibliográfica com a realização do TCC?

ASP

ECTO

S M

ETO

DO

LÓG

ICO

S 8. REFERÊNCIAS BIBLIOGRÁFICAS8.1. As referências bibliográficas obedecem às normas da ABNT?8.2. As referências bibliográficas contemplam adequadamente os assuntos abordados na

proposta (são usadas obras atualizadas e/ou as mais importantes da área)?9. CITAÇÕES

9.1. As citações obedecem às normas da ABNT?9.2. As informações retiradas de outros autores estão devidamente citadas?

10. AVALIAÇÃO GERAL (organização e apresentação gráfica, linguagem usada)10.1. O texto obedece ao formato estabelecido?10.2. A exposição do assunto é ordenada (as idéias estão bem encadeadas e a linguagem

utilizada é clara)?

A proposta de TCC deverá ser revisada, isto é, necessita de complementação, se:• qualquer um dos itens tiver resposta NÃO ATENDE;• pelo menos 4 (quatro) itens dos ASPECTOS TÉCNICOS tiverem resposta ATENDE PARCIALMENTE; ou• pelo menos 4 (quatro) itens dos ASPECTOS METODOLÓGICOS tiverem resposta ATENDE PARCIALMENTE.PARECER: ( ) APROVADA ( ) NECESSITA DE COMPLEMENTAÇÃO

Assinatura do(a) avaliador(a): Local/data:

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

Page 4: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

4 CONSIDERAÇÕES DO(A) ORIENTADOR(A):11. Caso o(a) orientador(a) tenha assinalado em sua avaliação algum item como “atende parcialmente”, devem ser

relatos os problemas/melhorias a serem efetuadas.12.

Assinatura do(a) avaliador(a): Local/data:

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

Page 5: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

AVALIAÇÃO DO(A) COORDENADOR DE TCCAcadêmico(a): Felipe Albrecht

Avaliador(a): José Roque Voltolini da Silva

ASPECTOS AVALIADOS

aten

de

aten

de

parc

ialm

ente

não

aten

de

ASP

ECTO

S T

ÉCN

ICO

S

1. INTRODUÇÃO1.1. O tema de pesquisa está devidamente contextualizado/delimitado?1.2. O problema está claramente formulado?

2. OBJETIVOS2.1. O objetivo geral está claramente definido e é passível de ser alcançado?2.2. São apresentados objetivos específicos (opcionais) coerentes com o objetivo geral?

Caso não sejam apresentados objetivos específicos, deixe esse item em branco.3. RELEVÂNCIA

3.1. A proposta apresenta um grau de relevância em computação que justifique o desenvolvimento do TCC?

4. REQUISITOS DO SOFTWARE A SER DESENVOLVIDO4.1. Os requisitos funcionais e não funcionais do software a ser desenvolvido foram

claramente descritos? 5. METODOLOGIA

5.1. Foram relacionadas todas as etapas necessárias para o desenvolvimento do TCC?5.2. Os métodos e recursos estão devidamente descritos e são compatíveis com a

metodologia proposta?5.3. A proposta apresenta um cronograma físico (período de realização das etapas) de

maneira a permitir a execução do TCC no prazo disponível?6. REVISÃO BIBLIOGRÁFICA

6.1. As informações apresentadas são suficientes e têm relação com o tema do TCC? 6.2. São apresentados trabalhos correlatos, bem como comentadas as principais

características dos mesmos?7. CONSIDERAÇÕES FINAIS

7.1. As considerações finais relacionam os assuntos apresentados na revisão bibliográfica com a realização do TCC?

ASP

ECTO

S M

ETO

DO

LÓG

ICO

S 8. REFERÊNCIAS BIBLIOGRÁFICAS8.1. As referências bibliográficas obedecem às normas da ABNT?8.2. As referências bibliográficas contemplam adequadamente os assuntos abordados na

proposta (são usadas obras atualizadas e/ou as mais importantes da área)?9. CITAÇÕES

9.1. As citações obedecem às normas da ABNT?9.2. As informações retiradas de outros autores estão devidamente citadas?

10. AVALIAÇÃO GERAL (organização e apresentação gráfica, linguagem usada)10.1. O texto obedece ao formato estabelecido?10.2. A exposição do assunto é ordenada (as idéias estão bem encadeadas e a linguagem

utilizada é clara)?

A proposta de TCC deverá ser revisada, isto é, necessita de complementação, se:• qualquer um dos itens tiver resposta NÃO ATENDE;• pelo menos 4 (quatro) itens dos ASPECTOS TÉCNICOS tiverem resposta ATENDE PARCIALMENTE; ou• pelo menos 4 (quatro) itens dos ASPECTOS METODOLÓGICOS tiverem resposta ATENDE PARCIALMENTE.PARECER: ( ) APROVADA ( ) NECESSITA DE COMPLEMENTAÇÃO

OBSERVAÇÕES:

Assinatura do(a) avaliador(a): Local/data:

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

Page 6: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

AVALIAÇÃO DO(A) PROFESSOR(A) DA DISCIPLINA DE TCCIAcadêmico(a): Felipe Albrecht

Avaliador(a): Joyce Martins

ASPECTOS AVALIADOS

aten

de

aten

de

parc

ialm

ente

não

aten

de

ASP

ECTO

S T

ÉCN

ICO

S

1. INTRODUÇÃO1.1. O tema de pesquisa está devidamente contextualizado/delimitado?1.2. O problema está claramente formulado?

2. OBJETIVOS2.1. O objetivo geral está claramente definido e é passível de ser alcançado?2.2. São apresentados objetivos específicos (opcionais) coerentes com o objetivo geral?

Caso não sejam apresentados objetivos específicos, deixe esse item em branco.3. RELEVÂNCIA

3.1. A proposta apresenta um grau de relevância em computação que justifique o desenvolvimento do TCC?

4. REQUISITOS DO SOFTWARE A SER DESENVOLVIDO4.1. Os requisitos funcionais e não funcionais do software a ser desenvolvido foram

claramente descritos? 5. METODOLOGIA

5.1. Foram relacionadas todas as etapas necessárias para o desenvolvimento do TCC?5.2. Os métodos e recursos estão devidamente descritos e são compatíveis com a

metodologia proposta?5.3. A proposta apresenta um cronograma físico (período de realização das etapas) de

maneira a permitir a execução do TCC no prazo disponível?6. REVISÃO BIBLIOGRÁFICA

6.1. As informações apresentadas são suficientes e têm relação com o tema do TCC? 6.2. São apresentados trabalhos correlatos, bem como comentadas as principais

características dos mesmos?7. CONSIDERAÇÕES FINAIS

7.1. As considerações finais relacionam os assuntos apresentados na revisão bibliográfica com a realização do TCC?

ASP

ECTO

S M

ETO

DO

LÓG

ICO

S 8. REFERÊNCIAS BIBLIOGRÁFICAS8.1. As referências bibliográficas obedecem às normas da ABNT?8.2. As referências bibliográficas contemplam adequadamente os assuntos abordados na

proposta (são usadas obras atualizadas e/ou as mais importantes da área)?9. CITAÇÕES

9.1. As citações obedecem às normas da ABNT?9.2. As informações retiradas de outros autores estão devidamente citadas?

10. AVALIAÇÃO GERAL (organização e apresentação gráfica, linguagem usada)10.1. O texto obedece ao formato estabelecido?10.2. A exposição do assunto é ordenada (as idéias estão bem encadeadas e a linguagem

utilizada é clara)?

PONTUALIDADE NA ENTREGA atraso de_____ dias

A proposta de TCC deverá ser revisada, isto é, necessita de complementação, se:• qualquer um dos itens tiver resposta NÃO ATENDE;• pelo menos 4 (quatro) itens dos ASPECTOS TÉCNICOS tiverem resposta ATENDE PARCIALMENTE; ou• pelo menos 4 (quatro) itens dos ASPECTOS METODOLÓGICOS tiverem resposta ATENDE PARCIALMENTE.PARECER: ( ) APROVADA ( ) NECESSITA DE COMPLEMENTAÇÃO

OBSERVAÇÕES:

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

Page 7: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

Assinatura do(a) avaliador(a): Local/data:

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

Page 8: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

AVALIAÇÃO DO(A) PROFESSOR(A) ESPECIALISTA NA ÁREAAcadêmico(a): Felipe Albrecht

Avaliador(a):

ASPECTOS AVALIADOS

aten

de

aten

de

parc

ialm

ente

não

aten

de

ASP

ECTO

S T

ÉCN

ICO

S

1. INTRODUÇÃO1.1. O tema de pesquisa está devidamente contextualizado/delimitado?1.2. O problema está claramente formulado?

2. OBJETIVOS2.1. O objetivo geral está claramente definido e é passível de ser alcançado?2.2. São apresentados objetivos específicos (opcionais) coerentes com o objetivo geral?

Caso não sejam apresentados objetivos específicos, deixe esse item em branco.3. RELEVÂNCIA

3.1. A proposta apresenta um grau de relevância em computação que justifique o desenvolvimento do TCC?

4. REQUISITOS DO SOFTWARE A SER DESENVOLVIDO4.1. Os requisitos funcionais e não funcionais do software a ser desenvolvido foram

claramente descritos? 5. METODOLOGIA

5.1. Foram relacionadas todas as etapas necessárias para o desenvolvimento do TCC?5.2. Os métodos e recursos estão devidamente descritos e são compatíveis com a

metodologia proposta?5.3. A proposta apresenta um cronograma físico (período de realização das etapas) de

maneira a permitir a execução do TCC no prazo disponível?6. REVISÃO BIBLIOGRÁFICA

6.1. As informações apresentadas são suficientes e têm relação com o tema do TCC? 6.2. São apresentados trabalhos correlatos, bem como comentadas as principais

características dos mesmos?7. CONSIDERAÇÕES FINAIS

7.1. As considerações finais relacionam os assuntos apresentados na revisão bibliográfica com a realização do TCC?

ASP

ECTO

S M

ETO

DO

LÓG

ICO

S 8. REFERÊNCIAS BIBLIOGRÁFICAS8.1. As referências bibliográficas obedecem às normas da ABNT?8.2. As referências bibliográficas contemplam adequadamente os assuntos abordados na

proposta (são usadas obras atualizadas e/ou as mais importantes da área)?9. CITAÇÕES

9.1. As citações obedecem às normas da ABNT?9.2. As informações retiradas de outros autores estão devidamente citadas?

10. AVALIAÇÃO GERAL (organização e apresentação gráfica, linguagem usada)10.1. O texto obedece ao formato estabelecido?10.2. A exposição do assunto é ordenada (as idéias estão bem encadeadas e a linguagem

utilizada é clara)?

A proposta de TCC deverá ser revisada, isto é, necessita de complementação, se:• qualquer um dos itens tiver resposta NÃO ATENDE;• pelo menos 4 (quatro) itens dos ASPECTOS TÉCNICOS tiverem resposta ATENDE PARCIALMENTE; ou• pelo menos 4 (quatro) itens dos ASPECTOS METODOLÓGICOS tiverem resposta ATENDE PARCIALMENTE.PARECER: ( ) APROVADA ( ) NECESSITA DE COMPLEMENTAÇÃO

OBSERVAÇÕES:

Assinatura do(a) avaliador(a): Local/data:

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

Page 9: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

Page 10: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

Page 11: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

Page 12: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

1

2

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

Page 13: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

UNIVERSIDADE REGIONAL DE BLUMENAU

CENTRO DE CIENCIAS EXATAS E NATURAIS

CURSO DE CIENCIAS DA COMPUTACAO – BACHARELADO

RECONSTRUCAO FILOGENETICA EM

AMBIENTE DISTRIBUIDO

FELIPE FERNANDES ALBRECHT

BLUMENAU2006

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

Page 14: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

FELIPE FERNANDES ALBRECHT

RECONSTRUCAO FILOGENETICA EM

AMBIENTE DISTRIBUIDO

Proposta de Trabalho de Conclusao de Cursosubmetida a Universidade Regional de Blu-menau para a obtencao dos creditos na disci-plina Trabalho de Conclussao de Curso I docurso de Ciencias da Computacao – Bacha-relado.

Prof. Jomi Fred Hubner – Orientador

BLUMENAU2006

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

Page 15: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

SUMARIO

1 INTRODUCAO 4

1.1 OBJETIVOS DO TRABALHO . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.2 RELEVANCIA DO TRABALHO . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.3 REQUISITOS DO SOFTWARE A SER DESENVOLVIDO . . . . . . . . . . 8

1.4 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2 REVISAO BIBLIOGRAFICA 11

2.1 GENETICA MOLECULAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2 BIOINFORMATICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.3 FILOGENETICA MOLECULAR . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.4 SISTEMAS DISTRIBUIDOS . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.5 TRABALHOS CORRELATOS . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3 CONSIDERACOES FINAIS 17

REFERENCIAS BIBLIOGRAFICAS 18

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

Page 16: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

4

1 INTRODUCAO

Desde o inıcio da historia, a humanidade preocupa-se em compreender a vida e

suas origens. Diversos foram os filosofos e cientistas que propuseram teorias e metodos

para explicar a origem da vida. Com a publicacao do livro “A Origem das Especies”

por Charles Darwin em 1859, o conceito da evolucao foi apresentada pela primeira vez.

A Teoria da Evolucao diz que os organismos sofrem mutacoes entre diferentes geracoes

e as modificacoes vantajosas sao perpetuadas, enquanto as desvantajosas sao eliminadas

pela selecao natural. Com os conceitos propostos por Charles Darwin, e possıvel analizar

as mudancas que ocorreram nas especies de seres vivos e propor uma linhagem evolutiva

delas. Como exemplo, atraves destes conceitos, e possıvel afirmar que os seres humanos e

demais especies de primatas possuem uma especie ancestral em comum.

O estudo das relacoes evolucionarias entre especies de seres vivos, tanto vivas

quanto extintas e a inferencia de possıveis arvores evolutivas e chamado de filogenetica

(MOUNT, 2004). Este estudo era feito primordialmente pela observacao das caracterısticas

morfologicas, ou seja, da aparencia e funcionamento dos orgaos e sistemas dos seres vi-

vos. Com o advento da genetica molecular, onde sao estudadas principalmente sequencias

geneticas e proteicas, a filogenetica passou a utilizar estas informacoes moleculares. O

estudo da filogenetica destes dados possui como principal objetivo inferir arvores evoluti-

vas destas sequencias e das especies que as possuem com o maior grau de confiabilidade

possıvel. Este novo estudo de filogenetica utilizando dados moleculares e chamado de filo-

genetica molecular. Desta forma, a filogenetica molecular descreve a origem e evolucao de

sequencias geneticas e proteicas e, segundo Mount (2004, p. 282), uma analise filogenetica

de uma famılia de acidos nucleicos ou de proteınas relacionadas e a determinacao de como

os membros desta famılia devem ter sido derivados durante a evolucao. Os resultados

dos trabalhos de inferencia filogenetica sao apresentados na forma de dendogramas, que

sao basicamente arvores evolutivas. Um exemplo de dendograma e exibido na fig. 1.1,

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

Page 17: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

5

onde e apresentada uma arvore filogenetica construıda atraves de analise de Acido Ribo-

nucleico (Ribonucleic Acid) (RNA) exibindo os tres reinos e seus principais filos.

Fonte: (CARL. . . , 2003).

Figura 1.1 – Dendograma dos tres reinos e seus principais filos.

A filogenetica molecular possui tres metodos bastante utilizados para inferir a

arvore ou as arvores evolucionarias que melhor refletem as variacoes observadas no grupo

de sequencias moleculares. Os tres metodos sao: maxima verossimilhanca, metodos de

distancia e maxima parsimonia.

Em algumas ocasioes e utilizado o termo reconstrucao filogenetica, para denotar

uma inferencia filogenetica. O porque disto e que atraves de dados, taxinomos ou mo-

leculares, e do estudo desdes dados, pretende-se reconstruir, ou inferir, uma arvore mais

proxima possıvel da verdadeira, formada pela evolucao dos organismos.

Nas pesquisas de filogenias mais complexas, e comum a utilizacao de workflows.

Workflows sao um conjunto de softwares, cada um com uma funcao especıfica, que execu-

tam uma operacao. Por exemplo, na filogenetica utiliza-se workflows compostos por um

software de pesquisa de sequencias em banco de dados; outro que recebe estas sequencias

e faz um alinhamento delas, ressaltando suas semelhancas; e por fim um software que le

o resultado do alinhamento das sequencias e reconstroi uma arvore filogenetica baseada

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

Page 18: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

6

nestes dados.

Um problema comum a todos os metodos de reconstrucao de arvore filogenetica e

a alta necessidade computacional caso o numero de sequencias seja alto. Para resolver

este problema, a principal solucao seria distribuir o problema entre diversos processado-

res. Desta forma, duas solucoes sao possıveis: a utilizacao de supercomputadores ou a

utilizacao de clusters. A utilizacao de supercomputadores esbarra no alto custo destes

equipamentos, tornando inacessıveis para diversas instituicoes de pesquisa. Uma solucao

que esta se destacando em ambientes distribuıdos sao os clusters beowulf (STERLING,

2002).

Clusters e um termo largamente utilizado que significa uma interligacao de com-

putadores atraves de software e rede independentes num unico sistema, ou seja, uma

inteligacao de computadores independentes para resolverem um problema em comum.

Os clusters podem ser utilizado em sistemas High Availability (HA) para garantir alta

disponibilidade ou em High Performance Computing (HPC) para proporcionarem poder

computacional maior do que um unico computador proporcionaria (STERLING, 2002).

Os clusters beowulf sao clusters de desempenho escalavel baseados em hardware fa-

cilmente encontrado no mercado, em sistemas de redes comuns e tendo como infraestrutura

softwares livres (BEOWULF. . . , 2004). Os clusters beowulf possuem alta adaptabilidade,

podendo ser formados por dois nodos conectados via ethernet ou ser um complexo sistema

de 1024 nodos conectados atraves de rede de alta velocidade.

A comunicacao entre os nodos de um cluster beowulf e feita atraves de bibliotecas

de troca de mensagens. Atualmente o principal padrao e o Message Passing Interface

(MPI) (MESSAGE. . . , 2006). Ele possui diversas implementacoes podem ser bibliotecas nos

aplicativos, fazendo a abstracao da comunicacao entre os nodos. E importante ressaltar

que os softwares executados em clusters beowulf devem ser preparados para isto, utilizando

algoritmos para processamento distribuıdo e utilizando na sua implementacao alguma

biblioteca para a comunicacao entre os nodos.

Como referido anteriormente, tem-se como problema na pesquisa de filogenias a de-

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

Page 19: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

7

mora do processo de reconstrucao da arvore filogenetica quando o numero de sequencias

for elevado (a partir de 40 sequencias). Neste trabalho pretende-se especificar um algo-

ritmo para a inferencia de arvores filogenicas em ambientes distribuıdos implementado

utilizando padroes abertos. Com isto, pretende-se reduzir o tempo computacional ne-

cessario para a inferencia de arvores filogeneticas.

1.1 OBJETIVOS DO TRABALHO

O objetivo deste trabalho e disponibilizar uma ferramenta para a inferencia de

arvores filogeneticas em um ambiente distribuıdo.

Os objetivos especıficos do trabalho sao:

a) propor um algoritmo para inferencia de arvores filogeneticas em ambiente dis-

tribuıdo;

b) implementar o algoritmo num software de reconstrucao de arvores filogeneticas

do pacote PHYLIP 1;

c) substituir o software PAUP*2 (SWOFFORD, 2004) no workflow proposto

por Theobald e Wuttke (2005) po software desenvolvido neste trabalho.

1.2 RELEVANCIA DO TRABALHO

A filogenetica e uma importante area de estudo, pois nela sao feitos os estudos

de inter-relacoes parentescas entre taxons3 sao ordenados de acordo com sua relacao pa-

rentesca e atraves dela pode-se conhecer as relacoes evolucionarias entre os seres vivos.

Porem, para efetuar estes estudos, sao necessarios diversos processos com alto custo com-

putacional, que podem ser significativamente lentos se forem executados em um unico

computador.

Com a intencao de reduzir o tempo de reconstrucao de arvores filogenicas, surge

1O pacote PHYLIP (FELSENSTEIN, 2005) e um conjunto de softwares amplamente utilizados no estudode filogenetica. Ele e disponibilizado livremente em http://evolution.genetics.washington.edu/phylip.html.

2O software PAUP* e largamente utilizado nas reconstrucoes filogeneticas, possuindo como problemao custo da sua licenca de utilizacao

3Taxon e uma unidade associada a um sistema de classificacao. Taxons (ou taxa) podem estar emqualquer nıvel de um sistema de classificacao podendo ser um reino, um genero, uma especie ou qualqueroutra unidade de um sistema de classificacao dos seres vivos.

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

Page 20: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

8

a ideia de distribuir este processo. Com a utilizacao de padroes de comunicacao abertos,

softwares livres e com a reutilizacao de softwares ja existente, esta nova ferramenta podera

auxiliar, na reducao do tempo computacional e do custo financeiro, diversos estudos de

filogenetica molecular.

1.3 REQUISITOS DO SOFTWARE A SER DESENVOLVIDO

O trabalho sera composto por um software para reconstrucao de arvores filogenetica

em ambiente distribuıdo. Abaixo sao detalhados os Requisitos Nao Funcionais (RNF) e

os Requisitos Funcionais (RF).

O software deve:

a) reconstruir arvores filogeneticas utilizando o metodo de distancia (RF);

b) ser compatıvel com os formatos dos arquivos de entrada e saıda do pacote

PHYLIP (RNF);

c) ser implementado utilizando o padrao MPI (RNF);

d) ser compilado e executado em qualquer ambiente Unix que tenha suporte ao

padrao MPI (RNF);

e) seguir o padrao do pacote PHYLIP na sua interface com o usario (RNF).

1.4 METODOLOGIA

O trabalho sera desenvolvido observando as seguintes etapas:

a) estudo da genetica molecular: nesta etapa serao estudados a genetica molecular,

seus componentes e os processos de evolucao dos mesmos visto que a filogenetica

molecular e o estudo das relacoes evolutivas dos elementos da genetica molecu-

lar;

b) estudo da filogenetica: nesta estapa serao estudados os metodos de reconstrucao

de arvores filogeneticas;

c) estudo de metodos de distribuicao: nesta etapa serao analizados possıveis

metodos de distribuicao dos processos de reconstrucao de arvores filogeneticas;

d) especificacao do algoritmo distribuıdo: nesta etapa sera especificado um algo-

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

Page 21: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

9

ritmo para a reconstrucao de arvores filogeneticas em ambiente distribuıdo;

e) estudo do padrao MPI: nesta etapa sera feito um estudo do padrao MPI e

quais das funcionalidades dele serao utilizadas na implementacao do algoritmo

especificado na etapa anterior;

f) estudo do pacote PHYLIP: nesta etapa sera estudado o funcionamento e im-

plementacao do pacote PHYLIP, pois nele que sera implementado o algoritmo

especificado na etapa anterior;

g) especificacao do software: nesta etapa o software de reconstrucao de arvores

filogeneticas em ambiente distribuıdo sera especificado utilizando diagramas da

Unified Modeling Language (UML);

h) implementacao do software: nesta etapa o software de reconstrucao de arvores

filogeneticas em ambiente distribuıdo sera implementado utilizando como base

o pacote PHYLIP.

i) testes: esta etapa ocorrera em paralelo com a implementacao. Serao feitos testes

de unidade e testes de caixa preta para averiguar se os resultados das execucoes

do software estao corretos;

j) integracao com o workflow : nesta etapa o software sera integrado com o work-

flow de reconstrucao filogenetica atraves de modelos estatısticos de famılias de

proteınas proposto por Theobald e Wuttke (2005);

k) testes de integracao: esta etapa ocorrera paralelamente a etapa anterior. Nela

sera averiguado se o workflow apresenta resultados corretos com a substituicao

do software PAUP* pela ferramenta desenvolvida neste trabalho;

l) comparacao de desempenho: comparacao com outras ferramentas para verificar

se o desempenho atingido supera o desempenho oferecido pelas ferramentas ja

existente.

As atividades serao realizadas nos perıodos relacionados no quadro 1.1.

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

Page 22: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

10

2006maio jun. jul. ago. set. out. nov.

etapas / quinzenas 1 2 1 2 1 2 1 2 1 2 1 2 1 2estudo de genetica molecular x xestudo de filogenetica x xestudo de metodos de distribuicao xespecificacao do algoritmo distribuıdo x xestudo do padrao MPI x xestudo do pacote PHYLIP x x x xespecificacao do software x x ximplementacao do software x x xtestes x x xintegracao com o workflow xtestes de integracao x xcomparacao de desempenho xredacao do volume final x x x x x x x x x x x

Quadro 1.1 – Cronograma

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

Page 23: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

11

2 REVISAO BIBLIOGRAFICA

Para melhor compreender o trabalho proposto, e importante apresentar algu-

mas nocoes de genetica molecular, bioinformatica, filogenetica molecular e sistemas dis-

tribuıdos. A secao 2.1 apresenta os princıpios da genetica molecular. Na secao 2.2 e

apresentada a bioinformatica, seus principais trabalhos e desafios. A secao 2.3 apresenta

a filogenetica molecular, no que e baseada e seus principais metodos. Tambem e apre-

sentada nesta secao o workflow proposto por Theobald e Wuttke (2005). Na secao 2.4

sao apresentados os conceitos de sistemas distribuıdos e o padrao MPI. E por fim, na

secao 2.5 sao apresentados os principais softwares de reconstrucao de arvores filogeneticas.

2.1 GENETICA MOLECULAR

A genetica e a area da biologia que estuda a hereditariedade entre os seres vivos.

Ela se basea no fato de que as caracterısticas morfologicas e estruturais dos pais sao

herdadas pelos filhos e atraves de mutacoes pontuais estas caracterısticas sao modificadas

ao longo de geracoes.

A Teoria da Evolucao das especies, proposta por Charles Darwin (DARWIN, 1859) e

amplamente aceita pela comunidade cientıfica. Ela apresenta as relacoes parentescas entre

as especies e forneceu criterios para uma classificacao hierarquica, consistente e unica dos

organismos. A Teoria da Evolucao das especies e baseada no princıpio que os seres vivos

sofrem mutacoes. Quando as mutacoes sao beneficas para o ser vivo, elas sao perpetuadas

em futuras geracoes, enquanto as que nao sao beneficas, nao sao perpetuadas e acabam

extintas.

O mecanismo que armazena as informacoes hereditarias dos seres vivos e o Acido

Desoxirribonucleico (Deoxyribonucleic Acid) (DNA) e ele e estudado pela genetica molecu-

lar. Segundo Strachan e Read (2002, pg. 1), a genetica molecular trata das inter-relacoes

entre as macromoleculas de informacoes - o DNA e o RNA - e de como elas sao utilizadas

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

Page 24: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

12

para sintetizar os poliptıdeos, os componentes basicos de todas as proteınas. Em todos

os seres vivos, as informacoes hereditarias estao contidas no DNA e em alguns vırus estao

no RNA.

Todos os seres vivos e vırus possuem genes, que sao sequencias de nucleotıdeos

que servem como moldes para a sıntese de proteınas. Os nucleotıdios podem ser Ade-

nina (A), Timina (T), Guanina (G), Citosina (C) e Uracila (U), sendo que as sequencias

de DNA sao formadas pelas quatro primeiras e nas de RNA a Timina e substituıda pela

Uracila. O conjunto de todos os genes de um organismo e denominado genoma. As

proteınas sao sequencias de aminacios, que constituem a maior parte da massa celular

seca. Segundo Alberts et al. (2004, pg. 129), proteınas nao sao meramente os blocos

que constroem as celulas, elas tambem executam praticamente todas as funcoes celula-

res. Proteınas especializadas fazem a sıntase do DNA, funcionam como hormonios, fibras

elasticas, anticorpos, mensageiras extracelulares e diversas outras funcoes.

De uma forma resumida, os genes estao codificados no genoma em forma de

sequencias de DNA, proteınas especializadas leem os genes e os transcrevem na forma

de RNA que sao levados aos ribossomos para servirem de molde na sıntese de proteınas.

Esta relacao de DNA, RNA e proteınas e chamada de dogma central da genetica molecular

(STRACHAN; READ, 2002).

2.2 BIOINFORMATICA

A bioinformatica e uma area de estudo que inclui a genetica molecular, a ciencia

da computacao e a estatıstica. Nela sao resolvidos problemas de caracter biologico,

utilizando-se tecnicas em sua maior parte estatısticas implementadas em computadores.

Os principais problemas da bioinfomatica sao relacionados a comparacao de sequencias

geneticas e proteicas. Estas comparacoes tem como objetivo pesquisar similaridade entre

as sequencias, para poder analisar a homologia entre as sequencias e tambem para inferir

a estrutura destas moleculas (MOUNT, 2004).

Sequencias homologas sao sequencias que possuem um ancestral comum, ou seja,

em algum ponto da historia houve uma mutacao numa sequencia que gerou uma variante

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

Page 25: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

13

mutante. Esta variante mutante e sua ancestral e outras variantes de ambas as sequencias

sao consideradas homologas. O estudo da homologia entre as sequencias e o grau de

parentesco entre sequencias geneticas e chamado de filogenetica molecular (MOUNT, 2004).

2.3 FILOGENETICA MOLECULAR

A filogenetica, tambem chamada de sistematica filogenetica, e o estudo das relacoes

evolucionarias entre taxons, desde o nıvel de indivıduo ate moleculares que armazenam

informacoes hereditarias da especie. O principal objetivo dela e a classificacao dos taxons

de acordo com o seu grau de parentesco evolutivo. Estes resultados sao representados

graficamente na forma de filogenias ou avores filogeneticas, indicando a relacao hereditaria

entre os organismos, onde cada taxon e ordenado de acordo com sua relacao parentesca.

Com a evolucao da genetica molecular e com a maior quantidade de dados geneticos

e proteicos, a filogenetica molecular teve inıcio. A filogenetica molecular estuda a evolucao

de genomas, genes e proteınas. Os metodos mais comuns para a reconstrucao de arvores

filogeneticas sao: maxima verossimilhanca, metodos de distancia e maxima parsimonia.

O metodo de maxima verossimilhanca se baseia na criacao de diferentes arvores

filogeneticas e com a utilizacao de modelos evolutivos, verifica qual ou quais delas tem

a maior probabilidade de representar a verdadeira evolucao ocorrida. A maxima par-

simonia trabalha agrupando caracterısticas pontuais presentes nas moleculas de DNA,

RNA ou proteicas e por fim, busca-se uma arvore que possua o menor numero de mutacoes

possıveis. O metodo de distancia utiliza uma matriz de valores contendo as distancias

evolutivas previamente calculadas entre as moleculas geneticas ou proteicas. Atraves des-

tas distancias, e construıda uma arvore, cujo objetivo e que se tenha o menor custo de

distancia entre os nodos.

Para a escolha do metodo mais apropriado e dito: programas baseados em metodos

de distancia sao comumente utilizados em laboratorios de biologia molecular porque eles

sao mais diretos e simples no uso e tambem podem ser utilizados quando ha grande

numero de sequencias. Metodos de maxima verossomilhanca sao mais trabalhosos no uso

e requerem maior compreensao do modelo evolutivo nos quais eles sao baseados. Como

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

Page 26: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

14

eles envolvem alto esforco computacional e este esforco aumenta dramaticamente com o

aumento da quantidade de sequencias, programas baseados neste metodo estao limitados

a analise de uma pequena quantidade de sequencias. Caso as sequencias sejam altamente

similares, recomenda-se utilizar o metodo de maxima parsimonia, que prediz a arvore

filogenetica minimizando o numero de passos necessarios para observar as variacoes nas

sequencias dos ancestrais ate a sequencia atual. Por este motivo, este metodo tambem e

conhecido como metodo de evolucao mınima (MOUNT, 2004).

Uma tecnica de filogenetica molecular, proposta por Theobald e Wuttke (2005), e

a filogenetica utilizando modelos estatısticos das famılias de proteınas. Em seu trabalho,

Theobald e Wuttke (2005) apresenta um workflow para a reconstrucao filogenetica uti-

lizando modelos estatısticos das famılias de proteınas. O primeiro passo do workflow e

a pesquisa de sequencias similares para cada proteına que deseja-se reconstruir a arvore

filogenetica. Com as proteınas similares, constroem-se modelos estatısticos da famılia da

proteına utilizando modelos ocultos de Markov. Os modelos estatısticos de cada famılia

das proteınas e comparado com todos os demais modelos e com os resultados destas com-

paracoes e construıdo uma matriz de valores que sera utilizada para que o software PAUP*

reconstrua a arvore filogenetica utilizando o metodo de distancia.

2.4 SISTEMAS DISTRIBUIDOS

Sistemas distribuıdos sao sistemas compostos por mais de um computador onde

a computacao do processo e distribuıdo entre eles. Um modelo de sistemas distribuıdos

sao os clusters. Neles, as tarefas de processamento de dados sao dividas entre diversos

nos, sendo cada no um computador independente. Um modelo de cluster que esta sendo

intensamente utilizado e o beowulf.

A computacao paralela num clusters beowulf e realizada dividindo-se o problema

computacional em partes, fazendo uso de multiplos processos e atribuindo a cada um

dos processos uma parte do problema. Uma das maneiras mais simples e diretas para

a comunicacao entre os processos e o envio e recebimento de mensagens entre os pro-

cessos participantes da computacao. Esta tecnica e chamada de passagem de mensagem

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

Page 27: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

15

(STERLING, 2002).

Para a passagem de mensagens, um grupo de fornecedores de computadores pa-

ralelos especificaram um padrao, o MPI. O MPI nao e uma implementacao especıfica,

mas um padrao para ser seguido na implementacao de bibliotecas de troca de mensagens

para computacao paralela. Para o desenvolvedor e transparente qual implementacao do

MPI sera utilizada, pois ele desenvolvera utilizando as interfaces especificadas por ele.

Desta forma, pode-se abstrair completamente qual implementacao do MPI sera utilizada

no momento de execucao.

O padrao MPI define diversas operacoes, sendo as principais: conhecimento do

numero de processos que participam do cluster, conhecimento de qual o numero do pro-

cesso no cluster, envio de mensagem a algum processo especıfico ou a todos os processos e

recebimento de mensagem de um processos especıfico ou de todos os processos. O padrao

MPI tambem fornece operacoes de envio e recebimento de mensagens assıncronos, especi-

ficacao de tipos, entrada e saıda paralela e acesso a memoria remota. Conhecendo apenas

as operacoes basicas citadas e possıvel implementar softwares distribuıdos utilizando o

padrao MPI (STERLING, 2002).

Um exemplo de utilizacao do padrao MPI na bioinformatica e o software mpi-

BLAST (DARLING; CAREY; FENG, 2003). Este software e utilizado para efetuar pesqui-

sas por similariedades em bancos de dados de sequencias geneticas e proteicas. Como o

processo de pesquisa pode ser demorado caso o banco de dados seja muito grande (acima

de um bilhao de pares de bases) ou deseja-se efetuar diversas pesquisas de forma rapida,

o mpiBLAST utiliza a tecnica de repartir o banco de dados em partes e delegar a cada

processo do cluster a pesquisa em uma parte dele.

2.5 TRABALHOS CORRELATOS

Existem diversos softwares para reconstrucao de arvores filogeneticas, sendo os

principais, PAUP* e PHYLIP. O PAUP* implementa os tres metodos num unico soft-

ware tendo ele uma linguagem propria para definir qual metodos e parametros utilizar. O

PAUP* permite definir qual metodo sera utilizado na reconstrucao filogenetica, sendo que

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

Page 28: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

16

os algoritmos algoritmos dele nao sao publicados. O PHYLIP e um pacote de diversos

softwares, para reconstrucao de arvores filogeneticas, exibicao destas arvores e avaliacao

da credibilidade das arvores reconstruıdas. O PHYLIP implementa algoritmos dos tres

metodos previamente descritos, sendo que os algoritmos sao publicados em artigos e em

livros e o codigo fonte que compoe pacote e aberto. Porem, o PAUP* e utilizado no work-

flow de Theobald e Wuttke (2005) porque segundo os autores, os algoritmos deste sao mais

otimizados, favorecendo desta forma o tempo de execucao do processo de reconstrucao da

arvore filogenetica.

Para a construcao de arvores filogeneticas em ambientes distribuıdos, o soft-

ware mais conhecido e o Reconstrucao Distribuıda de Filogenias por Maxima Verossi-

milhanca (Distributed Phylogeny Reconstruction by Maximum Likelihood) (DPRml) (KE-

ANE et al., 2005). Como o nome do software sugere, ele utiliza o metodo de maxima

verossimilhanca para a reconstrucao das arvores. Nele, cada possıvel arvore e processada

num no do sistema distribuıdo e verificado sua validade e probabilidade, entao os valo-

res sao retornados para o escalonador que escolhera a(s) arvore(s) mais provavel(s). As

principais caracterısticas do DPRml sao: a portabilidade e heterogeneidade do cluster,

pois utiliza Java Remote Method Invocation (RMI) para comunicacao entre os nodos e a

escalabilidade, onde novos nodos podem ser adicionados e removidos dinamicamente.

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

Page 29: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

17

3 CONSIDERACOES FINAIS

Entre os pacotes existentes para reconstrucao filogenetica, o PHYLIP (FELSENS-

TEIN, 2005) e o mais utilizado na area academica, pois possui um vasto conjunto de

aplicativos e e um pacote de software livre. Os algoritmos do PHYLIP nao sao otimi-

zados o bastante para a execucao de tarefas com muitas sequencias, tornando a tarefa

de reconstrucao de arvores filogeneticas lentas nestes casos. Como alternativa, existe o o

pacote PAUP* (SWOFFORD, 2004), que possui algoritmos otimizados e velozes, porem e

um pacote de software fechado e pago. Outra questao referente a ambos pacotes, e que

eles nao sao executados de forma distribuıda, mesmo com algoritmos otimizados. No caso

do PAUP* pode-se demorar na execucao das tarefas quando o volume de dados for alto.

Como uma alternativa para ambientes distribuıdos, tem-se o DPRml (KEANE et

al., 2005). Este software possui apenas o metodo de maxima verossimilhanca e nao foi

desenvolvido para clusters beowulf, mas para ambientes distribuıdos utilizando o Java

RMI. As vantagens dos clusters Beowulf e a sua escalabilidade, podendo crescer de

forma transparente para quemo utiliza e desenvolve software distribuıdos.

Como os metodos de reconstrucao de arvores filogeneticas sao paralelizaveis,

pretende-se implementa-los para reconstrucao de arvores filogencias num ambiente dis-

tribuıdo. Pretende-se implementar o algoritmo distribuıdo utilizando a base do pacote

PHYLIP e para comunicacao entre os processos, o padrao MPI. Entao instalalo num

cluster beowulf para executar a reconstrucao filogenetica utilindo o metodo de distancia

mınima de forma distribuıda. Apos, deseja-se utiliza-lo no workflow de reconstrucao filo-

genetica utilizando modelos estatısticos de famılias de proteınas proposto por Theobald

e Wuttke (2005). Com esta integracao, pretende-se ganhar desempenho na execucao de

tarefas de reconstrucao de arvore filogeneticas que necessitam de alto poder computacio-

nal.

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.

Page 30: TURNO: Norturno VERSÃO: N CENTRO DE CIÊNCIAS EXATAS …campeche.inf.furb.br/tccs/2006-II/2006-2-PR-FelipeAlbrecht_pr.pdf · lme nte nã o a te nde AS P ECTOS ... Caso não sejam

18

REFERENCIAS BIBLIOGRAFICAS

ALBERTS, Bruce et al. Biologia molecular da celula. 2. ed. Porto Alegre: [s.n.],2004.

BEOWULF.ORG: the Beowulf cluster site. San Francisco: [s.n.], 2004. Disponıvel em:<www.beowulf.org>. Acesso em: 26 mar. 2006.

CARL Woese and New Perspectives on Evolution. 2003. Disponıvel em: <http://nai-.arc.nasa.gov/news stories/news detail.cfm?ID=274>.

DARLING, A.; CAREY, L.; FENG, W. The desing, implementation, and evaluationof mpiblast. In: 4TH INTERNATIONAL CONFERENCE ON LINUX CLUSTERS:THE HPC REVOLUTION 2003 IN CONJUNCTION WITH THE CLUSTERWORLDCONFERENCE & EXPO, 2003, San Jose, Californa, USA. Proceddings... San Jose,CA: LA-UR, 2003.

DARWIN, Charles. The origin of species. [S.l.]: Martin Claret, 1859.

FELSENSTEIN, J. PHYLIP (Phylogeny inference package) version 3.6.Washington, 2005.

KEANE, T.M. et al. DPRml: distributed phylogeny reconstruction by maximumlikelihood. Bioinformatics, v. 21(7), p. 969–974, 2005.

MESSAGE Passing Interface. Chicago: [s.n.], 2006. Disponıvel em: <www-unix.mcs.anl-.gov/mpi/>. Acesso em: 26 mar. 2006.

MOUNT, David W. Bioinformatics: sequence and genome analysis. 2. ed. New York:[s.n.], 2004.

STERLING, Thomas (Ed.). Beowulf cluster computing with Linux. Cambridge,Massachusetts: The Mit Press, 2002.

STRACHAN, Tom; READ, Andrey P. Genetica molecular humana. 2. ed. PortoAlegre: [s.n.], 2002.

SWOFFORD, D. L. PAUP*: phylogenetic analysis using parsimony (*and othermethods). version 4. Sunderlander, Massachusetts: Sinauer Associates, 2004.

THEOBALD, Douglas L.; WUTTKE, Deborah S. Divergent evolution within proteinsuperfolds inferred from profile-based phylogenetics. Journal of Molecular Biology,v. 354, p. 722–737, 2005.

Please purchase PDF Split-Merge on www.verypdf.com to remove this watermark.