22
A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado por Nazareno

A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado

Embed Size (px)

Citation preview

Page 1: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado

A Worldwide Flock of Condors: Load Sharing among Workstation

Clusters

D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne

Apresentado por Nazareno

Page 2: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado

12.07.2002 Aplicações Distribuídas - DSC/UFCG 2

Roteiro

• Introdução• Condor• Flocking• Resultados• Conclusões

Page 3: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado

12.07.2002 Aplicações Distribuídas - DSC/UFCG 3

Introdução – o problema

• Computação científica e problemas compute-intensive;

• High-Throughput Computing (HTC) (diferente de High Performance Computing);

• Custo;• Wait-While-Idle;

Page 4: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado

12.07.2002 Aplicações Distribuídas - DSC/UFCG 4

Introdução – a solução

• Necessidade do usuário << Capacidade da máquina;

• Posse distribuída;• Em um cluster: Condor;• Em diversos clusters:Flocks of Condors;

Page 5: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado

12.07.2002 Aplicações Distribuídas - DSC/UFCG 5

Condor

• Sistema distribuído de compartilhamento e gerência da carga de trabalho de processos compute-intensive em um pool de workstations conectadas;

Page 6: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado

12.07.2002 Aplicações Distribuídas - DSC/UFCG 6

Condor – diretivas de design

1. Quase nenhum impacto na disponibilidade e qualidade do serviço das estações para seus usuários;

2. Completamente responsável por localizar os recursos necessários para um processo e pela execução deste;

3. Sem necessidade de nenhuma programação especial e deve manter ambiente na máquina em que o processo executa;

Page 7: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado

12.07.2002 Aplicações Distribuídas - DSC/UFCG 7

Condor - estrutura

Schedd

Startd

Máquina 1

Schedd

Startd

Máquina 2

Schedd

Startd

Máquina n-1

CENTRAL MANAGER

(...)

LAN

Page 8: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado

12.07.2002 Aplicações Distribuídas - DSC/UFCG 8

Condor - funcionamento

• Stard– Inicia, monitora e encerra processos

designados para esta estação;

• Schedd– Enfileira processos submetidos ao Condor

nesta estação e busca os recursos para estes.

Page 9: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado

12.07.2002 Aplicações Distribuídas - DSC/UFCG 9

Condor - protocolo

Schedd

Solicitante

CENTRAL MANAGER

Startd

Executora

contexto de J contexto da máquina

Faz um casamento entre o contexto de J

e da Executora

identificação de E

Shadow

forkrequisitos de J

ok, EStarter

JJ

Page 10: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado

12.07.2002 Aplicações Distribuídas - DSC/UFCG 10

Condor – protocolo

• A máquina que recebe o processo não avisa ao CM que não está mais disponível?

• Falhas – São tratadas transparentemente?– E falhas do CM?

Page 11: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado

12.07.2002 Aplicações Distribuídas - DSC/UFCG 11

Condor – outros aspectos

• Ambiente na máquina que executa é mantido:– Shadow;– Sistema de arquivos uniforme;

• Preempção– Prioridade total para o usuário da estação;– Checkpoints na máquina solicitante.

Page 12: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado

12.07.2002 Aplicações Distribuídas - DSC/UFCG 12

Flocking

• WWI entre pools;

• Novas diretivas:4. A instalação e manutenção de quaisquer

mecanismos adicionais deve ser fácil;5. Adicionar e retirar um pool de um flock

deve ser fácil;6. Deve ser fácil definir acordos de

compartilhamento de recursos entre os donos dos pools.

Page 13: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado

12.07.2002 Aplicações Distribuídas - DSC/UFCG 13

Flocking - acordos de compartilhamento

• Cooperação entre donos dos pools torna-se fundamental;

• Acordos de compartilhamento de recursos;

Page 14: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado

12.07.2002 Aplicações Distribuídas - DSC/UFCG 14

Flocking - design

• Unir pools X formar um bando (flocking):

• Centralização:– Centralização de controle;– Falta de escalabilidade;– Gargalo;

• Bando:– Isolamento de falhas;– Escalabilidade;– Distribuição da gerência (permissões, prioridades...).

Page 15: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado

12.07.2002 Aplicações Distribuídas - DSC/UFCG 15

Flocking – design

• Estrutura de bando centralizada X distribuída.

• Distribuída:– Escalabilidade;– Tolerância a falhas;– Distribuição da administração;

P2P??

Page 16: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado

12.07.2002 Aplicações Distribuídas - DSC/UFCG 16

Flocking - design

• Estrutura integrada X em camadas;

• Integrada:– Modificação dos CMs;– Transparência;

• Em camadas:– Estrutura atual mantida;– Modularização;

Page 17: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado

12.07.2002 Aplicações Distribuídas - DSC/UFCG 17

Flocking - funcionamento

• Máquinas Gateway– GW–Schedd– GW-Startd : máquinas disponíveis em outro

pool

• Um pool pode ter diversas, e cada uma pode se conectar a diversos pools;– Flock configuration file;

Page 18: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado

12.07.2002 Aplicações Distribuídas - DSC/UFCG 18

Flocking - funcionamento

Schedd

Solicitante

CENTRAL MANAGER

GW-Startd

GW

Contexto de uma máquina de outro pool

contexto de J

GW

contexto de J

Startd child

Startd

E

CENTRAL MANAGER

GW-Startd

GW

Shadow

contexto de J

contexto de JE

GW-Simulate Shadow

OK,E

OK, E

J

J

Page 19: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado

12.07.2002 Aplicações Distribuídas - DSC/UFCG 19

Flocking - escalonamento

• GW usa uma máquina aleatória de um pool para representar aquele pool;

• É impossível determinar a melhor máquina para representar o pool;

• Tudo, inclusive Checkpoints, fica transparente;

??

Page 20: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado

12.07.2002 Aplicações Distribuídas - DSC/UFCG 20

Flocking – outras considerações

• I/O na máquina solicitante não fica proibitivo na escala de WANs;

• Refinamentos no escalonamento ainda são necessários (?);

Page 21: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado

12.07.2002 Aplicações Distribuídas - DSC/UFCG 21

Resultados

• 1994: cerca de 250 estações em 5 países diferentes;

• Hoje: mais de 1000 máquinas no Flock da universidade. Jobs.

• Versão 6.2– Integração com Globus (Condor-G);

Page 22: A Worldwide Flock of Condors: Load Sharing among Workstation Clusters D. H. J Epema, Miron Livny, R. van Dantzig, X. Evers, and Jim Pruyne Apresentado

12.07.2002 Aplicações Distribuídas - DSC/UFCG 22

Conclusões

• Estrutura robusta para execução e gerência de processos compute-intensive numa perspectiva de High Throughput Computing;

• Previsão de Flocks heterogêneos e globais;