16
1 Data Integration in a Bandwidth-Rich World Ian Foster and Robert L. Grossman Universidade Federal Fluminense Doutorado em Computação – Engenharia de Redes Daniela Quitete de Campos Vianna

Data Integration in a Bandwidth-Rich World Ian Foster and Robert L. Grossman

  • Upload
    dirk

  • View
    31

  • Download
    0

Embed Size (px)

DESCRIPTION

Data Integration in a Bandwidth-Rich World Ian Foster and Robert L. Grossman Universidade Federal Fluminense Doutorado em Computação – Engenharia de Redes Daniela Quitete de Campos Vianna. Introdução. Avanços nas tecnologias de redes Sistemas computacionais cada vez mais velozes - PowerPoint PPT Presentation

Citation preview

Page 1: Data Integration in a  Bandwidth-Rich World Ian Foster and Robert L. Grossman

1

Data Integration in a

Bandwidth-Rich World

Ian Foster and Robert L. Grossman

Universidade Federal FluminenseDoutorado em Computação – Engenharia de RedesDaniela Quitete de Campos Vianna

Page 2: Data Integration in a  Bandwidth-Rich World Ian Foster and Robert L. Grossman

2

Introdução

Avanços nas tecnologias de redes

Sistemas computacionais cada vez mais velozes

Crescimento do conhecimento

Obtenção de grandes quantidades de dados

Computação em Grid?

E-Science?

Page 3: Data Integration in a  Bandwidth-Rich World Ian Foster and Robert L. Grossman

3

Computação em Grid

• Objetivo: tornar a computação de alto desempenho acessível a usuários que não possuem recursos disponíveis localmente.

• Desafios:– Heterogeneidade;– Múltiplos domínios administrativos;– Escalabilidade;– Natureza dinâmica do ambiente;– Compartilhamento de dados e de recursos;– Transparência.

Page 4: Data Integration in a  Bandwidth-Rich World Ian Foster and Robert L. Grossman

4

e-Science

• Diversos tipos de pesquisa que envolvem aplicações científicas de grande escala .

• Classes de Problemas:– modelagens e simulações sociais, climáticas e de

oceanos;– bio-informática;– bio-medicina;– física de alta energia;– entre outros.

Page 5: Data Integration in a  Bandwidth-Rich World Ian Foster and Robert L. Grossman

5

Integração de Dados

• Paradigma Tradicional x Paradigma Atual

• Foco– middlewares para permitir que organizações

distribuídas acessem e compartilhem dados, redes e outros recursos de uma maneira controlada e segura.

Page 6: Data Integration in a  Bandwidth-Rich World Ian Foster and Robert L. Grossman

6

Integração de Dados

• Dados distribuídos possuem diferentes:– formatos;– qualidade;– mecanismos e políticas de acesso...

• É preciso definir soluções e padrões para:– acesso e descoberta de dados;– exploração e análise de dados;– gerenciamento de recursos e segurança.

Page 7: Data Integration in a  Bandwidth-Rich World Ian Foster and Robert L. Grossman

7

Acesso e Descoberta de Dados

• Descoberta de dados: middlewares que examinem metadados;– web services;– XML e bancos de dados relacionais;– Serviços de acesso a dados e integração em Grids;– LDAP (Lightweight Directory Access Protocol).

• Mecanismos de acesso– OPeNDAP (Open source project for a Network Data Access

Protocol);– SRB (Storage Resource Broker);– DSTP (DataSpace Transfer Protocol);– GridFTP;– OGSA-DAI (OGSA-based Data Access and Integration).

Page 8: Data Integration in a  Bandwidth-Rich World Ian Foster and Robert L. Grossman

8

Exploração e Análise de Dados

• Necessidade de serviços que identifiquem a relevância dos dados obtidos;– estatística;– exploração visual dos dados...

• Existência de ferramentas que gravam, organizam e obtêm novos dados a partir de dados já explorados.

Page 9: Data Integration in a  Bandwidth-Rich World Ian Foster and Robert L. Grossman

9

Gerenciamento de Recursos e Segurança

• Acesso seguro a dados distribuídos;

• Controle no acesso aos recursos envolvidos na integração dos dados;

• Técnicas de replicação e distribuição de dados através da rede;

• Identificação da localização de dados mais próxima ao ponto de solicitação.

Page 10: Data Integration in a  Bandwidth-Rich World Ian Foster and Robert L. Grossman

10

Exemplo 1 (iGrid 2002)• Integração (on the fly) de dados;

• Taxas de transferência maiores que 2.4Gbps.

• DataSpace Data Web: movimentação de dados através do Atânctico;

• Versão paralela do SABUL: transporte de Dados;

• DSTP: gerenciamento de chaves, metadados e dados.

Page 11: Data Integration in a  Bandwidth-Rich World Ian Foster and Robert L. Grossman

11

Sloan Digital Sky Survey (SDSS)

• Estudo de imagens digitais - até 2007 terá mapeado ¼ do espaço;

• 250 milhões de objetos detectados

• 10 TB de imagens

• 2 TB catálogos

Page 12: Data Integration in a  Bandwidth-Rich World Ian Foster and Robert L. Grossman

12

Sloan Digital Sky Survey (SDSS)

Page 13: Data Integration in a  Bandwidth-Rich World Ian Foster and Robert L. Grossman

13

Gerenciamento de Dados no Globus

• Componente que fornecem interfaces de acesso uniformes para vários tipos de dados– GridFTP;– OGSA-DAI;– Metadata Catalog Service (MCS).

Page 14: Data Integration in a  Bandwidth-Rich World Ian Foster and Robert L. Grossman

14

Gerenciamento de Dados no Globus

• Componentes para movimentação e transferência de dados– Globus-url-copy;– Reliable File Transfer (RFT) Service;– UberFTP: cliente GridFTP;– GSI-SCP/SFTP: ferramenta OpenSSH que

suporta autenticação no Grid.

Page 15: Data Integration in a  Bandwidth-Rich World Ian Foster and Robert L. Grossman

15

Gerenciamento de Dados no Globus

• Componentes para otimização do acesso aos dados– Replica Location Service (RLS);– NeST;– DataCutter.

Page 16: Data Integration in a  Bandwidth-Rich World Ian Foster and Robert L. Grossman

16

Conclusão

• Avanços nas tecnologias de redes proporcionando o compartilhamento de recursos e dados;

• Necessidade de middlewares para integração de dados.