48
Cоздание российского сегмента европейской инфраструктуры EU DataGRID Ильин В.А. (НИИЯФ МГУ), Кореньков В.В. (ОИЯИ) 4 Всероссийская конференция RCDL 2002 «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» Дубна, 16 октября 2002 года

C оздание российского сегмента европейской инфраструктуры EU DataGRID

  • Upload
    feng

  • View
    48

  • Download
    0

Embed Size (px)

DESCRIPTION

C оздание российского сегмента европейской инфраструктуры EU DataGRID. Ильин В.А. (НИИЯФ МГУ), Кореньков В.В. (ОИЯИ) 4 Всероссийская конференция RCDL 2002 «Электронные библиотеки : перспективные методы и технологии, электронные коллекции» Дубна, 16 октября 2002 года. - PowerPoint PPT Presentation

Citation preview

Page 1: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

Cоздание российского сегмента европейской инфраструктуры EU

DataGRID

Ильин В.А. (НИИЯФ МГУ),Кореньков В.В. (ОИЯИ)

4 Всероссийская конференция RCDL 2002«Электронные библиотеки: перспективные

методы и технологии, электронные коллекции»

Дубна, 16 октября 2002 года

Page 2: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

Five Emerging Models of Networked Computing From The Grid

• Distributed Computing– || synchronous processing

• High-Throughput Computing– || asynchronous processing

• On-Demand Computing– || dynamic resources

• Data-Intensive Computing– || databases

• Collaborative Computing– || scientists

Ian Foster and Carl Kesselman, editors, “The Grid: Blueprint for a New Computing Infrastructure,” Morgan Kaufmann, 1999, http://www.mkp.com/grids

Page 3: C оздание российского сегмента европейской инфраструктуры  EU DataGRID
Page 4: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

The Globus Team:Layered Grid ArchitectureApplication

Fabric“Controlling things locally”: Access to, & control of, resources

Connectivity“Talking to things”: communication (Internet protocols) & security

Resource“Sharing single resources”: negotiating access, controlling use

Collective“Coordinating multiple resources”: ubiquitous infrastructure services, app-specific distributed services

InternetTransport

Application

Link

Internet Protocol Architecture

The Anatomy of the Grid: Enabling Scalable Virtual Organizations,I. Foster, C. Kesselman, S. Tuecke, Intl J. Supercomputer Applns, 2001. www.globus.org/research/papers/anatomy.pdf

Page 5: C оздание российского сегмента европейской инфраструктуры  EU DataGRID
Page 6: C оздание российского сегмента европейской инфраструктуры  EU DataGRID
Page 7: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

CERN

Page 8: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

LHC in the LEP Tunnel Counter circulating beams of protons in the same beampipe.

Centre of mass collision energy of 14 TeV. 1000 superconducting bending magnets, each 13 metres long, field 8.4 Tesla.

Super-fluid Helium cooled to 1.90 K

World’s largest superconducting structure

Page 9: C оздание российского сегмента европейской инфраструктуры  EU DataGRID
Page 10: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

The LHC detectors

CMSATLAS

LHCb

3.5 Petabytes/year 109 events/year

Page 11: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

Событие в LHC

Page 12: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

Online systemOnline system• Multi-level trigger

• Filter out background• Reduce data volume• Online reduction 107

• Trigger menus • Select interesting events • Filter out less interesting

level 1 - special hardware

40 MHz (40 TB/sec)level 2 - embedded processorslevel 3 - PCs

75 KHz (75 GB/sec)5 KHz (5 GB/sec)100 Hz(100 MB/sec)Data recording &offline analysis

Page 13: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

LHC Challenges: Scale

• Data written to tape ~5 Petabytes/Year and UP (1 PB = 10**9 MBytes)

• Processing capacity 100 - TIPS and UP

(1 TIPS = 10**6 MIPS) • Typical networks 0.5 - Few Gbps Per Link • Lifetime of experiment 2-3 Decades • Users ~ 5000 physicists • Software developers ~ 300 (Four Experiments)

Page 14: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

Требуемые скорости коммуникаций в структуре региональных центров для LHC

Page 15: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

tape servers

disk servers

application servers

Generic model of a Fabric (computing farm)

to external network

local network servers

Page 16: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

5250

0.88 24 *

960 *

6 *

1.5

12

LAN-WAN Routers

Computing fabricat CERN (2005)

0.8

0.8Storage Network

StorageNetwork

Farm Network

0.5 M SPECint95

0.5 M SPECint95

> 5K processors

> 5K processors

0.5 PByte disk

0.5 PByte disk

> 5K disks> 5K disks

One experiment !

One experiment !

* Data Ratein Gbps

Thousands of CPU boxes

Thousands of disks

Hundreds oftape drives Real-time

detector data

Page 17: C оздание российского сегмента европейской инфраструктуры  EU DataGRID
Page 18: C оздание российского сегмента европейской инфраструктуры  EU DataGRID
Page 19: C оздание российского сегмента европейской инфраструктуры  EU DataGRID
Page 20: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

StarLight: The Optical STAR TAP

ANL

OC-12CA*net4

Bell Nexxia(Chicago)

I-WIRE& Optical

MREN

STAR TAP

UIUC UC

AADSATM

BN

NUEvanston

iCAIR

GigE

GigE

IUBloom-ington

IUPUI

PurdueStarLight

NUChicago

SURFnet

CERN

?This diagram subject to change

UIC

Page 21: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

NLSURFnet

Geneva

UKSuperJANET4

Abilene

ESNET

MREN

ItGARR-B

GEANT

NewYork

STAR-TAP

STAR-LIGHT

DataTAG project

Page 22: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

Некоторые Grid ПроектыName URL/

SponsorFocus

European Union (EU) DataGrid

www.eu-datagrid.orgEuropean Union

Создание реальной Grid для различных приложений в области Физики Высоких Энергий, Биоинформатики и ООС.

EU DataTAG Project

www.datatag.org Interoperability between European and US Grids

CrossGrid European UnionEuroGrid, Grid Interoperability (GRIP)

www.eurogrid.orgEuropean Union

Создание технологий для удалённого доступа к суперкомпьютерам и их приложениям

Globus Project™ globus.orgDARPA, DOE, NSF, NASA, Msoft

Исследование в области Grid технологий; создание и тех. поддержка Globus Toolkit™; приложения.

GridPP gridpp.ac.ukU.K. eScience

Создание реальной Grid в Англии для исследований в области Физики Элементарных Частиц.

Page 23: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

Некоторые Grid Проекты

Name URL/Sponsor

Focus

Grid Physics Network

griphyn.orgNSF

Cоздание технологий для анализа данных в физике: ATLAS, CMS, LIGO, SDSS

International Virtual Data Grid Laboratory

ivdgl.orgNSF

Создание реальной международной Grid для экспериментов над Grid технологиями и приложениями

TeraGrid teragrid.orgNSF

Научная инфраструктура в США, связывающая 4 организации 40 Gb/s

Particle Physics Data Grid

ppdg.netDOE Science

Создание реальной Grid для анализа данных в Физике Высоких Энергий и Ядерной физике

Page 24: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

EDG overview : structure , work packages

The EDG collaboration is structured in 12 Work Packages WP1: Work Load Management System WP2: Data Management WP3: Grid Monitoring / Grid Information Systems WP4: Fabric Management WP5: Storage Element WP6: Testbed and demonstrators WP7: Network Monitoring WP8: High Energy Physics Applications WP9: Earth Observation WP10: Biology WP11: Dissemination WP12: Management

} Applications

Page 25: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

EDG middleware architecture Globus hourglass

• Current EDG architectural functional blocks: – Basic Services ( authentication, authorization,

Replica Catalog, secure file transfer,Info Providers) rely on Globus 2.0

(GSI, GRIS/GIIS,GRAM, MDS)

OS & Net servicesBasic Services

High level GRID middleware

LHCVO common application layer

Other apps

ALICE ATLAS CMS LHCbSpecific application layer Other apps

GLOBUS 2.0

GRID middleware

Page 26: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

DataGrid Architecture

Collective Services

Information & Monitoring

Replica Manager

Grid Scheduler

Local Application Local Database

Underlying Grid Services

Computing Element Services

Authorization Authentication & Accounting

Replica Catalog

Storage Element Services

Database Services

Fabric services

ConfigurationManagement

Node Installation &Management

Monitoringand Fault Tolerance

Resource Management

Fabric StorageManagement

Grid

Fabric

Local Computing

Grid Grid Application Layer

Data Management

Job Management

Metadata Management

Object to File

Mapping

Logging & Book-

keeping

Page 27: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

EDG middleware architecture: EDG interfaces

Computing Computing ElementsElements

SystemSystem ManagersManagers

ScientisScientiststs

OperatingOperating SystemSystem

FileFile SystemsSystems

StorageStorage ElementsElementsMassMass Storage Storage

SystemsSystemsHPSS, CastorHPSS, Castor

UserUser AccountsAccounts

CertificateCertificate AuthoritiesAuthorities

ApplicationApplication DevelopersDevelopers

BatchBatch SystemsSystems

Collective Services

Info & Monitor

Replica Manager

Grid Scheduler

Local Application

Local Database

Underlying Grid ServicesComputing

Element Services

Authorization Authentication

AccountingReplica Catalog

Storage Element Services

SQL Database Services

Fabric servicesConfig

Managem.Node

Installation Managem.

MonitoringFault

ToleranceResource

Managem.Fabric

StorageManagem.

Grid Application LayerData

Managem.Job

Managem.Metadata

Managem.Object to File Map

Logging & Book-

keeping

Page 28: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

EDG middleware architecture:

The Workload Management System (WP1)

• WP1 is responsible for the Workload Management System (WMS).The WMS is currently composed by the following parts:– User Interface (UI) : access point for the user to the GRID ( using JDL)– Resource Broker (RB) : the broker of GRID resources,

matchmaking– Job Submission System (JSS) : Condor-G; interfacing

batch systems– Information Index (II) : an LDAP server used as a filter to

select resources– Logging and Bookkeeping services (LB) : MySQL

databases to store Job Info

Page 29: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

WP1: Work Load Management

ComponentsJob Description LanguageResource BrokerJob Submission ServiceInformation IndexUser InterfaceLogging & Bookkeeping Service

Collective Services

Info & Monitor

Replica

ManagerGrid

Scheduler

Local Application Local Database

Underlying Grid Services

Computing Element Services

Authorization Authentication

AccountingReplica Catalog

Storage Element Services

Fabric services

ConfigManagement

Node Installation Management

MonitoringFault

ToleranceResource

Managem.Fabric StorageManagement

Grid Application Layer

Data Managem.

Metadata Managem.

Object to File

Mapping

Logging & Book-

keeping

Implementation: UI : python (LB client : C++) RB : C++ JSS : C++, python II : LDAP server LB: MySQL, C++ Input/Output Sandboxes: GridFTP

Job Managem.

SQL Database Services

WMS main interfaces: Globus Gatekeeper WP2 Replica Catalog APIs WP3 Information Systems WP7 network monitoring info providers

End User (using JDL files, on the UI)

Page 30: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

WP2: Data Management

Deployed ComponentsGridFTPReplica Manager - edg-replica-managerReplica Catalog - globus-replica-catalogGDMPSpitfire

Collective Services

Info & Monitor

Grid Scheduler

Replica Manager

Local Application Local Database

Underlying Grid Services

Computing Element Services

Authorization Authentication

Accounting

Replica Catalog

Fabric services

ConfigManagement

Node Installation Management

MonitoringFault

ToleranceResource

Managem.Fabric StorageManagement

Grid Application Layer

Job Managem.

Metadata Managem.

Object to File

Mapping

Logging & Book-

keeping

Implementation: RM: C++ classes (under development) RC : Globus Replica Catalog wrapper GDMP : C++ Spitfire : Java, Web Services

Data Managem.

SQL Database Services

WP2 main interfaces: The GRID Storage Element WP1 Resource Broker APIs WP3 GRID Info servicesWP7 network monitoring info providersEnd User (using GDMP)

Storage Element Services

Page 31: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

WP2 next generation Replication Services

Replica Manager

Replica Metadata

Replica Location

File Transfer

Optimization

Transaction

Consistency

Preprocessing

Postprocessing

Subscription

Client

Reptor

Giggle

RepMeC

Optor

GDMP

Page 32: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

Replication Services Architecture

ReplicaLocation

Index

Site

Replica Manager

StorageElement

ComputingElement

Optimiser

Resource Broker

User Interface

Pre-/Post-processing

Core API

Optimisation API

Processing API

LocalReplicaCatalog

ReplicaLocation

Index

ReplicaMetadata CatalogReplica

LocationIndex

Site

Replica Manager

StorageElement

ComputingElement

OptimiserPre-/Post-processing

LocalReplicaCatalog

Page 33: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

Interface1

Interface3

Interface2

Message Queue

Session Manager

System Log House Keeping

MetaData

MSSInterface

MSSInterface

MSS1 MSS2

Top layer

Core

Bottom layer

Clients ( RB,JSS, RM, GDMP, InfoServices(WP3),User Applic running on CEs, CLIs)

Storage Element

The SE architecture

Page 34: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

DataGrid Architecture

Collective Services

Information & Monitoring

Replica Manager

Grid Scheduler

Local Application Local Database

Underlying Grid Services

Computing Element Services

Authorization Authentication & Accounting

Replica Catalog

Storage Element Services

Database Services

Fabric services

ConfigurationManagement

Node Installation &Management

Monitoringand Fault Tolerance

Resource Management

Fabric StorageManagement

Grid

Fabric

Local Computing

Grid Grid Application Layer

Data Management

Job Management

Metadata Management

Object to File

Mapping

Logging & Book-

keeping

Page 35: C оздание российского сегмента европейской инфраструктуры  EU DataGRID
Page 36: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

Comment: some servers and services are under construction

Page 37: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

Освоена технология создания информационных серверов GIIS, собирающих информацию о локальных вычислительных ресурсах и ресурсов по хранению данных (создаваемых GLOBUS службой GRIS на каждом узле распределенной системы) и передающих эту информацию в динамическом режиме в вышестоящий сервер GIIS. Таким образом, освоена и протестирована иерархическая структура построения информационной службы GRIS-GIIS. Организован общий информационный сервер GIIS (ldap://lhc-fs.sinp.msu.ru:2137), который передает информацию о локальных ресурсах российских институтов на информационный сервер GIIS (ldap://testbed1.cern.ch:2137) европейского проекта EU DataGRID.

Page 38: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

Russian National GIIS

SRCC MSU, KIAM and TCSS participate only in Russian DataGrid project and are not involved in CERN projects.

dc=ru, o=gridCountry-level GIISlhc-fs.sinp.msu.ru:2137

dc=sinp, dc=ru, o=gridSINP MSU, Moscow

dc=srcc, dc=ru, o=gridSRCC MSU, Moscow

dc=itep, dc=ru, o=gridITEP, Moscow

dc=jinr, dc=ru, o=gridJINR, Dubna

dc=kiam, dc=ru, o=gridKIAM, Moscow

CERN Top-levelWP6 GIIStestbed001.cern.ch:2137

dc=ihep, dc=ru, o=gridIHEP, Protvino

dc=tcss, dc=ru, o=gridTCSS, Moscow

dc=?, dc=ru, o=gridSt. Petersburg

Page 39: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

В НИИЯФ МГУ создан Сертификационный центр (Certification authority, СА) для российского сегмента. Сертификаты этого центра принимаются всеми участниками европейского проекта EU DataGRID.

Разработана схема подтверждения запросов на сертификаты с помощью расположенных в других организациях Регистрационных центров (Registration authority, RC), заверяющих запросы пользователей электронной подписью с помощью сертификата GRID.

Разработаны программы постановки и проверки электронной подписи, а также пакет программ для автоматизации работы Сертификационного центра.

Предложенная схема CA+RC и пакет программ приняты в ЦЕРНе и других участниках европейского проекта EU DataGRID.

Page 40: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

Инсталлирована и протестирована программа репликации файлов и баз данных GDMP (GRID Data Mirroring Package), которая создана для выполнения удаленных операций с распределенными базами данных. Она использует сертификаты GRID и работает по схеме клиент-сервер, т.е. репликация изменений в базе данных происходит в динамическом режиме. Сервер периодически оповещает клиентов об изменениях в базе, а клиенты пересылают обновленные файлы с помощью команды GSI-ftp. Текущая версия GDMP работает с объектно-ориентированнной базой данных Objectivity DB, а также создается версия с динамической репликацией обычных файлов. Программа GDMP активно используется для репликации в ЦЕРН распределенной базы смоделированных данных, создаваемой в ОИЯИ (Дубна), НИИЯФ МГУ и других институтах по физике высоких энергий для эксперимента LHC-CMS. Программа GDMP рассматривается в качестве GRID стандарта для репликации изменений в распределенных базах данных.

Page 41: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

В ОИЯИ выполнен комплекс работ по мониторингу сетевых ресурсов, узлов, сервисов и приложений. Сотрудники ОИЯИ принимают участие в развитии средств мониторинга для вычислительных кластеров с очень большим количеством узлов (10.000 и более), используемых в создаваемой инфраструктуре EU DataGRID.

В рамках задачи Monitoring and Fault Tolerance (Мониторинг и устойчивость при сбоях) они участвуют в создании системы корреляции событий (Correlation Engine). Задача этой системы - своевременное обнаружение аномальных состояний на узлах кластера и принятие мер по предупреждению сбоев.

С помощью созданного прототипа Системы корреляции событий (Correlation Engine) ведется сбор статистики аномальных состояний узлов на базе вычислительных кластеров ЦЕРН. Производится анализ полученных данных для выявления причин сбоев узлов. На втором этапе предусмотрено расширение прототипа Correlation Engine с учетом полученных результатов и испытание системы автоматизированного предупреждения сбоев на практике.

Этот прототип установлен на вычислительных кластерах в ЦЕРН и ОИЯИ, где производится сбор статистики аномальных состояний узлов.

Page 42: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

В сотрудничестве с Институтом прикладной математики имени M.И. Келдыша программа Metadispetcher установлена в российском сегменте инфраструктуры EU DataGRID.

Программа Metadispetcher предназначена для планирования запуска заданий в среде распределенных компьютерных ресурсов типа GRID.

Было проведено ее тестирование, по результатам которого программа была доработана для обеспечения эффективной передачи данных средствами GLOBUS.

Page 43: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

Задача массовой генерациисобытий для CMS на LHC

PYTHIA NTPL GEANT3 FZORCA

ooHITS

PYTHIA NTPL GEANT3 FZORCA

ooHITS

data_set_1data_set_2 Objy/DB

signal

Objy/DB

pile up

ORCAdigis

ORCAuser

analysisObjy/DB

ROOT,NTPL

Page 44: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

Задача массовой генерациисобытий для CMS на LHC (как это было)

RefDB at CERN

EnvironmentIMPALABOSS

GKbatch manager

NFS

jobs

mySQL DB

N1 N2 CMKINjob executer

Nn

UIUI

Page 45: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

Задача массовой генерациисобытий для CMS на LHC (предложенное

решение)

GRID

Environment

DOLLYBOSS

jobsmySQL DB

RefDB at CERN

CEbatch manager

NFS

WN1 WN2 CMKINIMPALAWNn

UI

EDG-RB

UI

job executerjob

Page 46: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

Апробация массовой генерации

UIRBJSS

RCLB

II

Padova

LNL CNAFMoscow

CNAFor

CERN Padova

Page 47: C оздание российского сегмента европейской инфраструктуры  EU DataGRID
Page 48: C оздание российского сегмента европейской инфраструктуры  EU DataGRID

Useful References:• GLOBAL GRID FORUM: http://www.gridforum.org• European GRID FORUM: http://www.egrid.org • PPDG: http://www.ppdg.org • IVDGL : http://www.ivdgl.org• EU DATA GRID Project: http://www.eu-datagrid.org• DATATAG Project: http://www.datatag.org• GLOBUS Project: http://www.globus.org• GriPhynProject: http://www.griphyn.org• CrossGRID : http://www.cyfronet.krakow.pl/crossgrid • Condor: http://www.cs.wisc.edu/condor • TERAGRID Project: http://www.teragrid.org• RIVK-BAK Project: http://theory.sinp.msu.ru/~ilyin/RIVK-BAK• «Open Systems» Journal: http://www.osp.ru