3
NEFTIS Michel SILLAND – 06 74 95 05 21– [email protected] Il y a des types d'événements qui défient toute solution (un astéroïde par exemple ou des mouvements sociaux de très grande ampleur). Il est donc indispensable, dans toute approche, de décrire aussi précisément que possible les sinistres qui ne seront pas traités. NEFTIS aide les entreprises à construire la Stratégie de Continuité Les gestionnaires d'infrastructures et de systèmes sont très préoccupés par les pannes. Leur métier consiste à faire fonctionner simultanément de façon harmonieuse et prévisible des milliers ou des dizaines de milliers de matériels et de logiciels. Les causes de panne - amenant frustration et insatisfaction - sont donc multiples. Nous nous attachons à traiter la question des Plans de Continuité et d'une manière générale à diminuer l'impact des sinistres. Ne pas tout confondre Les directeurs de Centre de Production, les managers de Centre de Traitement Informatique sont confrontés quotidiennement à des pannes (programme défaillant, erreur humaine, base de données saturée, planning non respecté,...). Ces pannes surviennent à des fréquences quotidiennes et sont l'objet même de la gestion des systèmes d'informations. L'amélioration et la suppression asymptotique (on n'y arrive vraiment jamais) des causes d'interruption ne relèvent pas d'un plan de continuité. Pour obtenir un résultat satisfaisant la technologie ne peut pas grand chose. Ce qu'il faut c'est maîtriser les processus de production. La Sûreté de fonctionnement relève essentiellement d'une démarche qualité. Une classe très particulière des causes de pannes se situe dans les matériels. Un processeur peut tomber en panne, une baie de disque peut s'arrêter sans crier gare, une ligne d'alimentation ondulée peut disjoncter, une armoire de climatisation peut s'arrêter... Ces événements sont peu fréquents (nous les avons placés à une fréquence de l'ordre de l'année pour fixer les échelles). Ces pannes sont, le plus souvent, bien approchées par les gestionnaires qui y sont confrontés depuis qu'ils ont à gérer des infrastructures complexes. Pour pallier ces pannes, nous entrons dans le domaine de la redondance. La façon classique dede procéder est de doubler tous les équipement sensibles. La Haute Disponibilité relève essentiellement d'une approche architecturale Le Domaine de la Haute Disponibilité Les Domaines des Plans de Continuité (PRA, PCA,…) La situation est toute différente quand un événement (un sinistre) touche tout un ensemble de matériels par exemple quand une salle machine brûle ou est inaccessible. En effet les mesures à prendre pour restaurer les fonctions essentielles et critiques nécessitent la mobilisation de moyens exceptionnels et l'organisation (donc le rôle des personnes elles- mêmes) est très affectée par l'événement. Nous sommes dans le domaine des événements assurables - donc rares - et pour lesquels il est intéressant (mais pas toujours possible) d'avoir des statistiques de survenance. Les Plans de Continuité relèvent essentiellement d'une approche organisationnelle Les Domaines non traités CONSULTING Stratégie Le Domaine de la Haute Disponibilité

NEFTIS Michel SILLAND – 06 74 95 05 21– [email protected] Il y a des types d'événements qui défient toute solution (un astéroïde par exemple ou des mouvements

Embed Size (px)

Citation preview

Page 1: NEFTIS Michel SILLAND – 06 74 95 05 21– msilland@neftis.eu Il y a des types d'événements qui défient toute solution (un astéroïde par exemple ou des mouvements

NEFTIS

Michel SILLAND – 06 74 95 05 21– [email protected]

Il y a des types d'événements qui défient toute solution (un astéroïde par exemple ou des mouvements sociaux de très grande ampleur). Il est donc indispensable, dans toute approche, de décrire aussi précisément que possible les sinistres qui ne seront pas traités.

NEFTIS aide les entreprises à construire la Stratégie de Continuité

Les gestionnaires d'infrastructures et de systèmes sont très préoccupés par les pannes. Leur métier consiste à faire fonctionner simultanément de façon harmonieuse et prévisible des milliers ou des dizaines de milliers de matériels et de logiciels. Les causes de panne - amenant frustration et insatisfaction - sont donc multiples. Nous nous attachons à traiter la question des Plans de Continuité et d'une manière générale à diminuer l'impact des sinistres.

Ne pas tout confondre

Les directeurs de Centre de Production, les managers de Centre de Traitement Informatique sont confrontés quotidiennement à des pannes (programme défaillant, erreur humaine, base de données saturée, planning non respecté,...). Ces pannes surviennent à des fréquences quotidiennes et sont l'objet même de la gestion des systèmes d'informations. L'amélioration et la suppression asymptotique (on n'y arrive vraiment jamais) des causes d'interruption ne relèvent pas d'un plan de continuité. Pour obtenir un résultat satisfaisant la technologie ne peut pas grand chose. Ce qu'il faut c'est maîtriser les processus de production. La Sûreté de fonctionnement relève essentiellement d'une démarche qualité.

Une classe très particulière des causes de pannes se situe dans les matériels. Un processeur peut tomber en panne, une baie de disque peut s'arrêter sans crier gare, une ligne d'alimentation ondulée peut disjoncter, une armoire de climatisation peut s'arrêter...  Ces événements sont peu fréquents (nous les avons placés à une fréquence de l'ordre de l'année pour fixer les échelles). Ces pannes sont, le plus souvent, bien approchées par les gestionnaires qui y sont confrontés depuis qu'ils ont à gérer des infrastructures complexes. Pour pallier ces pannes, nous entrons dans le domaine de la redondance. La façon classique dede procéder est de doubler tous les équipement sensibles. La Haute Disponibilité relève essentiellement d'une approche architecturale

Le Domaine de la Haute Disponibilité

Les Domaines des Plans de Continuité (PRA, PCA,…)

La situation est toute différente quand un événement (un sinistre) touche tout un ensemble de matériels par exemple quand une salle machine brûle ou est inaccessible. En effet les mesures à prendre pour restaurer les fonctions essentielles et critiques nécessitent la mobilisation de moyens exceptionnels et l'organisation (donc le rôle des personnes elles-mêmes) est très affectée par l'événement. Nous sommes dans le domaine des événements assurables - donc rares - et pour lesquels il est intéressant (mais pas toujours possible) d'avoir des statistiques de survenance. Les Plans de Continuité relèvent essentiellement d'une approche organisationnelle

Les Domaines non traités

CONSULTINGStratégie

Le Domaine de la Haute Disponibilité

Page 2: NEFTIS Michel SILLAND – 06 74 95 05 21– msilland@neftis.eu Il y a des types d'événements qui défient toute solution (un astéroïde par exemple ou des mouvements

NEFTIS

Michel SILLAND – 06 74 95 05 21– [email protected]

Les Domaines de la Continuité

Probabilité d’occurrence

Gravité

1 0

Domaine de la Sûreté de Fonctionnement

A

Domaine de la haute

Disponibilité

B

Domaine du PRA

C

DomaineNon traité

D

Jour

Année

Millénaire

Décennie

Siècle

Exemple d’approche stratégique : Le Dual Site et le Campus avec secours classique n’apportent pas les mêmes réponses en matière de continuité.

Le Client est-il protégé ?

PDIADMIA

OUI 0/0

OUI 0/0

Partiellement 0/0

OUI 0/0

NON

OUI

0/?

0/?

0/0

0/?

Partiellement

Partiellement

Partiellement

Le Client est-il protégé ?

PDIA/DMIA

OUI 0/0

OUI {24} / {6-72}

OUI {24} / {6-72}

OUI {24} / {6-72}

OUI {24} / {6-72}

{24} / {6-72}

{24} / {6-72}

OUI {24} / {6-72}

OUI {24} / {6-72}

Partiellement

Partiellement

PDIA = Perte de données admissible, DMIA = Durée de redémarrage admissible (en heures)

Le Client est-il protégé ?

PDIADMIA

OUI 0/0

NON

Partiellement

NON

NON

NON

Partiellement

Partiellement

0/?

0/?

Campus Dual Site Campus et secours classiqueSolution

Mouvements sociaux à l’extérieur de l’entreprise

Mouvements sociaux dans l’entreprise

Sinistre

•Destruction physique d’un des deux bâtiments (DUAL SITE ou CAMPUS)•Destruction totale du CAMPUS

•Sinistre régional

•Blocage d’un terrain avec ses bâtiments

•Blocage des deux terrains éloignés du Dual Site

•Grève générale étendue

•Grève des transports routiers

•Emeute de quartier

•Manifestation contre l’entreprise

Page 3: NEFTIS Michel SILLAND – 06 74 95 05 21– msilland@neftis.eu Il y a des types d'événements qui défient toute solution (un astéroïde par exemple ou des mouvements

NEFTIS

Michel SILLAND – 06 74 95 05 21– [email protected]

Types de solutions applicables

L’hébergement simple de l’infrastructure de production chez le Client avec un secours classique à chez un prestataire

Quels sont les services qu’on peut attendre du prestataire ?► Assistance méthodologique à la constitution d’un PRA et sa documentation par un logiciel adapté.► Mise en œuvre de moyens industrialisés et normalisés de sauvegardes restauration.► Audit régulier des composants du PRA► Stockage des supports dans les locaux du prestataire ► Infogérance du PRA, ce qui signifie : Restauration des supports Redémarrage des systèmes Redémarrage des réseauxPlusieurs Tests annuels de qualification de la solution

Production asymétrique ; infrastructure VITALE dans le Bâtiment B1 ; miroir synchrone et production NON VITALE dans le Bâtiment B2

La production principale VITALE est située dans un bâtiment B1 et les données côté B1 sont dupliquées vers un bâtiment B2 via des dispositifs de miroir synchrone (permettant d’assurer l’objectif d’une non-perte de données. La production secondaire NON-VITALE (interruptible) est située dans le bâtiment B2. Les données côté B2 ne sont pas mirrorées côté B1.

Classiquement la production non-vitale recouvre par exemple le développement et la qualification. En cas de sinistre, on abandonne pendant un certain temps ces activités au profit de la production vitale. L’avantage apporté est que l’infrastructure de secours est opérationnelle en permanence ce qui est un gage de fiabilité.

Le délai de redémarrage est de l’ordre de 2 à 4 heures après déclenchement des opérations.

Production répartie ; miroir synchrone bilatéral et production répartie, aussi bien dans le Bâtiment B1 que dans le Bâtiment B2

La production est répartie de façon approximativement symétrique entre la configuration du bâtiment B1 et celle du Bâtiment B2. Les données de chaque côté sont dupliquées sur l’autre centre via des dispositifs de miroir synchrone permettant d’assurer l’objectif d’une non-perte de données lorsqu’un sinistre se produit aussi bien sur B1 que sur B2.

Cette situation correspond à une répartition des productions ou par exemple dans un groupe de banques on aurait la production des banques A et B à gauche et la production des banques C et D à droite.

Le délai de redémarrage est de l’ordre de 2 à 4 heures après déclenchement des opérations

Production symétrique à haute disponibilité ; miroir synchrone bilatéral et production répartie La production est répartie de façon symétrique entre la configuration d’un bâtiment B1 et celle située dans un bâtiment B2. Les données de chaque côté sont dupliquées sur l’autre centre via des dispositifs de miroir synchrone permettant d’assurer l’objectif d’une non-perte de données qu’un sinistre se produise aussi bien dans le Bâtiment B1 que dans le Bâtiment B2. Le fonctionnement en Sysplex/Geoplex (pour Z/OS, mais il existe des techniques similaires pour les autres types de plateformes permet d’assurer sous certaines conditions une quasi non-interruption du service.

Le délai de redémarrage est très faibleLe basculement peut être très largement automatisé.