24
Présentation de PAC la plateforme d'archivage pérenne du CINES O.Rouchon Journées d’étude Couperin AO – 3 Avril 2009

L'archivage pérenne au CINES

Embed Size (px)

Citation preview

Page 1: L'archivage pérenne au CINES

Présentation de PACla plateforme d'archivage pérenne

du CINES

O.Rouchon

Journées d’étude Couperin AO – 3 Avril 2009

Page 2: L'archivage pérenne au CINES

2 Centre Informatique National de l’Enseignement Supérieur

Présentation PAC - Journées d'étude Couperin Archives ouvertes 03/04/2009

Sommaire

• La mission d’archivage du CINES

• Le contexte, la problématique et les constats

• Les orientations et choix pour l’archivage au CINES

• Les types de documents à archiver

• Les acteurs

• L’architecture logique de la plateforme

• Le principe de fonctionnement

• L’état des lieux et les perspectives

Page 3: L'archivage pérenne au CINES

3 Centre Informatique National de l’Enseignement Supérieur

Présentation PAC - Journées d'étude Couperin Archives ouvertes 03/04/2009

Centre Informatique National de l’Enseignement Supérieur

• Basé en Montpellier (Hérault, France)

• Créé en 1999, succédant au CNUSC (Centre National Universitaire Sud de Calcul) – créé en 1980

• Placé sous la tutelle de la DGRI (Direction Générale de la Recherche et de l’Innovation) du Ministère de l’Enseignement Supérieur

• Principales missions

– Calcul numérique intensif,

– Archivage pérenne de documents électroniques,

– Hébergement et suivi de serveurs d’applications.

• Plus d’information : http://www.cines.fr/

La présentation du CINES

Page 4: L'archivage pérenne au CINES

4 Centre Informatique National de l’Enseignement Supérieur

Présentation PAC - Journées d'étude Couperin Archives ouvertes 03/04/2009

Depuis 2004, le CINES travaille sur la mise en place d’un service pour l’archivage pérenne du patrimoine scientifique.

Cette mission a été confirmée par plusieurs décisions des organismes de tutelle :

– Arrêté du 7 août 2006 relatif aux modalités de dépôt, de signalement, de reproduction, de diffusion et de conservation des thèses ou des travaux présentés en soutenance en vue d’un doctorat

– Convention du 2 mai 2007 (faisant suite à celle du 15 octobre 2003) relative à la mise en ligne et l’archivage pérenne de données numérisées dans le cadre du programme Persée

– Lettre de cadrage du 12 février 2008 recentrant les activités du CINES autour de deux missions stratégiques : le calcul intensif et l’archivage pérenne

Pour la remplir, le CINES a mis en place le projet PAC, qui vise à doter le CINES d’une plate-forme et d’un service d’archivage numérique pérenne

La mission d’archivage du CINES

Page 5: L'archivage pérenne au CINES

5 Centre Informatique National de l’Enseignement Supérieur

Présentation PAC - Journées d'étude Couperin Archives ouvertes 03/04/2009

Le service d’archivage pérenne du CINES

Objectifs : la mise en place d’une solution

– Performante pour la conservation à long terme du patrimoine numérique des établissements

– Economique et sécurisée

Contraintes

– Besoin d’une solution générique, basée sur les normes du domaine

– Facilité de veille technologique et de migration

Les données concernées sont :

– Les données scientifiques – résultats d’observations ou de calcul

– Les données patrimoniales – pédagogiques, publications, etc.

– Les données administratives – archives intermédiaires

Dans le respect du contexte législatif archivistique français

Page 6: L'archivage pérenne au CINES

6 Centre Informatique National de l’Enseignement Supérieur

Présentation PAC - Journées d'étude Couperin Archives ouvertes 03/04/2009

L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient :

• Dans son aspect physique comme dans son aspect intellectuel,

• Sur le très long terme soit 30 ans et au-delà,

• De manière à pouvoir le rendre accessible et compréhensible.

Or, la plupart des fichiers informatiques de plus de 10 ans sont aujourd’hui illisibles :

• Connaissance perdue du contenu des fichiers,

• Format de fichier inconnu,

• Support physique détérioré,

• Logiciel ou matériel de lecture disparu

Le contexte, la problématique et les constats

Page 7: L'archivage pérenne au CINES

7 Centre Informatique National de l’Enseignement Supérieur

Présentation PAC - Journées d'étude Couperin Archives ouvertes 03/04/2009

Les défis, orientations et choix pour l’archivage au CINES

Contrainte Solutions

Connaissance du contenu • Utilisation de métadonnées• Identification unique et pérenne des

documents archivés

Format de fichier inconnu • Privilégier les formats durables• Identification, validation des formats• Migration logique

Support physique détérioré • Gestion du vieillissement des médias• Migration physique

Logiciel ou matériel de lecture disparu

• Veille technologique et anticipation

Besoin d’une solution générique, basée sur les standards émergeants en matière d’archivage, d’où l’adhésion :

– au modèle OAIS, aux normes ISO, etc.

– au protocole standard d’échange de données pour l’archivage

Page 8: L'archivage pérenne au CINES

8 Centre Informatique National de l’Enseignement Supérieur

Présentation PAC - Journées d'étude Couperin Archives ouvertes 03/04/2009

Les normes et standards utilisés

• OAIS - ISO 14721 : Reference model for an Open Archival Information System

– Modèle purement conceptuel, ne fait aucune recommandation technique

• P2A Politique et pratiques d’archivage (sphère publique)

– Recommandations en termes d’architecture, moyens, sécurité, etc.

• Standard d’échanges de données pour l’archivage électronique, versement, communication, élimination

– DAF, DGME, version 1.0, mars 2006.

• Normes internationales de description archivistique

– ISAD-G – international standard for archival description, general

– ISAAR-CPF – international standard archival authority record, corporate bodies, persons & families

• Métadonnées descriptives de l’archive

– DCMI – Dublin Core Metadata Initiative

• Identifiant unique et pérenne

– Interne, séquentiel, couplé à un identifiant persistant externe de type ARK

• Empreintes numériques

– Hashing MD5, SHA-256

Page 9: L'archivage pérenne au CINES

9 Centre Informatique National de l’Enseignement Supérieur

Présentation PAC - Journées d'étude Couperin Archives ouvertes 03/04/2009

Cadre d’application de la plateforme d’archivage du CINES

TEMPSArchives courantes

Archives intermédiaires

Archives définitives ou destruction

Gestion

Diffusion

Création

Conservation

L’archivage et le cycle de vie des documents

Page 10: L'archivage pérenne au CINES

10 Centre Informatique National de l’Enseignement Supérieur

Présentation PAC - Journées d'étude Couperin Archives ouvertes 03/04/2009

• Présentant une valeur patrimoniale scientifique ou technique

• De préférence des objets dits « primaires »

– Documents originaux,

– Bruts de scan, etc.

• Issus d’archives définitives

• Dans un format identifié et vérifiable :

Les types de documents à archiver de façon pérenne

– Format publié

– Format largement utilisé (ou promis à l’être)

– Format normalisé si possible

Le système PAC est interfacé avec les outils Jhove, ImageMagick (et bientôt DROID) pour

– Identifier, Valider, Caractériser,

Le format des fichiers transférés

Type Format

Texte HTML, PDF, TXT, XML, ODT

Image GIF, JPEG, TIFF, PNG, SVG

Audio WAV, AIFF, AAC, VORBIS

Vidéo MJPEG2000, MPEG4, THEORA

Page 11: L'archivage pérenne au CINES

11 Centre Informatique National de l’Enseignement Supérieur

Présentation PAC - Journées d'étude Couperin Archives ouvertes 03/04/2009

La structure du document à archiver

Document à archiver composé de deux pièces

1. La description de l’archive

• Fichier sip.xml (schéma http://www.cines.fr/pac/sip.xsd)

• 3 sections décrivant :

– Le document dans son projet d’archives

– Le document proprement dit

– Les fichiers du document

2. Le dossier contenant les documents électroniques à archiver

• Répertoire « DEPOT »

• Sous-arborescence autorisée

• Tout fichier présent doit être décrit dans le fichier sip.xml

Page 12: L'archivage pérenne au CINES

12 Centre Informatique National de l’Enseignement Supérieur

Présentation PAC - Journées d'étude Couperin Archives ouvertes 03/04/2009

L’architecture logique de la plateforme PAC

PAC - Plate-forme d’Achivage du CINES

Serveurde Transfert

Serveurde Stockage

Serveur d’Accès

Service Versant Utilisateur

Administrateur

Service de Contrôle

Producteur

Page 13: L'archivage pérenne au CINES

13 Centre Informatique National de l’Enseignement Supérieur

Présentation PAC - Journées d'étude Couperin Archives ouvertes 03/04/2009

Les principes de fonctionnement

Trois serveurs logiques : transfert, stockage, accèsServeur Fonctions

Transfert réception des SIP détection d’un nouveau transfertenvoi d’un accusé de réception

contrôle des SIP structure informatiqueconformité des métadonnées sip.xml par rapport au schéma sip.xsdcorrespondance entre la description sip.xml et les fichiers qui composent le documentcontrôle et validation du format des fichierscalcul de l’empreinte numérique de chaque fichier

création des AIP création de l’identifiant du document archivémise à jour des métadonnées : sip.xml > aip.xmltransfert de l’AIP au serveur de stockage

Stockage archivage des AIP copie multiple de l’AIP sur les différents médias ou supports envoi du certificat d’archivage

vérification périodique de l’intégrité des AIP archivés

migration technologique

fourniture d’états et de statistiques

Accès contrôle de l’authentification de l’utilisateur

consultation du catalogue des AIP archivés

communication d’une copie d’un document archivé

Page 14: L'archivage pérenne au CINES

14 Centre Informatique National de l’Enseignement Supérieur

Présentation PAC - Journées d'étude Couperin Archives ouvertes 03/04/2009

Les étapes du versement d’archives

PAC – Versement de document(s)

Se

rveu

r d

e T

ran

sfer

tS

erv

eur

de

Sto

ckag

eS

erv

ice

Ve

rsan

t

Soumission

Document(s)Accusé de Réception

Contrôle de validité

techniqueValide ?

Notification de Rejet

NON

OUI

Archivage

Certificat d’archivage

Page 15: L'archivage pérenne au CINES

15 Centre Informatique National de l’Enseignement Supérieur

Présentation PAC - Journées d'étude Couperin Archives ouvertes 03/04/2009

L’état des lieux (Mars 2009)

PAC - Plateforme d’archivage au CINES - pérenne capable de gérer de larges volumes (20 To extensibles à 40To) – PAC v2.0

• Basée sur les standards du domaine

– Modèle OAIS, protocole standard d’échange de données pour l’archivage, métadonnées Dublin Core

• Liste des formats de fichier acceptés volontairement limitée

– Formats publiés, largement utilisés, normalisés si possible

• Architecture basée sur du matériel SUN, le logiciel Arcsys et des logiciels libres

– Java, MySQL, Jhove, ImageMagick

• Début de l’exploitation en production Mai 2008

Page 16: L'archivage pérenne au CINES

16 Centre Informatique National de l’Enseignement Supérieur

Présentation PAC - Journées d'étude Couperin Archives ouvertes 03/04/2009

Les projets en cours

1. Deux projets pilotes en exploitation

– Archivage des thèses électroniques

• Documents nativement au format électronique versés par l’ABES

• Fait suite à l’arrêté du 7 Août 2006

– Archivage des revues SHS du portail Persée

• Documents issus de la numérisation de revues au format papier dans le cadre du programme Persée

2. Deux projets en cours de réalisation

– Archivage de documents sonores issus de la recherche dans le domaine de l’oral

• Projet pilote CRDO dans le cadre du programme SHS du TGE-Adonis

– Archivage de cours universitaires de Canal-U

• Documents vidéos produits par le CERIMES

3. Un projet à l’étude

– Archivage des documents déposés dans les archives ouvertes

• HAL – Hyper Article en Ligne du CCSD

Page 17: L'archivage pérenne au CINES

17 Centre Informatique National de l’Enseignement Supérieur

Présentation PAC - Journées d'étude Couperin Archives ouvertes 03/04/2009

L’initiation d’un projet d’archives

Qui ? Tout organisme

• Produisant ou collectant en grande quantité des documents électroniques dont le contenu possède une valeur patrimoniale scientifique ou technique,

• Doté d’un système informatique pouvant être interfacé avec la plateforme PAC

Comment ? Deux phases

1. Phase préliminaire durant laquelle les points suivants sont abordés :

– l’identification des informations à pérenniser

– la liste des données et métadonnées transmises au CINES (format, taille, nombre…)

– l’analyse de faisabilité (sécurité, aspects légaux, coûts et risques…) ;

– l’évaluation de la volumétrie et des ressources requises.

2. Phase dite de définition

– la définition précise des objets à transférer

– les termes et conditions du protocole de transfert (restrictions d’accès, communicabilité au public)

– la planification des transferts physiques ;

– la formation du personnel du service versant à l’utilisation du système PAC

Page 18: L'archivage pérenne au CINES

18 Centre Informatique National de l’Enseignement Supérieur

Présentation PAC - Journées d'étude Couperin Archives ouvertes 03/04/2009

Au niveau national :

• Groupe de travail PIN (pérennisation de l’information numérique) au sein de l’association Aristote

– Lieu de rencontre et d’échanges entre informaticiens, archivistes et bibliothécaires, animé par le CNES, la BnF, la DAF et le CINES

– Réunions trimestrielles (environ 30 participants réguliers)

– Un site web : http://www.aristote.asso.fr/PIN/index.html

– Une formation spécialisée (2 sessions par an)

• Sous-groupe de travail « conservation numérique » au sein du SNB (schéma numérique des bibliothèques)

– Lieu de rencontre d’experts et d’acteurs de la conservation de documents numériques

– Réunions mensuelles

– Les recommandations du groupe alimenteront un rapport commandé à la BnF par la Ministre de la Culture

La participation à des groupes de travail

Page 19: L'archivage pérenne au CINES

19 Centre Informatique National de l’Enseignement Supérieur

Présentation PAC - Journées d'étude Couperin Archives ouvertes 03/04/2009

La participation à des groupes de travail

Au niveau international :

• wePreserve (http://www.wepreserve.eu/)

– Synergie européenne de plusieurs projets :

• DPE (Digital Preservation Europe)

• CASPAR (Cultural, Artistic and Scientific knowledge for Preservation, Access and Retrieval)

• PLANETS (Preservation and Long-term Access through NETworked Services)

– Le CINES référencé Centre de Compétences pour l’archivage par la DPE

– Participation aux séminaires et formations (PLATO, DRAMBORA)

– Traduction française d’articles pour la DPE

• Alliance for Permanent Access

– Initiative européenne pour la coordination de la mise en place d’une infrastructure européenne pour l’archivage pérenne des données scientifiques

Page 20: L'archivage pérenne au CINES

20 Centre Informatique National de l’Enseignement Supérieur

Présentation PAC - Journées d'étude Couperin Archives ouvertes 03/04/2009

Les perspectives

Le CINES est maintenant un acteur reconnu du domaine de la préservation à long terme des documents numériques.

• Fort de la mission nationale que lui a confiée le MESR

• Il est appelé à jouer un rôle clé dans la réussite au niveau national d’une stratégie pour l’archivage pérenne des documents électroniques produits par la communauté Université-Recherche.

• Il reçoit aujourd’hui de nombreuses sollicitations émanant d’universités, de bibliothèques ou de laboratoires, pour divers services dans ce domaine

– l’aide et le conseil à la construction de projets d’archivage à long terme,

– les retours d’expérience

– des propositions de mise en place en partenariat de nouveaux projets d’archives.

Objectifs 2009-2010 :

• La poursuite et le développement de tous ces projets,

• La consolidation et la professionnalisation du service

• La mise en place démarche de certification du service d’archives à la fin 2010

Page 21: L'archivage pérenne au CINES

21 Centre Informatique National de l’Enseignement Supérieur

Présentation PAC - Journées d'étude Couperin Archives ouvertes 03/04/2009

Questions / Réponses

[email protected]

Page 22: L'archivage pérenne au CINES

Annexes

Page 23: L'archivage pérenne au CINES

23 Centre Informatique National de l’Enseignement Supérieur

Présentation PAC - Journées d'étude Couperin Archives ouvertes 03/04/2009

Le modèle fonctionnel OAIS (rappel)

Page 24: L'archivage pérenne au CINES

24 Centre Informatique National de l’Enseignement Supérieur

Présentation PAC - Journées d'étude Couperin Archives ouvertes 03/04/2009

Les acteurs

Le producteur

– Personne physique ou morale, publique ou privée, qui a produit, reçu et conservé des archives dans l’exercice de son activité.

Le service versant

– Organisation qui transfère une archive à un service d’archives

Le service de contrôle

– Personne physique ou morale qui effectue le contrôle scientifique, juridique et technique des documents archivés, et éventuellement valide les demandes de communication d’archives

Le service d’archives

– Organisation recevant le document à archiver transféré et chargée de la conserver pour permettre à une communauté d’utilisateurs/un service demandeur d’y accéder et de l’utiliser

L’utilisateur

– Toute personne ou système client en relation avec le service d’archives pour trouver les informations archivées présentant un intérêt, et pour accéder au détail de ces informations, dans le respect de la législation applicable en matière de communication des archives.