View
2
Download
0
Category
Preview:
Citation preview
Colloque
jeudi 21 novembre 2019
Retraitement de données, construction d’un SGBDR
puis d’une application de gestion de Collections paléontologiques
Brigitte Barchasz (Laboratoire de Géologie de Lyon - Terre, Planètes, Environnement – UMR 5276)
Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 1
Les données de la Recherche et la Science Ouverte
Plan
• 1 - Contexte des Collections géologiques de Lyon
• 2 - Que fait l’application ?
• 3 - La démarche d’ingéniérie aboutissant par hasard à une application de gestion des collections géologiques
Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 2
Laboratoire de Géologie de Lyon, Terre-Planètes-Environnement (LGL-TPE) – UMR 5276
INSU
Colloque Dijon - Données Ouvertes - 21nov2019 - Brigitte Barchasz 3
Service des Collections Géologiques de Lyon
1 Ing. Recherche CNRS : Emmanuel Robert
+ des bénévoles géologues
+ des stagiaires Master et Licence
BAP F
1 Ing. d’Etudes CNRS : Brigitte Barchasz
- nées en 1808 avec la création de la ’Faculté des Sciences de Lyon’- 9 millions de fossiles stockés dans 14 salles, avec compactus- parmi les 20 premières collections universitaires mondiales- Aussi dépositaires des Collections de l’Ecole des Mines
- plateforme scientifique au service des chercheurs paléontologues
Ammonite
Fossile doit être :
« dégagé »,
nettoyé,
étudié,
caractérisé,
publié,
étiqueté,
mis en boîte,
stocké,
conservé,...
catalogué dans une BDD.
Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 4
Long PROCESSUS DE TRAVAIL (semaines, mois, années, décennies…) :
informatisation
(depuis 60 ans)
- avant projet = env. 350 fichiers fossiles, dits « bases de données » ; données et structures hétérogènes ;
- projet actuel = 1 BDD.
Arrivée du matériel (fossiles) à l’état BRUT :
Depuis +200 ans :
étiquettes
à l’encre de Chine
Exemple d’un OURSIN ramené de Patagonie par DARWIN en 1836, puis traité scientifiquement par Desor en 1847 (Monophoraster darwinii)
•Localisation géographique ? Gisement ?•Stratigraphie (âge) ?•Taxonomie (classification des espèces) ?•Bibliographie ?
1836
20185Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz
Comment gérer 9 millions de fossiles ?
Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 6
Devise du service (Emmanuel Robert) :
L’inachevé permanent
Seule une partie est informatisée
l’informatique pour gérer des centaines de milliers de specimens : 3 étapes historiques
• Années 1960… : Louis David1965 : met au point l’utilisation de cartes perforées pour les Bryozoaires, avec des « zones à codification numérique » - codes toujours existants dans nos données :
• 1990-2010 : Abel Prieur, anc. Resp. des Collections géologiques de Lyon Acquisition de Filemaker Pro ; 30 ans de travail de catalogage 330.000 références dont les fossiles et vertébrés => 350 fichiers Filemaker
• 2015-16 : Brigitte Barchasz, expertise ces 350 fichiers descriptifs de fossiles, Conception, Réalisation BDD unique et relationnelle (SGBDR) ; dévt des fonctionnalités sous Filemaker ; invente l’application de gestion des Collections :
7Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz
Ici retraitement de données et fonctionnement logiciel incidences architecturales
Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 8
(Rappel) SGBDR = Système de Gestion de Bases de Données Relationnelles
TABLES de données RELIEES Suppression de la redondance, des
doublons ou occurrences inutiles Optimisation de la cohérence Sécurité, (clés), unicité, robustesse Pertinence des résultats
3 PRINCIPALES FONCTIONS :• Saisie, Catalogage• Requêtes (booléennes, Filemaker+++) • Edition de Rapports croisés de données. Statistiques, calculs.
Formatages personnalisés des données = « modèles »
Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 9
Sécurité ? Droits des utilisateurs ?Gestion de Filemaker Server
1er onglet = Gestion fiche
Gestion de 2 interfaces : Administrateur (anc. Bac à sable) // Utilisateur sécurisée (ConsultationSaisie)
Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 10
L’interface à onglets
personnes physiques ET personnes morales
Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 11
Bibliographie
développement 2019
lien 1 => N (1 specimen => N publis)
Structure 5 tables
- LOT DE FICHES Specimens, puis SOUS-LOT à caractéristiques communes
- saisie de données thématiques communes :
= Programme complexe impliquant de nombreuses fonctionnalités
Objectif : optimiser la saisie + cohérence des données
Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 12
Saisie par Lot : invention 2019
Fruit de l’observation des pratiques des chercheurs= Evolution sur le catalogage de specimen à l’unité
Dévt de nombreux outils et fonctionnalités
Colloque Dijon Donnees Ouvertes – 21nov2019 - Brigitte Barchasz 13
• Panier historique des dernières saisies à réutiliser Dans la même session : alléger les recherches répétitives et dans de lourdes tables de données (ici index de 60.700 VILLES !)
• Espaces personnalisés pour les utilisateurs, dans leur contexte de travail et sur des
sujets de recherche en cours de chantier (Oiseaux, Ammonites, Montagne Noire, Codes géographiques…)
•Assistance à la saisie par exploitation des tables de données, ou par création
• Editions de rapports croisés avec calculs statistiques
Avant // Après 2015-2016 : FILEMAKER PRO V11 // V18 2019350 fichiers de données // 1 seule BDDMonotable façon excel // multitables SGBDRMonoposte // multipostes grâce à Filemaker Server + AdvancedForte hétérogénéité // harmonisation des donnéessans développement // avec développement : programmes, scripts => application
grande modernisation et outil professionnel Base 410 MO (sans photos).
+ amélioration de la sécurité : les clés, les N sauvegardes quotidiennes
Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 14
Base de Données et application
Filemaker vs Données ouvertes ?Filemaker Pro = Outil de dévt de BDD permettant de développer des projets personnalisées ; Langage de programmation propriétaire, mais a développé une API permettant l’interopérabilité.
1. « Diagnostic » (novembre 2015) 3 préconisations : (a) FUSION (b) SGBDR (c) SERVEUR multipostes
2. Chantier FUSION = 350 fichiers Filemaker hétérogènes BASE DE DONNEES UNIQUE, MONOTABLE
3. « AUDIT détaillé » (2016, 260 pages) Fouille de données-calculs-statistiques ; simulations ….
4. Structure SGBDR. Résolution de problèmes. Nettoyages. 1ères normes et procédures.
5. Fouille de données + Recherches de référentiels pour alimenter les TABLES de données
6. Maîtrise d’œuvre : Prestations informatiques* certifié Filemaker
7. Fonctionnalités Utilisateur … peu à peu SGBDR devenu progiciel, baptisé 2019
8. DOCUMENTATION PROJET et documenter les scripts / programmes !
9. SPECIFICATIONS FONCTIONNELLES, PLANS DE TESTS, TESTS…. en conditions critiques
Ingéniérie projet pour la Base de Données et l’application
* Prestations informatiques transfert de compétences(scripts et outils)
Volumes en 2019
• 260.000 enregistrements table principale Specimens (hors autres tables)
• 410 MO (hors images)
• 17 millions de données
• Architecture : 30 tables + des dizaines d’occurrences de tables
• 550 rubriques ou champs de données (renseignés ou non)
• 300 scripts
• 1800 DOCUMENTS DE PROJET : excel, word, pdf, tests Excel et Filemaker
Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 16
Base de Données et application
Référentiel actualisé pour la stratigraphie + modélisation SGBDR
Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz17
Charte stratigraphique BRGM 1966
Recherche de référentiels pluridisciplinairesEn parallèle à la Fouille de données dans la BDD (vs. Absence de règles de saisie et données de références)
+ Recherches cartographiques et bibliographiques en français-anglais-espagnol
Bibliographie SGBDR : Revue, Issue, Document, Auteur publi, Détails publicationsimports et restructuration des données Recolnat
Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz18
39,000 lignes Excelde données RecolnatRestructurées => SGBDR 5 tables
e-ReColNat = programme
national regroupant les données et images des collections naturalistesfrançaises
NETTOYAGES des TERMES doublons ou répétition d’occurrences, faute de tables de données
Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 19
Test :seulement 11 valeurs stockées dans des tables ! au lieu de 414.000 occurrences
6 descripteurs géographiques
+ 5 index stratigraphiques
NETTOYAGES des NOMS de PERSONNES, N versions orthographiques,Eclatement des dates-années. Gestion des homonymes.
Données géographiques codées, issues de cartes perforées codification perdue => solution lourde : manutention et relecture-saisie d’étiquettes
Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 20
table d’équivalence intermédiaire
encore 23.700 codes géographiques à traiter !moyens RH ?!
nvx descripteurs géographiques :
Pbl Géolocalisation – territorialité - cartographie de qualité inégale Algérie, période de la colonisation française Translittération de l’alphabet arabe
cas de double orthographe
Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 21
• coelenterata, scyphozoa, conulata, conulariina, conulariidae, conulariinae [d'après treatise on invertebrate paleontology, R. C. Moore ed. (1956), part F]
• Mollusca, Cephalopoda, Ammonoidea, Ammonitina, Perisphinctaceae, Perisphinctidae, Leptosphinctinae
• MOLLUSCA, CEPHALOPODA, AMMONOIDEA, PERISPHINCTIDAE, VIRGATOSPHINCTINAE• MOLLUSCA, CEPHALOPODA, AMMONOIDEA, OPPELIIDAE, HECTICOCERATINAE• Cephalopoda, Ammonoidea, Ammonitina, Haplocerataceae, Oppeliidae, Streblitinae• Mollusca, Bivalvia, Heterodonta, Veneroida, Mactracea, Mactridae, Lutrariinae• Bivalvia, Anomalodesmata, Pholadomyoida, Pholadomyacea, Pholadomyidae
CHAMPS MULTIVALUES (taxonomie) non modélisables
• mesozoïque, jurassique, tithonien, schistes de spiti, calcaires a malagasites
• SECONDAIRE, JURASSIQUE MOYEN, DOGGER, CALLOVIEN, CALLOVIEN INFERIEUR
• Secondaire, jurassique supérieur, kimméridgien inférieur, zone à Hypselocyclum, sous-zone à Lothari
• Paléozoïque, Cambrien moyen, Série 3, Etage 5, Languedocien inférieur, Formation de Coulouma(niveau E), Zone à Solenopleuropsis (S.)
éclatement dans 12 champs de données
CHAMPS MULTIVALUES (stratigraphie + lithostratig. + biostratig.) qui ont pu être retraités par calculs
Codes de cartes perforées pour la TAXONOMIE
Nous rencontrons un pbl majeur sur une partie des NUMEROS D’INVENTAIRE doublons : 1 BLOC ROCHEUX ou 1 BOITE = N FOSSILES
solutions techniques 3 sous-champs + discrimination par les suffixes + programme de création automatique des suffixes alphabétiques solution humaine (moyens RH géologue) pour vérifier fiches / specimens et les discriminer scientifiquement
Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 22
Base de Données et application
Zoom résumé sur ce travail structurel, logiciel, données :
restructuration des contenus,requalification et harmonisation des données,
résolution d’innombrables problèmes, modernisation du catalogage,
cohérence,sécurité,
pertinence des résultats de requêtes
qualité des données
Le système d’information (SGBDR)
+ la COUCHE LOGICIELLE = fonctionnalités personnalisées
Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 23
Laboratoire de Géologie de Lyon, UMR 5276
Collections Géologiques de Lyon
Communauté scientifique nationale, internationale :
• chercheurs
• MNHN Museum National d’Histoire Naturelle
• Universités / Collections : réseau en Europe et dans le Monde (ex : Espagne, Maroc…)
• Musées en Europe et dans le Monde (ex : Confluence, British Museum…)
Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz 24
Voir et être vus ? Objectif OPEN DATA
• intégrer cette culture nouvelle ; faire des choix face au manque de moyens ; N chantiers en cours
• Métadonnées + Directive Inspire pour la Géolocalisation : Expertise externe ? Améliorations ?
• STANDARDS : suivons le Darwin Core
• Recolnat visibilité d’une partie de nos données (specimens avec biblio)
• Principes FAIR (Findable, Accessible : en interne 75%, en bonne voie vers le 100%, Interoperable, Reusable : 0%)
• Objectif INTEROPERABILITE (API FILEMAKER) : Importer des données du réseau + ouvrir nos données et les rendre interrogeables par des bases distantes
• Objectif de rédiger un Data Management Plan ou Plan de Gestion des Données (DMP ou PGD)
Merci pour votre écoute !
Et pour votre indulgence à cette grande première communication à un colloque ;
Merci aux collègues qui m’ont aidée à mieux la synthétiser ;
Merci aux stagiaires-cobayes des dernières fonctionnalités développées, qui ont testé l’outil avec enthousiasme.
25Colloque Dijon Donnees Ouvertes - 21nov2019 - Brigitte Barchasz
Recommended