Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
INTRODUCTION À LA GESTION DES
DONNÉES DE RECHERCHE
Natalie Clairoux
Bibliothécaire
Bibliothèque de la santé
Hiver 2016
Image: Retama
NEW ENGLAND COLLABORATIVE DATA MANAGEMENT
CURRICULUM
Le contenu de cette présentation est une traduction et une
adaptation de documents provenant du NECDMC.
Ce cours a été développé par la bibliothèque Lamar Soutter,
University of Massachusetts Medical School:
http://library.umassmed.edu/necdmc
ILLUSTRATIONS
Jørgen Stamp, Digitalbevaring.dk, CC BY 2.5 DK
MENTIONS DE SOURCE
2
3
LES PARTICIPANTS À CET ATELIER POURRONT:
1. Définir ce que sont les données de recherche.
2. Comprendre pourquoi la gestion des données de
recherche est cruciale pour la profession de
chercheur.
3. Identifier les enjeux liés à la gestion des données de
recherche.
4. Apprendre les bonnes pratiques et identifier les
ressources pertinentes à la gestion des données.
OBJECTIFS D’APPRENTISSAGE
Image: TransControl
DÉFINITIONS, TYPES ET CYCLE DES DONNÉES DE RECHERCHE
LE PLAN DE GESTION DES DONNÉES ET SES PRINCIPAUX
ENJEUX
LA PRÉSERVATION DES DONNÉES ET LEUR IMPACT
LE SOUTIEN OFFERT PAR LES BIBLIOTHÈQUES DE L’UDEM
PLAN DE LA PRÉSENTATION
5
Image: Daniel Schwen
6
DÉFINITIONS
“Research data, unlike other types of information, is collected,
observed, or created, for purposes of analysis to produce original
research results” (University of Edinburgh).
“The recorded factual material commonly accepted in the research
community as necessary to validate research findings” (Extrait de
OMB Circular A-110 36.d.2.i).
TYPES DE DONNÉES DE RECHERCHE
1. Observation
2. Expérimentales
3. Simulation
4. Dérivées ou compilation
LES DONNÉES DE RECHERCHE
7
LE CYCLE DES DONNÉES DE RECHERCHE
Création
Traitement
Analyse
Préservation
Partage
Réutilisation
8
QUELQUES ARGUMENTS EN SA FAVEUR...
1. Transparence et intégrité (favorise la reproductibilité et la
validation des données)
2. Conformité
3. Bénéfices personnels et pour le laboratoire
4. Pour la science en elle-même:
LA SAINE GESTION DES DONNÉES DE RECHERCHE
“Data is the currency of science, even if
publications are still the currency of tenure.
To be able to exchange data, communicate
it, mine it, reuse it, and review it is essential
to scientific productivity, collaboration, and
to discovery itself” (Gold, 2007).
... ET ÉVENTUELLEMENT: PAR OBLIGATION?
• Plusieurs consultations récentes ont porté sur la question des
avantages potentiels du partage des données au Canada; une
Déclaration de principes des trois organismes sur la gestion
des données numériques est en cours de rédaction.
• Les détenteurs d’une subvention des IRSC doivent conserver les
ensembles de données originaux découlant de la recherche
financée par les IRSC pendant au moins cinq ans après la fin de
la subvention.
• Aux États-Unis, les récentes mises à jour des politiques du NIH
et la NSF incluent le dépôt d’un plan de gestion des données
de recherche. Certaines demandes ont été rejetées parce que le
plan de gestion était incomplet.
LA SAINE GESTION DES DONNÉES DE RECHERCHE
9
10
• Ce ne sont pas toutes les données qui doivent
nécessairement être partagées.
• Le partage peut prendre plusieurs formes.
• Les organismes subventionnaires reconnaissent que
différentes disciplines possèdent des cultures
différentes quant au partage de données.
• Le partage devrait se faire à un coût et dans un
intervalle de temps raisonnables.
• Une réalité: le partage augmente le nombre de
citations!
Source: Lisa Federer, Data 101 - An Introduction to Research Data
Management
LES FAITS SUR LE PARTAGE DES DONNÉES
Image: Miguel Andrade
DÉFINITIONS, TYPES ET CYCLE DES DONNÉES DE RECHERCHE
LE PLAN DE GESTION DES DONNÉES ET SES PRINCIPAUX
ENJEUX
LA PRÉSERVATION DES DONNÉES ET LEUR IMPACT
LE SOUTIEN OFFERT PAR LES BIBLIOTHÈQUES DE L’UDEM
11
Image: Kwz
12
7 ÉTAPES À CONSIDÉRER
1. Types de données produites
2. Détails contextuels (métadonnées) nécessaires
pour rendre les données utiles aux autres
chercheurs
3. Stockage, copie de secours et sécurité
4. Précautions pour la propriété intellectuelle / vie
privée
5. Politiques pour la réutilisation
6. Politiques pour l’accès et le partage
7. Plan pour l’archivage et la préservation de
l’accès
PLAN DE GESTION DES DONNÉES
PLAN DE GESTION DES DONNÉES – OUTIL RECOMMANDÉ
14
EXEMPLE D’UN PLAN DE GESTION DES DONNÉES
Source: Example Data Management Plan: Biology (2)
15
À CONSIDÉRER:
Équipes multidiciplinaires, gestion des cahiers de laboratoire,
rotation du personnel de laboratoire...
PLANIFICATION DE LA GESTION DES DONNÉES
ENJEU 1: RESPONSABILITÉ
Bonnes pratiques1. Définir les rôles de chacun et assigner les
responsabilités pour la gestion des données.
2. Pour chaque tâche identifiée dans le plan, identifier
les compétences requises.
3. Associer les compétences au personnel disponible et
identifier les brèches.
4. Assurer la continuité par le biais de formations.
5. Désigner des responsables et surveiller les résultats.
16
PLANIFICATION DE LA GESTION DES DONNÉES
ENJEU 2: GESTION DES RÉSULTATS
Source: Jen Ferguson, 2013
17
À CONSIDÉRER:
Pas de règles pour nommer des fichiers… en plusieurs versions…
dans des dossiers classés au petit bonheur…stockés sur des
médias variés… conservés dans plusieurs endroits… et en
plusieurs formats!
PLANIFICATION DE LA GESTION DES DONNÉES
ENJEU 2: GESTION DES RÉSULTATS
Bonnes pratiques1. Créer des règles pour nommer les fichiers.
2. Créer une classification pour les dossiers de fichiers.
3. Créer une codification pour les versions.
4. Choisir des formats de fichiers appropriés pour la
préservation et le partage des données.
5. La Division de la gestion de documents et des
archives présente des bonnes pratiques pour la
création, l’organisation, l’utilisation et la disposition
des documents numériques.
• Un logiciel particulier doit-il être utilisé pour lire et travailler
avec le fichier de données? Si oui, le logiciel, sa version et le
système d’exploitation requis devraient être mentionnés dans
les métadonnées.
• Lors de la sélection du format de fichiers, prioriser un format
constant pouvant être lu dans le futur et indépendamment de
modifications dans l’application.
• Fichiers ouverts: standard documenté, non-encrypté, non-
compressé, en format ASCII. Sera lisible dans le futur!
FORMAT DE FICHIER OUVERT VS PROPRIÉTAIRE
18
19
PLANIFICATION DE LA GESTION DES DONNÉES
ENJEU 3: MÉTADONNÉES
20
À CONSIDÉRER:
Les gens comprendront-ils vos données? Quelles normes
pourriez-vous utiliser pour étiqueter vos données? Comment
décrire votre ensemble de données pour qu’il soit repérable?
PLANIFICATION DE LA GESTION DES DONNÉES
ENJEU 3: MÉTADONNÉES
Bonnes pratiques1. Décrire le contenu des fichiers de données
(exemples de normes: Dublin Core, MIAME, Protocol
Data Element Definitions).
2. Définir les paramètres et les unités de mesure.
3. Créer un dictionnaire de données.
4. Définir les valeurs codées et les données
manquantes.
21
À CONSIDÉRER:
À quelle fréquence? En combien de copies? À quel endroit?
Combien d’espace sera requis sur le serveur?
PLANIFICATION DE LA GESTION DES DONNÉES
ENJEU 4: SAUVEGARDE
Bonnes pratiques1. Trois copies (originale, externe/locale et externe/à
distance).
2. Distribution géographique des copies.
3. Copiez sur un disque dur externe (Mac Timeline,
UNIX rsync).
4. Profitez de l’entreposage sur le nuage (Amazon 3S,
Elephant Drive, Jungle Disk, Mozy, Carbonite...).
5. Données encryptées (sujets humains): garder 2
copies des mots de passe et clés de codage.
22
PLANIFICATION DE LA GESTION DES DONNÉES
ENJEU 5: PROPRIÉTÉ ET RÉTENTION
23
À CONSIDÉRER:
Qui détient la propriété intellectuelle? Combien de temps doit-on
conserver les données?
PLANIFICATION DE LA GESTION DES DONNÉES
ENJEU 5: PROPRIÉTÉ ET RÉTENTION
Bonnes pratiques1. S’assurer que la personne qui a produit les données
se porte garante de leur préservation.
2. Vérifier les politiques de votre organisme
subventionnaire et/ou de l’éditeur de votre article.
3. Consulter les politiques de l’UdeM sur la gestion des
bases de données et sur la probité intellectuelle; voir
le calendrier de conservation des documents.
4. Les données servant à soutenir un brevet doivent
être conservées indéfiniment.
DÉFINITIONS, TYPES ET CYCLE DES DONNÉES DE RECHERCHE
LE PLAN DE GESTION DES DONNÉES ET SES PRINCIPAUX
ENJEUX
LA PRÉSERVATION DES DONNÉES ET LEUR IMPACT
LE SOUTIEN OFFERT PAR LES BIBLIOTHÈQUES DE L’UDEM
24
Image: Maria Francia & Boris Striepen
25
• Qu’arrivera-t-il aux données lorsque le
projet sera terminé?
• Comment évaluer la valeur de mes
données?
• Quelles sont mes options pour
l’archivage et la préservation de mes
données?
• Quelles sont mes options pour publier et
partager mes données?
PLANIFICATION À LONG TERME
• Le Centre d'expertise numérique pour la recherche (CEN-R) peut
vous conseiller pour la structuration de vos données.
• re3Data vous propose plus de 500 dépôts de données de
recherche. Le NIH et l’OAD tiennent aussi des listes détaillées.
• Accédez au portail du NCBI pour y déposer vos données en bio-
informatique.
• Le Centre canadien d’intégration des données offre un soutien
bioinformatique pour l’analyse et la publication en génomique.
• Revue chez Nature Publishing Group: Scientific Data
DÉPOSER ET PUBLIER DES ENSEMBLES DE DONNÉES
26
• Un identifiant d’objet numérique (DOI) ou un lien permanent
maximise la découverte de vos données et permet de mesurer
leur impact. Au Canada, DataCite attribue les DOI.
• À inclure dans votre CV ou une demande de subvention: les
données de téléchargement et de citations de vos données. Voir
un exemple dans ICPSR.
• Le partage de vos données est compilé dans certains outils
d’altmetrics, tels que ImpactStory (Figshare, Github).
IMPACT DE VOTRE RECHERCHE AU-DELÀ DES
PUBLICATIONS
27
DÉFINITIONS, TYPES ET CYCLE DES DONNÉES DE RECHERCHE
LE PLAN DE GESTION DES DONNÉES ET SES PRINCIPAUX
ENJEUX
LA PRÉSERVATION DES DONNÉES ET LEUR IMPACT
LE SOUTIEN OFFERT PAR LES BIBLIOTHÈQUES DE L’UDEM
28
Image: Häuser et al.
• « Le réseau Portage et ses partenaires cherchent à établir
une infrastructure nationale de gestion des données de
recherche complète. Cette infrastructure sera formée de
plateformes qui soutiendront le cycle de vie complet des
données de recherche (planification, intégration,
conservation, exploration, consultation, réutilisation) et de
services de préservation numérique spécialisés pour les
données de recherche, y compris la copie exacte de
l’archivage. Cette infrastructure sera répartie dans
différents nœuds locaux, régionaux et centraux, et elle sera
interexploitable au moyen de normes et de protocoles
partagés. »
Source: Plateformes d’infrastructures, Portage
INFRASTRUCTURES… À VENIR!
29
30
• Trouver des ensembles de données
pour ré-utilisation dans votre
recherche (Guide en bio-
informatique et Centre
d’information statistique)
• Comment citer les données
publiées par quelqu’un d’autre
• Vous aider à rédiger un plan de
gestion des données de recherche
via l’Assistant PGD
SOUTIEN AUX CHERCHEURS DANS LES BIBLIOTHÈQUES DE
L’UDEM
31
• Guide sur la gestion des données de recherche
SOUTIEN AUX CHERCHEURS DANS LES BIBLIOTHÈQUES DE
L’UDEM