View
224
Download
7
Category
Preview:
Citation preview
Open access, open data et gestion
des données de la recherche
Aurore CARTIER, Service Commun de Documentation, Université Paris Descartes
Magalie MOYSAN, Bureau des archives, Université Paris Diderot
Nathalie REYMONET, Direction d’Appui à la Recherche, Université Paris Diderot
Quel intérêt pour un jeune chercheur ?
jeudi 18 janvier 2018
4
Processus de publication
recherche
soumission à l’éditeur
revue par les pairscomité de lecture peer review
publication
révisions
rédaction
chercheur
éditeurpublisher
éditeur publisher
chercheur
bibliothèquebibliothécaire
documentaliste
chercheur/ rédacteur
chercheur / rédacteur
chercheur / rédacteur
5
Éthique et publication
• intégrité et qualité • originalité de la publication• transparence
répertoire des journaux en OA
http://doaj.org/ (9 367 titres)
éditeurs “probablement” prédateurs : Beall’s List http://scholarlyoa.com/publishers/
politique des éditeurs sur l’OA : Sherpa/Romeo http://www.sherpa.ac.uk/romeo/
quels choix pour les auteurs ? évolution des modalités de la communication
12
Choisir une revue OA
?
LES LICENCES LIBRES AU SERVICE DE L’OPEN ACCESS
Initiative de Budapest pour l’Accès Ouvert (2002)
« Par « accès libre » (open access) à cette littérature, nous entendons sa mise àdisposition gratuite sur l’Internet public, permettant à tout un chacun de lire,télécharger, copier, transmettre, imprimer, chercher ou faire un lien vers le texteintégral de ces articles, les disséquer pour les indexer, s’en servir de données pour unlogiciel, ou s’en servir à toute autre fin légale, sans barrière financière, légale outechnique autre que celles indissociables de l’accès et l’utilisation d’Internet. La seulecontrainte sur la reproduction et la distribution, et le seul rôle du copyright dans cedomaine devrait être de garantir aux auteurs un contrôle sur l’intégrité de leurstravaux et le droit à être correctement reconnus et cités. […] Nous invitons lesgouvernements, universités, bibliothèques, directeurs de revues, éditeurs, […] savantsindividuels qui partagent notre vision à nous rejoindre dans notre action pour lever lesobstacles vers l’accès libre, et pour construire un futur dans lequel recherche etéducation soient beaucoup plus libres de s’épanouir dans toutes les parties dumonde. »
En droit d’auteur, on parle de contrat de cession de droits et de contrat de licence de droits. Il s’agit, en fait, dans lesdeux cas de contrats de cession. La différence consiste dans le caractère exclusif ou non de la cession.
LICENCE OU CONTRAT DE CESSION
LE CONTRAT DE LICENCEL’auteur autorise l’usage de certaines prérogatives patrimoniales àun tiers de manière non exclusive. Ce dernier n’est pas pour autanttitulaire de droits sur l’œuvre, il ne peut agir en contrefaçon, il n’aqu’un droit d’utilisation.• Droit de reproduction• Droit de réutilisation• Droit d’utilisation (à des fins commerciales ou non)• Partage à l’identique• Cession non exclusive des droits patrimoniaux
La conclusion d’un contrat de cession à titre exclusif est un acte qui diminuefortement les prérogatives du cédant. Il se dépossède de ses droits.Si le contrat porte sur l’ensemble des droits patrimoniaux, il ne peut plus, par exemple,commercialiser, adapter, reproduire (…) l’œuvre cédée. Il est donc conseillé denégocier des contreparties conséquentes en l’échange de ce transfert de droits.
LE CONTRAT DE CESSIONL’auteur cède tout ou partie de ses droits patrimoniaux surl’œuvre à un tiers de manière exclusive. Ce dernier esttitulaire des droits cédés et peut agir en contrefaçon.• Exigence d’un écrit• Enumération des droits cédés• Délimitation de l’étendue et de la destination des droits
(nombre d’usages, quel type d’usagers)• Délimitation territoriale de la cession• Délimitation temporelle de la cession
Mentionner éventuellement :Les formes d’exploitation non prévisibleLa rémunération de la cession (qui peut-être gratuite)L’exclusivité ou non de la cession
©
LES LICENCES
CREATIVE COMMONS
•
•
•
•
•
•
LES DIFFÉRENTES LICENCES CC EXISTANTES
6. Attribution + Partage dans les mêmes conditions (BY SA) : Le titulaire des droits autorise touteutilisation de l’œuvre originale (y compris à des fins commerciales) ainsi que la création d’œuvresdérivées, à condition qu’elles soient distribuées sous une licence identique à celle qui régit l’œuvreoriginale. Cette licence est souvent comparée aux licences « copyleft » des logiciels libres. C’est la licenceutilisée par Wikipedia.
1. Attribution (BY): Le titulaire des droits autorise toute exploitation de l’œuvre, y comprisà des fins commerciales, ainsi que la création d’œuvres dérivées, dont la distribution estégalement autorisé sans restriction, à condition de l’attribuer à son l’auteur en citant sonnom. Cette licence est recommandée pour la diffusion et l’utilisation maximale desœuvres.
2. Attribution + Pas de Modification (BY ND) : Le titulaire des droits autorise touteutilisation de l’œuvre originale (y compris à des fins commerciales), mais n’autorisepas la création d’œuvres dérivées.
3. Attribution + Pas d’Utilisation Commerciale + Pas deModification (BY NC ND) : Le titulaire des droits autorisel’utilisation de l’œuvre originale à des fins non commerciales, maisn’autorise pas la création d’œuvres dérivés.
4. Attribution + Pas d’Utilisation Commerciale (BY NC) : le titulaire des droitsautorise l’exploitation de l’œuvre, ainsi que la création d’œuvres dérivées, àcondition qu’il ne s’agisse pas d’une utilisation commerciale (les utilisationscommerciales restant soumises à son autorisation).
5. Attribution + Pas d’Utilisation Commerciale + Partage dans les mêmesconditions (BY NC SA): Le titulaire des droits autorise l’exploitation de l’œuvreoriginale à des fins non commerciales, ainsi que la création d’œuvres dérivées, àcondition qu’elles soient distribuées sous une licence identique à celle qui régitl’œuvre originale.
Définition de la donnée de recherche
« Les données, ou unités d’information, qui sont crééesau cours d’une recherche, subventionnée ou non, et quisont organisées ou formatées de telle sorte qu’ellessoient communicables, interprétables et adaptées à untraitement souvent informatisé ».
Université de Bristol
« Les données de la recherche sont des enregistrementsfactuels (chiffres, textes, images et sons) utilisés commesources principales pour la recherche scientifique etgénéralement reconnus par la communauté scientifiquecomme nécessaires à la validation des résultats derecherche »
Organisation de Coopération et de Développement Économiques (OCDE)
« Les données de la recherche sont l’ensemble desinformations et matériaux produits et reçus par deséquipes de recherche et des chercheurs. Elles sontcollectées et documentées à des fins de recherchescientifique. A ce titre, elles constituent une partie desarchives de la recherche. »
Association des archivistes français. Section « Aurore »
« 1) the data, including associated metadata (i.e. themetadata describing the research data deposited), needed tovalidate the results presented in scientific publications ;
2) other data (i.e. curated data not directly attributable to apublication, or raw data), including associated metadata.»
Commission européenne pour Horizon 2020
« Les données de la recherche sont un ensembled’informations factuelles enregistrées sur des supports,produites ou collectées, selon divers procédés au coursd’un processus de recherche »
Définition du groupe de travail P5/P7
Le jeu de données
Selon le projet, un jeu de données peut recouvrir des réalités différentes. Un ou plusieurs jeu(x) de données peuvent être lié(s) au projet de recherche, et désigner :
i) un lot techniquement homogène,
ii) un lot intellectuellement cohérent même si celui-ci est composé de lots techniquement hétérogènes.
Définition du groupe de travail P5/P7
Gestion et partage des données
Data management Open dataVS.
Diffusion de manière structurée selon une méthode et une licence ouverte des
données pour leur libre accès et leur réutilisation par tous, sans restriction
technique, juridique ou financière.
Mise en place d'architectures, de réglementations, de pratiques et de
procédures pour gérer correctement les besoins de la recherche sur tout au long
du cycle de vie des données
Début du projet Fin du projet
Enjeux juridiques, économiques, scientifiques …
Brevets, CNIL, secret défense, concurrences, droit d’auteurs …
Dépôt en archives ou entrepôts ouverts
Archivage auprès d’un organisme agréé
Données en appui des publications ou OK pour diffusion.
Autres données produites au cours du projet. Pas de diffusion.
Types de données Définitions Valeur et spécificité Exemples
Données d’observation (Observational datas)
Données obtenues en temps réel
Souvent uniques et irremplaçables
Données atmosphériques, d’enquêtes, échantillons, neuro-image
Données expérimentales(Experimental datas)
Données obtenues en laboratoire à partir d’équipements spécifiques
Reproductibles mais à des coûts dissuasifs
Séquence de génome, chromatographie, spectres RMN
Données de simulation(Simulation datas)
Données générées à partir de modèles test
Métadonnées et modèles ont une valeur supérieure aux résultats
Modèles climatiques, modèles économiques
Données dérivées ou compilées(Derived or compiled data)
Données obtenues par compilations ou traitement des données brutes
Reproductibles mais à des coûts dissuasifs
Texte et data mining, bases de données compilées, modèles 3D
Données de référence ou données canoniques(Reference or canonical datas)
Collections statiques ou organiques de jeux de données validées
Données publiées ou qui ont fait l’objet d’une curation
Banque de données sur le génome, structureschimiques, portail de données spatiales
Prendre en compte la diversité des données
BIG DATA Ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de
gestion de base de données ou de gestion de l'information.
Mise en place de nouveaux outils, méthodes et applications de gestion, traitement, analyse, visualisation et conservation
des données : Big Analitics, calcul distribué, supercalculateurs, cloud-computing etc.
Exemples de projets concernés :
séquençage haut débit
observatoire virtuel en astronomie
simulation en physique et énergie
imagerie médicale
données environnementales biotiques /abiotiques
données économiques (e-commerce, systèmes décisionnels)
données sociales (réseaux sociaux, bibliothèques numériques, patrimoines culturels)
Open data, open research data, big data
2012 : lancement des appels à projets « Grandes masses de données scientifiques » - MASTODONS
OPEN DATA Mouvement et philosophie d'accès à l'information et pratique de publication de données librement accessibles et exploitables.Considère l'information publique comme un bien commun dont la diffusion est d'intérêt public et général : enjeux démocratiques, politiques et économiques. En Europe et dans certains pays, des directives et lois imposent aux collectivités de publier certaines données publiques sous forme numérique.• Directive 2003/98/CE• Ordonnance n°2005-650 du 6 juin 2005 • Directive 2013/37/UE
RESEARCH DATAEnregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche. Définition de l’OCDE
BIG DATA
RESEARCH DATA
OPEN DATA
OPEN RESEARCH DATA
Données publiées
Données retenues
Données traitées
Données produites
Données exploitées pour l’élaboration des résultats
Données analysées, agrégées, compilées, transformées
Données primaires produites ou collectées au cours de la recherche
INVISIBLES
VISIBLES Données intégrées à titre d’illustrations ou de résultats dans une publication papier ou en ligne.
Perte d’information importante au cours du processus de publication
Publications fréquentes de résultats erronés dans de grandes revues à comité de lecture et fort facteur d’impact
Affaire Hendrick Schön – Chimie de la matière condensée -2001Affaire Diederik Stapel – Psychologie sociale – 2011Affaire Yoshiki Sasai (cellule STAP) – 2014Les corrélation abusives etc.
Le libre accès aux publications et des
données associées facilite :
Une vérification des résultats
obtenus grâce à la possibilité de
rejouer les données
Un meilleur recensement par les
logiciels de détection anti-plagiat
type Compilatio (utilisé pour les
thèses à Paris Descartes)
Une meilleure diffusion auprès des
pairs par une visibilité accrue auprès
des moteurs de recherche
Retrouver la liste complète des articles accessible en ligne: https://www.dropbox.com/s/chq4fva88objcbn/Article%20list%201%2011.pdf?dl=0
En 2016 BioMed Central a identifié 28 articles qui seront retirés, 40de plus qui feront l’objet d’une enquête approfondies. Springera identifié 30 articles qui seront retires et 9 additionnels qui ferontégalement l’objet d’une enquête approfondie.
fragilité et obsolescence des
supports numériques
migration des données,
conservation des outils de lecture
coûts et difficultés technique de
l’archivage et de l’accès à long
terme
Solution : Anticipation
Droit sui generis des bases de données
Ambiguïté du cadre juridiques (variable selon les
pays, concurrence des textes etc.)
Respect des politiques d’éditeur et des contraintes
de la propriété industrielle, d e la protection des
données personnelles etc. en matière de diffusion
Solution : planification
Solution : ouverture
Comment financer à long terme le tout gratuit (green
open access) ?
Augmentation constante des tarifs pratiqués par les
éditeurs commerciaux
Verrouillage progressifs des corpus et fouilles de
données par les éditeurs commerciaux (embargo,
entrave au TDM …)
data mining
Données de
recherche
Contrat édition
Données de recherche
OPEN
Protection données perso / PI
CLOSE
publipubli
OPEN
« II.-Dès lors que les données issues d'une activité de recherche financée au moins pour moitié par des dotations (…) ne sont pas protégées par un droit spécifique ou une réglementation particulière et qu'elles ont été rendues publiques par le chercheur, l'établissement ou l'organisme de recherche, leur réutilisation est libre.« III.-L'éditeur d'un écrit scientifique mentionné au I ne peut limiter la réutilisation des données de la recherche rendues publiques dans le cadre de sa publication
Loi Numérique, Article 30
Les copies ou reproductions numériques de la base réalisées par une personne qui y a licitement accès, en vue de fouilles de textes et de données incluses ou associées aux écrits scientifiques dans un cadre de recherche, à l'exclusion de toute finalité commerciale.
Loi Numérique, Article 38
Protection données perso / PI
CLOSE
Pour un chercheur : accroître la visibilité et la diffusion de ses résultats, renforcer son identité numérique de chercheur, améliorer son H-Index et ses coefficients d’évaluation
Pour son équipe : capitaliser les savoirs et savoir-faire acquis
Pour son établissement : améliorer le retour sur investissement, renforcer ses domaines d’expertise
Pour sa communauté de recherche : économie de temps et d’argent, fiabilisation des résultats, mutualisation et partage des savoirs et connaissances
Pour l’ensemble de la communauté scientifique mondiale : encourager l’interdisciplinarité, œuvrer pour une économie du savoir plus équitable, ouvrir de nouvelles perspectives et opportunité pour la recherche (big data, data mining, text minig etc.)
Plannifier
Produire/ Collecter
Stocker
Décrire Préserver /
Archiver
Intégrer
Analyser
Mise en place d’espaces serveur sécurisés pour accéder au document. Ajout des métadonnées de gestion
Documenter les données pour permettre leur réutilisation. Ajout des métadonnées descriptives normées et structurées
Recherche de données , procédés semblables ou complémentaires
Archiver pour garantir la pérennité de l’accès et de la compréhension des données. Ajout de métadonnées de préservation
Réutilisation
Diffusion
Idée de la recherche
Demande de financement
Démarrage de la thèse
Données de la recherche
Publications scientifiques
Soutenance
PRIVILÉGIER LES ESPACES DE STOCKAGE INSTITUTIONNELS SÉCURISÉS
http://cirrus.uspc.fr/cumulus/
××
To be Findable
To be Accessible
To be Interoperable
To be Re-usable
• Attribution d’identifiants pérennes orientés
Web : DOI, ARK, Handle etc.
• Métadonnées et indexations pour être
référencés par les moteurs de recherche
• « As open as possible, as closed as necessary »
• Ouvertes et localisées : entrepôt, sites web etc.
• Embargo, anonymisation, droit d’auteurs etc.
• Formats ouverts et libres: XML, CSV, TXT, RDF, DDI
etc.
• Protocoles standards des entrepôts : OAI-PMH,
W3C etc.
• Documentation et métadonnées suffisantes
• Licence ouvertes: CC, ODBL, GPL etc.
DATA MANAGEMENT PLAN
Marmelade
données
métadonnée descriptive: informations sur le contenu
support
métadonnée de gestion : comment l’utiliser
DLUO 062017
Les métadonnées sont des données servant à décrire
ou à gérer d’autres données. Elles peuvent avoir
plusieurs fonctions (décrire un contenu, préciser des
droits d’utilisation, gérer le suivi des accès, des
modifications etc.).
Détectables / citables
Fiables et intelligibles
Accessibles
RéutilisablesInteropérables
Identifiant pérenne
Indexées
En ligne sur le web
Gratuites
Validées
Décrites , documentées
Normalisées
Entrepôts ouverts
Protocoles moissonnablesLicence libres
Formats non propriétaires
Archivage pérenne
Métadonnées
ARCHIVABLE
Il existe des standards de métadonnées propres à certains métiers ou à la description de certains types d’objets :
TEF : standard de métadonnées pour la description des thèses électroniques françaises
Permettre la réalisation de recherche efficace pour la découverte des données dans les catalogues.
MOTEUR DE RECHERCHE AVANCÉE
Pour la recherche avancée :
https://search.datacite.org/ui-
advanced
MOTEUR DE RECHERCHE SIMPLE
AGENCE D’ATTRIBUTION DES DOI
To be Findable
http://www.gbif.org/dataset/b69980f9-1895-48a0-9a18-e31f4755a6c3
1. Importance
2. Credit and Attribution
3. Evidence
4. Unique Identification
5. Access
6. Persistence
7. Specificity and Verifiability
8. Interoperability and Flexibility
Data Citation Synthesis Group: Joint Declaration of Data Citation Principles. Martone M. (ed.) San Diego CA: FORCE11; 2014 [https://www.force11.org/group/joint-declaration-data-citation-principles-final].
http://www.dcc.ac.uk/resources/how-guides/track-data-impact-metrics
• Thomson Reuters Data Citation Index• PLoS Article-Level Metrics• ResearchGate score• ImpactStory
Mesurer l’impact des citations
APA
Cool, H. E. M., & Bell, M. (2011). Excavations at St Peter’s
Church, Barton-upon-Humber [Data set].
doi:10.5284/1000389
Chicago
H. E. M. Cool and Mark Bell, Excavations at St Peter’s
Church, Barton-upon-Humber (accessed May 1, 2011),
doi:10.5284/1000389.
MLA
Cool, H. E. M., and Mark Bell. “Excavations at St Peter’s
Church, Barton-upon-Humber.” Archaeology Data
Service, 2001. Web. 1 May 2011.
<http://dx.doi.org/10.5284/1000389>.
Oxford
Cool, H. E. M. and Bell, M. (2011), Excavations at St
Peter’s Church, Barton-upon-Humber [dataset] (York:
Archaeology Data Service), doi: 10.5284/1000389
PANGAEA
Willmes, S et al. (2009): Onset dates of annual snowmelt
on Antarctic sea ice in 2007/2008.
doi:10.1594/PANGAEA.701380
Dryad
Kingsolver JG, Hoekstra HE, Hoekstra JM, Berrigan D,
Vignieri SN, Hill CE, Hoang A, Gibert P, Beerli P (2001)
Data from: The strength of phenotypic selection in
natural populations. Dryad Digital Repository.
doi:10.5061/dryad.166
Dataverse
Frederico Girosi; Gary King, 2006, ‘Cause of Death
Data’, http://hdl.handle.net/1902.1/UOVMCPSWOL
UNF:3:9JU+SmVyHgwRhAKclQ85Cg== IQSS Dataverse
Network [Distributor] V3 [Version].
Entrepôts disciplinaires
Organismes de financement
Établissements de recherche
Éditeurs ou partenaires
Partage des données inscrit dans les pratiques de recherche dans certaines disciplines (ex. : astronomie, génétique, environnement)
Financements conditionnés par le respect de certaines règles relatives à la gestion et au partage des données
Politiques institutionnelles définissant les conditions dans lesquelles doivent être conservées et rendues accessibles les données
Obligation de dépôt dans une archive ouverte des données sur lesquelles reposent les conclusions d’un article + data journals
Entrepôts privésInitiatives personnelles de mise à disposition de la communauté scientifique de ses données
LES DIFFÉRENTS TYPES D’ENTREPÔTS
Privilégier les entrepôts institutionnels ou disciplinaires dont le modèle économique estconnu et présentant des garanties en matière d’indexation, de signalement et deconservation des contenus.
To be Accessible
44
• article scientifique, décrit des données
• exposer des données, en répondant à plusieurs besoins :
répondre aux exigences des financeurs de la recherche (visibilité)
donner un accès aux données et les rendre intelligibles
fournir une référence citable (peer-rewieved)
permettre la génération de citations par des services tel que le Data
Citation Index de Thomson Reuters
reconnaître le travail réalisé par l’équipe de recherche qui a produit les
données décrites
Titre journal Éditeur Référencement
Beall list
OA Coût APC
Date début
Journal of Physical and Chemical Research Data
AIP WoS non - - 1972-
Genomics Data Elsevier WoS non OA € 448 2013-
Journal of Open Psychology Data
Ubiquity Press
- non OA € 130 2013-
Scientific Data Nature PubMed non OA € 1 050 2014-
Geoscience Data Journal Wiley WoS non OA € 1 200 2014-
Research Data Journal for the Humanities and Social Sciences
Brill - non OA 0£ until 31
December 2018
2016-
Instructions aux auteurs
thèmes / langage(s) / longueur / style de références
liste d’entrepôts recommandés
Titre, résumé, mots-clé, références
Texte :
Contexte de la recherche
Méthode : échantillon, materiel, procédures, contrôle qualité, questions éthiques
Description du/des jeu(x) de données
Bibliographie
Article : texte + un lien vers le jeu de données décrit + matériaux supplémentaires
(illustrations, tableaux , vidéos, sons , etc.)
Renseigner un DMP rédaction d’un data paper !
https://www.ncbi.nlm.nih.gov/genbank/submit
http://journals.plos.org/plosone/s/data-availability
To be Interoperable• S’APPUYER SUR DES STANDARDS DE MÉTADONNÉES (DISCIPLINAIRES )
• FAVORISER LES FORMATS DE DONNÉES OUVERTES
https://fr.wikipedia.org/wiki/Correspondance_entre_formats_ouverts_et_formats_ferm%C3%A9s
53
Privilégier les licences libres et la documentation
nécessaires à la compréhension des données
Libérer ses données ne signifie pas renoncer à toute forme de droit, de contrôle ou de protection sur les données.
Les licences
- Creative Commons : publications.- Licence ouverte Etalab (Open Licence) : données et
publications.
- Open Database Licence (ODbl) : base de données.
- Open Data Commons Attribution License (ODC –By) : données
et bases de données.
- GNU General Public License : logiciels et programmes
informatiques
L’embargo
L’embargo est une protection temporaire permettant de remettre à un délaiultérieur la libre diffusion et/ou réutilisation des données ou des publications. Sousréserve d’obligation extérieure, le choix et les durée de l’embargo reviennent àl’auteur. Ex: les subventions H2020 impose un délai maximum de 6 moisd’embargo pour les publications en sciences et 12 mois pour les SHS.
To be Re-usable
- Herpétologie (sciences des amphibiens) /
Ichtyologie (sciences des poissons)- Ebola- Ontology- Manybody quantum system- Paris Descartes / dataset
Trouver un entrepôt où déposer une base dedonnées structurée, disposant d’un terminalSPARQL dans le domaine de la flore et de lagéologie marine
Document formel précisant la manière dont les données seront produites, traitées,
décrites, partagées ou protégées et conservées au cours et à l’issue du projet.
https://dmp.opidor.fr/
PDF Excel
https://hal-descartes.archives-ouvertes.fr/page/data-management-plan
• Section 1 : Informations relatives au projet
• Section 2 : Responsabilité des données
• Section 3 : Ressources nécessaires
• Section 4 : Jeux de données
• 4.1 Description du jeu de données
• 4.2 Stockage, accès et sécurité des données – au
cours du projet
• 4.3 Métadonnées : documentation et organisation
des données
• 4.4 Dissémination des jeux de données – à l’issue
du projet
• Section 5 : Sélection et archivage – que les
données soient diffusées ou non
Valable pour l’ensemble du
projet
Valable pour l’ensemble du projet
Propre à chaque jeu de données sauf si valable
à l’échelle du projet
POUR TOUT RENSEIGNEMENT
Magalie Moysanmagalie.moysan@univ-paris-diderot.frNathalie Reymonetnathalie.reymonet@univ-paris-diderot.fr
Recommended