Upload
others
View
7
Download
0
Embed Size (px)
Citation preview
Open Mining Infrastructure
for TExt and Data
Patricia Geretto, INRA-Versailles
Forum du GFII, Paris, 8 Décembre 2015
Une infrastructure text-mining au service des scientifiques
L’INRA
OPENMINTED : LES OBJECTIFS
OPENMINTED : LE PROJET
Forum du GFII, Paris, 8 Décembre 2015
SOMMAIRE
CAS D’USAGE ‘BIOLOGIE VEGETALE’ : ENJEUX - GAINS
Institut National de la Recherche Agronomique
Forum du GFII - Paris, 8 décembre 2015
Alimentation - Agriculture - Environnement
8290 agents titulaires dont
13 départements scientifiques et 8 métaprogrammes
186 unités de recherche et 49 unités expérimentales
881,71 M€ : Budget exécuté
2552 stagiaires accueillis et 510 doctorants rémunérés
Rapport d’activité INRA, 2014
17 centres de recherche
360 brevets en stock dont 67 nouveaux
1840 chercheurs titulaires
MaIAGE Unité de recherche
"Mathématiques et Informatique Appliquées du Génome à l'Environnement"
L’équipe Bibliome développe des méthodes de
linguistique computationnelle et d’apprentissage automatique appliquées au domaine des
Sciences de la Vie.
Suite Alvis développée par MaIAGE http://bibliome.jouy.inra.fr
Participation de l’INRA au projet OpenMinTeD
Forum du GFII - Paris, 8 décembre 2015
Cas d’Usage en Agronomie
DIST
Délégation à l’Information Scientifique et
Technique
La DIST est chargée de construire et mener la politique de l'Information Scientifique et
technique (IST) pour l'INRA.
Appel à projet H2020-EINFRA-2014-2
(Research and Innovation Actions,
Framework Partnership Agreement
with Multiple Beneficiaries)
3 ans (2015-2018)
5,4 millions d’euros
16 partenaires
Le Projet OpenMinTeD
Utilisateurs finaux
Forum du GFII - Paris, 8 décembre 2015
Chercheurs, curateurs de bases de données…
Editeurs de littérature et d’outils de text-mining, bibliothèques,
PME …
Fournisseurs de contenus et services
Réaliser une plateforme et une infrastructure de Text et Data Mining (TDM), ouverte et pérenne, qui permette aux chercheurs de découvrir, créer, partager et ré-utiliser la connaissance extraite d’un vaste éventail de sources
de la littérature scientifique.
Text-mining
Communautés scientifiques
Infrastructure
Fournisseurs de contenu OA
OpenAIRE
Open Access Infrastructure for Research in Europe
SSOAR,
Social Science Open Access Repository
Clarin,
European research infrastructure for the humanities and social sciences
AGRIS,
Agricultural Science and Technology Information
Spécialistes du
droit
Partenaires d’OpenMinTeD
Forum du GFII - Paris, 8 décembre 2015
Forum du GFII - Paris, 8 décembre 2015
Biologie Végétale & Biodiversité
2 cas d’usage à l’INRA
Approche “chercheur centrée” Les spécifications de la plateforme reposent sur des Cas d’Usage
Constat – Difficultés pour les Chercheurs • Dispersion des sources d’information • Manque d’uniformité des modes de recherche et de récupération des
contenus • Accès restreint, payant ; règles de copyright et licences
OpenMinTeD • Explicite les règles d’accès au contenu/aux sources • Favorise l’utilisation des ressources en open access (littérature
scientifique, données et vocabulaires partagés) • Offre un accès fédéré aux ressources (métadonnées et protocoles
d’échange standards)
Les Sources – Le Contenu
Forum du GFII - Paris, 8 décembre 2015
OpenMinted focuses on interoperability across text mining services and content providers
Constat – Difficultés pour les Chercheurs • Manque de moyens informatiques (stockage, calcul, compétences…)
• Difficultés à identifier des services de text-mining appropriés aux problématiques
• Manque de connaissances des capacités/limites des services de text-mining
OpenMinTeD • Met à disposition un environnement accessible à distance pour construire, utiliser et partager des chaînes de traitement de text-mining à façon
• Permet le traitement de gros volumes de données
• Documente et rend les services de text-mining plus faciles à appréhender
OpenMinted does not build new services, but adopts and adapts existing services for new communities
Le Traitement de Text-Mining
Forum du GFII - Paris, 8 décembre 2015
Constat – Difficultés pour les Chercheurs • Manque d’uniformité dans les formats de production • Peu de ré-utilisation des ressources produites et des chaînes de
traitement construites • Peu de traçabilité du lien entre les ressources utilisées et les
résultats produits
OpenMinTeD • Garde la trace des versions et des licences des ressources
utilisées • Met à disposition des espaces de partage de corpus annotés, de
vocabulaires, des chaînes de traitement… • Permet la reproductibilité des résultats • Favorise des sorties en format standard
L’Exploitation des Résultats
Forum du GFII - Paris, 8 décembre 2015
Questionnaire 82 participants
66 questionnaires complets
17 sujets abordés
15 questions sur le sujet des difficultés
(difficultés à trouver l’information pertinente, à la collecter et l’exploiter, à la relier à des données…)
17 questions sur le sujet des solutions
(annotations, visualisations, extractions, liens
sémantiques entre données et textes…)
Cas d’Usage ‘Biologie végétale’
Forum du GFII - Paris, 8 décembre 2015
Personas
Cas d’Usage ‘Biologie végétale’
Forum du GFII - Paris, 8 décembre 2015
Le Text-Mining permet de
• Remobiliser les connaissances existantes et dispersées
• Sélectionner des paramètres biologiques d’intérêt
• Réduire le champ des expérimentations possibles
• Diminuer le coût des expériences
Enjeux - Gains
© Christophe MAITRE, INRA
© William BEAUCARDET,INRA
Contact us
www.openminted.eu
Project Coordinator: Natalia Manola [email protected]
twitter.com/openminted_eu
facebook.com/openminted
bit.do/openmintedlinkedin
vimeo.com/openminted
bit.do/openmintedplus
http://fr.slideshare.net/openminted_eu
Two OPEN CALLS and two HACKATONS will be organized to
develop applications with special focus on innovative ideas improving the uptake of the OpenMinTeD infrastructure, promoting
the openness and reuse principle
(2017, March & July)
Patricia Geretto, Sophie Aubin (DIST) [email protected] [email protected]
Claire Nédellec (MaIAGE) [email protected]