20
Projet pilote sur les données ouvertes et liées à BAnQ : retour sur l’expérience Jean-François Gauvin Direction générale des technologies et des télécommunications Marie-Chantal L’Ecuyer-Coelho Direction du traitement documentaire des collections patrimoniales

Projet pilote sur les données ouvertes et liées à BAnQ ... · Organisme en charge : BAnQ Objectifs : Aider le réseau de la culture à s’approprier les technologies du Web sémantique

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Projet pilote sur les données ouvertes et liées à BAnQ ... · Organisme en charge : BAnQ Objectifs : Aider le réseau de la culture à s’approprier les technologies du Web sémantique

Projet pilote sur les données ouvertes et liées à BAnQ :

retour sur l’expérience

Jean-François Gauvin

Direction générale des technologies et des télécommunications

Marie-Chantal L’Ecuyer-Coelho

Direction du traitement documentaire des collections patrimoniales

Page 2: Projet pilote sur les données ouvertes et liées à BAnQ ... · Organisme en charge : BAnQ Objectifs : Aider le réseau de la culture à s’approprier les technologies du Web sémantique

Contexte du projet

Plan culturel numérique du Québec

● Ministère de la Culture et des

Communications

● Depuis 2014

● Objectif : Aider les acteurs du milieu culturel

à opérer une transformation vers le

numérique

2

Page 3: Projet pilote sur les données ouvertes et liées à BAnQ ... · Organisme en charge : BAnQ Objectifs : Aider le réseau de la culture à s’approprier les technologies du Web sémantique

Contexte du projet

Mesure 6

Organisme en charge : BAnQ

Objectifs :

● Aider le réseau de la culture à

s’approprier les technologies du

Web sémantique afin de maximiser

la présence des données culturelles

québécoises dans le Web

● Intégrer les données québécoise

dans le Web sémantique

francophone, en s’appuyant sur la

réalisation d’un projet pilote

3

Défis :

● Identification de la portée du projet

● Courbe d’apprentissage abrupte pour tous les acteurs impliqués

Page 4: Projet pilote sur les données ouvertes et liées à BAnQ ... · Organisme en charge : BAnQ Objectifs : Aider le réseau de la culture à s’approprier les technologies du Web sémantique

Chronologie du projet

4

Arrivée du

consultant

(Polytechnique)

Août 2017

à janvier 2018

Choix liés à la

modélisation

Nettoyage des données

Fin du contrat

du consultant

Janvier 2018

à avril 2018

Conversion des

données

Scripts Python

Requêtes SPARQL

Triplestore

Réconciliation (début)

Création du

sous-graphe +

décision liée

aux autorités

Avril 2018

à juillet 2018

Réconciliation (suite)

Début de la réflexion

liée à la visualisation

Erreurs suite à la

modélisation

Création d’un sous-

graphe

CPI

2018 :)

Juillet 2018

à aujourd’hui

Travail sur le sous-

graphe

Travail sur les autorités

Outils de visualisation

GraphDB

Documentation

Page 5: Projet pilote sur les données ouvertes et liées à BAnQ ... · Organisme en charge : BAnQ Objectifs : Aider le réseau de la culture à s’approprier les technologies du Web sémantique

Choix du jeu de données : Projet Relations

France-Québec depuis 1760

Site Web réalisé par BAnQ il y a 10 ans à partir de notices

bibliographiques issues des catalogues de la BnF et de BAnQ,

qui vise à mettre en lumière la richesse des échanges entre la

France et le Québec depuis la Conquête

Comprend :

● Chronique : présentation chronologique des moments

marquants de l’histoire des relations France-Québec.

Organisé par types de relations (sociales, politiques,

économiques, intellectuelles ou culturelles)

● Inventaire bibliographique des documents : organisé selon

une typologie précisant la nature de la collaboration 5

Page 6: Projet pilote sur les données ouvertes et liées à BAnQ ... · Organisme en charge : BAnQ Objectifs : Aider le réseau de la culture à s’approprier les technologies du Web sémantique

Choix du jeu de données : Projet Relations

France-Québec depuis 1760

● Publication sur les relations entre la France et le Québec = a

● Auteur québécois publié en France = b

● Coéditions et association(s) d'éditeurs et/ou d'imprimeurs = c

● Éditions d'ouvrages français au Québec (1939-1947) = d

● ...

6

Typologie

Page 7: Projet pilote sur les données ouvertes et liées à BAnQ ... · Organisme en charge : BAnQ Objectifs : Aider le réseau de la culture à s’approprier les technologies du Web sémantique

Choix du jeu de données : Projet Relations

France-Québec depuis 1760

Intérêt des données RFQ

● Promotion de la collaboration au sein de

la francophonie : RFQ réalisé en

partenariat avec la BnF et le Centre de

recherche Lionel-Groulx (CRLG)

● Occasion de revitaliser le projet

● Jeu de données unique en soi

● Jeu de données variés, incluant différents

types d’objets culturels collectionnés par

les institutions patrimoniales

● Intérêt de la typologie RFQ dans le

contexte des DOL

● Possibilité de création de liens à l’interne

et à l’externe 7

Page 8: Projet pilote sur les données ouvertes et liées à BAnQ ... · Organisme en charge : BAnQ Objectifs : Aider le réseau de la culture à s’approprier les technologies du Web sémantique

Modélisation

● Choix des ontologies pour la conversion

○ Données bibliographiques :

BIBFRAME

○ Données autorités :

MADS RDF + SKOS

● Choix des sources de données externes pertinentes pour

la réconciliation

○ VIAF

○ LC

○ BNF

○ DNB

○ ISNI

8

○ IDRef

○ Wikidata

○ DBpedia

Page 9: Projet pilote sur les données ouvertes et liées à BAnQ ... · Organisme en charge : BAnQ Objectifs : Aider le réseau de la culture à s’approprier les technologies du Web sémantique

Extraction et analyse des données du RFQ

Jeu de données initial :

● 59 996 notices bibliographiques produites

majoritairement avant 2012

● Répartition par source

9

5%

18%

77%

Page 10: Projet pilote sur les données ouvertes et liées à BAnQ ... · Organisme en charge : BAnQ Objectifs : Aider le réseau de la culture à s’approprier les technologies du Web sémantique

Extraction et analyse des données du RFQ

Quelques constatations :

● Plusieurs types de documents : textuels,

visuels, cartographiques, musicaux, etc.

● Large éventail de sujets couverts

● Notices très hétérogènes (AFNOR,

ISBD/RCAA2, standards maison)

● Niveau de granularité et segmentation

des données variables selon la source et

la date de création des notices

10

Nécessité de produire un sous-graphe

Page 11: Projet pilote sur les données ouvertes et liées à BAnQ ... · Organisme en charge : BAnQ Objectifs : Aider le réseau de la culture à s’approprier les technologies du Web sémantique

Sous-graphe : 630 notices

Critères de sélection :

● Provenance : BAnQ et BnF

● Formats (numérisés)

● Normes (ajout de 95 notices

RDA)

Jeu de données du projet pilote

11

Enrichissement :

● 342 notices d’autorités correspondant aux p.a.a.

des notices bibliographiques

Page 12: Projet pilote sur les données ouvertes et liées à BAnQ ... · Organisme en charge : BAnQ Objectifs : Aider le réseau de la culture à s’approprier les technologies du Web sémantique

Nettoyage des données

Étape chronophage mais essentielle!

12

=LDR 00608nam a22001933n 4500

=001 0003559820

=005 20080410180759.0

=008 080410\1997\\\\\\\\\\\\\\\\\\\\\\\\fre\\

[ … ]

=082 \\$a840

=083 \\$aa

=100 1\$aSylvestre, Guy

=245 10$aPanorama des lettres canadiennes-françaises , par Guy

Sylvestre,...

=260 \\$aQuébec :$bMinistère des affaires culturelles,$c1964

=300 \\$aIn-8° (23 cm), 79 p., portr., couv. ill. [Don 3058-64]

=500 \\$aCollection Art, vie et sciences au Canada français. 1

P.A.A. : $aSylvestre, Guy,$d1918-2010

Page 13: Projet pilote sur les données ouvertes et liées à BAnQ ... · Organisme en charge : BAnQ Objectifs : Aider le réseau de la culture à s’approprier les technologies du Web sémantique

Conversion des données bibliographiques

Convertisseur LC (https://github.com/lcnetdev/marc2bibframe2)

● Script XSLT 1.0 qui applique les spécifications de conversion

définies par LC (http://www.loc.gov/bibframe/mtbf/) pour

transformer des fichiers MARCXML en triplets RDF sérialisés

selon la syntaxe RDF/XML

● Ontologies : BIBFRAME 2.0, MADS/RDF et le BIBFRAME

Extension Vocabulary

● Permet de définir la racine des URI

http://data.banq.qc.ca/ressource/rfq/0002885533#Work

Script modifié pour ajouter la typologie RFQ

13

Page 14: Projet pilote sur les données ouvertes et liées à BAnQ ... · Organisme en charge : BAnQ Objectifs : Aider le réseau de la culture à s’approprier les technologies du Web sémantique

14

bf: Classification

http://data.banq.qc.ca/ClassificationRfq

http://data.banq.qc.ca/RFQtype/a

http://data.banq.qc.ca/RFQtype/b

http://data.banq.qc.ca/RFQtype/c

http://data.banq.qc.ca/RFQtype/e

http://data.banq.qc.ca/RFQtype/d

http://data.banq.qc.ca/RFQtype/f

http://data.banq.qc.ca/RFQtype/g

http://data.banq.qc.ca/RFQtype/h

http://data.banq.qc.ca/RFQtype/j http://data.banq.qc.ca/RFQtype/y

http://data.banq.qc.ca/RFQtype/i

Conversion des données bibliographiques

Classe

Sousclasse

Individus

Page 15: Projet pilote sur les données ouvertes et liées à BAnQ ... · Organisme en charge : BAnQ Objectifs : Aider le réseau de la culture à s’approprier les technologies du Web sémantique

Conversion des données d’autorité

● MADS/RDF

● Pas de convertisseur offert en libre accès par LC

● Convertisseurs disponibles via GitHub :

○ Jindřich Mynarz MARC_A_to_RDF (XSLT)

○ Scriptoteket mc2skos (Python)

○ Kevin Ford marcauth-2-madsrdf (XQuery)

● Outil retenu : Script XQuery de Kevin Ford

Permet la conversion des données en SKOS, MADS/RDF

ou en SKOS + MADS/RDF

15

RDF

Page 16: Projet pilote sur les données ouvertes et liées à BAnQ ... · Organisme en charge : BAnQ Objectifs : Aider le réseau de la culture à s’approprier les technologies du Web sémantique

Réconciliation

Données d’autorité

● Script Python pour injecter les URI de DBPedia

● Injection des URI de VIAF (clusters) ainsi que des URI de la

DNB, BnF, LC, ISNI et de IdRef

(madsrdf:hasExactExternalAuthority)

Données bibliographiques

● Script Python pour injecter des URI au niveau de l’instance

vers les manifestations correspondantes sur data.bnf.fr

● Injection des URI du convertisseur marcauth-2-madsrdf

(owl:sameAs)

Accès sujet: RVM n’est pas disponible sous forme de DOL

https://rvmweb.bibl.ulaval.ca/modele-d-affaires-du-rvm 16

Page 17: Projet pilote sur les données ouvertes et liées à BAnQ ... · Organisme en charge : BAnQ Objectifs : Aider le réseau de la culture à s’approprier les technologies du Web sémantique

Expérimenter avec un logiciel de visualisation

17

Page 18: Projet pilote sur les données ouvertes et liées à BAnQ ... · Organisme en charge : BAnQ Objectifs : Aider le réseau de la culture à s’approprier les technologies du Web sémantique

Noeuds vides

18

Page 19: Projet pilote sur les données ouvertes et liées à BAnQ ... · Organisme en charge : BAnQ Objectifs : Aider le réseau de la culture à s’approprier les technologies du Web sémantique

Expérience acquise et suite du projet

● Déploiement des URI

● Mise à jour et adaptations

des convertisseurs

● Conversion de l’ensemble

des notices RFQ

● Cellule d’innovation

● Création d’un service de

requête SPARQL

et de l’interface publique

data.banq.qc.ca

● Rapport final

● Retrait de l’ancienne

interface 19

● Nouveaux outils :

MARCNext, LODRefine,

OpenRefine, GraphDB,

Protégé

● SPARQL

● Modélisation

● Réflexion : nouveaux usages

et services

● Compréhension plus

approfondie des fondements

du Web sémantique

Les acquis Pour le futur

Page 20: Projet pilote sur les données ouvertes et liées à BAnQ ... · Organisme en charge : BAnQ Objectifs : Aider le réseau de la culture à s’approprier les technologies du Web sémantique

20

Merci !

Questions?