Upload
bastien-guerry
View
2.525
Download
4
Embed Size (px)
DESCRIPTION
Présentation faite par Arnaud Beaufort lors des Rencontres Wikimédia 2010 (Paris)
Citation preview
Partenariat de la BnF avec Wikimédia
Arnaud BeaufortBibliothèque nationale de FranceDirecteur général adjointDirecteur des services et des réseaux
Rencontres Wikimédia4 décembre 2010
Une convention pour deux projets
Convention Signature : nov. 2009 Lancement avec le Salon du Livre 2010
1 416 documents pour Wikisource
Les autorités pour Wikipédia (infobox)Noms géographiquesNoms de personnesTitres uniformes musicauxTitres conventionnelsTitres uniformes textuels
Et si les internautes faisaient mieux que les machines…
Alphonse Allais, Deux et deux font cinq, 1895 – Texte original
Le même texte généré par OCR (reconnaissance optique de caractères)
Le même texte corrigé par les internautes sur Wikisource
Des livres pour Wikisource
La BnF a signé une convention portant sur 1416 documents Différents taux de qualité
pour étudier l’influence du taux de qualité sur l’activité des internautes (est-il plus facile de transcrire à partir de rien qu’à partir d’un texte très fautif ?)
Y compris avec Niveau Qualité < 60 % Différentes thématiques, tout en restant à niveau
généraliste Ensembles cohérents (pas de séries dépareillées)
Corriger le texte
Gallica Texte obtenu par OCR
Tables des matières : OCR + relecture Indexé seulement si NQ ≥ 60 %
=> perdu si NQ < 60 % Pas de correction (ni par les internautes, ni par
reCaptcha)
NB : d’autres bibliothèques proposent des systèmes de correction en ligne (http://newspapers.nla.gov.au/ndp/del/home)
Un exemple : la Bibliothèque nationale
d’Australie (presse numérisée)
Un exemple : la Bibliothèque nationale
d’Australie (presse numérisée)
Bilan d’étape (octobre 2010)
1416 livres ont été donnés dans le cadre du partenariat
1057 avaient un OCR (et 359 sans OCR)
573 310 pages cumulées
404 pages par livre en moyenne
Bilan d’étape(octobre 2010)
L'ensemble des fichiers a été mis en ligne et une nouvelle "catégorie" aété créée dans Wiki Commons Cf.
http://commons.wikimedia.org/w/index.php?title=Category:Books_provided_by_the_BNF
Et la liste sur http://fr.wikisource.org/wiki/Wikisource:Dialogue_BnF/Liste_de_textes_fournis
Enjeux : le collaboratif et Gallica
Enseignements à tirer des premiers mois de ce partenariat :
Importance de s’appuyer sur une base de contributeurs aguerris
Importance de l’animation de la communauté (événements, appels à contribution, réseaux sociaux et blogs…) pour attirer de nouveaux contributeurs
Depuis fin novembre 2010, mise en place de liens de Gallica vers Wikisource
Le lien est fait page à page directement. Il faudra suivre si ces liens ont un impact sur la contribution de
correcteurs qui ne sont pas des habitués de wikisource.
Et demain ?
Développer un service de correction d’OCR dans Gallica ? R&D avec Orange Labs (projet Ozalid) Projet de saisie de manuscrits (ANR) Mais importance de la fonction d’animation de communauté.
D’où l’importance de s’appuyer sur les communautés existantes.
Les prolongements du partenariat actuel La récupération du texte corrigé
Sera traitée ultérieurement, sous forme d’un marché (réinjecter le texte tout en restant compatible avec les fonctionnalités de Gallica)
Se servir de ces textes corrigés pour créer des e-books ePub…
NB : d’ores et déjà, la BnF réfléchit à mettre à disposition des contenus divers (images…) pour des partenaires (Wikimedia commons, Flick’r, WDL…) de façon à améliorer la visibilité de ses ressources pour les internautes
Les données d’autorité de la BnF
Les lieux : noms géographiques (autorités GEO)
Les personnes noms de personnes (autorités PEP)
Les « œuvres » : les titres uniformes musicaux (TUM) les titres conventionnels (TIC) les titres uniformes textuels (TUT)
Soit environ 1,6 millions de noticesSoit environ 1,6 millions de notices
Exemple de titres uniformes musicaux
Différents titres utilisés
Fait partie de
Informations sur l’œuvre
Exemple de titres conventionnels ou textuels
Différents titres utilisés
Fait partie de
Différentes langues
Informations sur l’œuvre
Objet du partenariat
La BnF met à disposition ses notices d’autorité
Utilisation dans Wikipédia Alimentation des « infobox » Avec de l’information structurée Liens vers les notices BnF
Données structurées…-sans gestion des autorités-sans lien vers la BnF et ses ressources-avec des informations supplémentaires par rapport aux notices de la BnF
Des enjeux majeurs
Modifier la relation avec les internautes Améliorer nos données
à terme, possibilité de récupérer ou d’indexer le texte corrigé
Multiplier les points d’accès vers les ressources de la Bibliothèque nationale
Insérer nos données dans le web de données
Le projet de « pivot documentaire » (data.bnf.fr)
La BnF développe un projet pour mettre en œuvre ces pistes de travail
Augmenter la visibilité des ressources BnF sur le Web Proposer des pages attractives Centrées autour des notions d’œuvre et
d’auteur Nombreux liens vers des ressources BnF
et des ressources externes (dont Wikipedia)…
Romain Wenz- July 21st 2010 33
Maquette du pivot documentaire
Exemple de page « œuvre »
Une ergonomie durable qui a pour but de :
-fournir du contenu
-lier vers les ressources
-conduire aux services