Upload
luc-bellier
View
721
Download
2
Embed Size (px)
DESCRIPTION
numérisation, document numérique, formation à destination des étudiants de 1° année à l'Ecole des bibliothécaires et documentalistes (ebd.fr)
Citation preview
Le document
1Luc Bellier septembre–octobre 2013
PLANPLAN
Définir la notion de ‘document’ Travail de groupe
Définitions
Approches du document Exemples Analyse d’un document
La chaine documentaire
Traitements Documentaires Matériels Le cas de la numérisation
Accès 2
Définitions Définitions Définition ISO (International Organisation
for Standardization) Ensemble formé par un support et une information
généralement enregistré de façon permanente et tel qu’il puisse être lu par l’homme ou la machine
Vocabulaire de la documentation Ensemble d’un support d’information, quel qu’il soit,
des données enregistrées sur ce support et de leur signification, servant à la consultation, l’étude, la preuve ou la trace etc. : livre, échantillon de parfum, tissus, film…Le tout constitue une unité autonome.
3
Approches du documentApproches du document
« Tout est document pourvu qu’il soit le témoin d’un savoir inscrit dans un système documentaire » Suzanne Briet 1951
Le vu, le lu, le su (Jean-Michel Salaün) Le vu : la forme, le support Le lu : le texte, le contenu, le fond Le su : le medium, l’attention, le système d’échange
4
Approches du documentApproches du document
Le document ne peut être dissocié de ses environnements : Fond, forme, destination font parti intégrante du
document si celui-ci doit s’inscrire dans un système (documentaire, d’échanges etc.)
En ce sens le document doit toujours être interrogé pour ce qu’il est dans ces trois dimensions, et traité en conséquence : La diffusion (médium) La forme (description, reproduction, déclinaisons de différents supports
etc.) Le fond (la pertinence du contenu au regard des deux autres dimensions)
5
Tablette d’argile : textes juridiques ou comptables Rouleau de papyrus :
textes sacrés
Qu’est-ce qu’un document ?Qu’est-ce qu’un document ?
Fiches
Films
Qu’est-ce qu’un document ?Qu’est-ce qu’un document ?
Contenu/contenantLecture et dispositif de lecture
Qu’est-ce qu’un document ?Qu’est-ce qu’un document ?
Contenu/contenantLecture et dispositif de lecture
Qu’est-ce qu’un document ?Qu’est-ce qu’un document ?
Un système de valeurs autour des documents, symbolique, sémiotique et économique.
Qu’est-ce qu’un document ?Qu’est-ce qu’un document ?
Organiser les Organiser les documentsdocuments
Les ranger, les trouver, les décrire
13
Fonds
Fonds classé
Fonds inventorié
Fonds numérisé
Approches du document Approches du document : :
exemplesexemples
Approches du documentApproches du document
Approche métier• Objet porteur d’information, pris indépendamment du
support, de la nature de l’information ou de toute autre caractéristique
• A traiter à la fois au niveau de l’objet lui-même et de l’information qu’il supporte
Remarques • Un même document peut cumuler plusieurs fonctions • Les métiers de la gestion de l’information découlent de ces
fonctions qui sont liées aux besoins des organismes • Autres fonctions dans le contexte des bibliothèques de
lecture publique : essentiellement la mise à disposition d’un patrimoine culturel
14
Approches du Approches du documentdocument
Approches professionnelles :
Document de travail (au sens large) Tout type de document dès lors qu’il est pertinent pour
améliorer la qualité et l’efficacité du travail des collaborateurs
Durée de vie variable mais le contenu doit rester pertinent par rapport à des besoins identifiés
Enjeux : Le retrouver facilement et rapidement Le mettre à disposition sur le support qui convient
Document patrimonial Valeur généralement historique ; de l’ordre de 3% des
documents produits Durée de vie très longue Enjeux : le conserver sur le long terme.15
Approches du Approches du documentdocument
Approche fonctionnelle :
Document à valeur probante Valeur de preuve en cas de contrôle ou de contentieux Durée de vie variable, pouvant faire l’objet d’une
réglementation Enjeux : tracer le document et en garantir l’intégrité
pour qu’il garde sa valeur de preuve
Principales conditions d’exploitationo Technologiques, notamment en fonction du support
(papier, électronique, film…)o Juridiques (droits d’exploitation)o Modes d’utilisation (besoins des utilisateurs)
16
17
Estimation et analyse de besoins
Recherche et collecte d’informations
Sélection, acquisition des documents
Traitement des documents
Traitement intellectuel :•Catalogage et indexation•Analyse, résumé etc.
Enregistrement de l’information
Traitement matériel :•Enregistrement du document•Équipement, reproduction, conservation (reliure etc.)
Classement
Diffusion de l’information :•Prêt •Mise à disposition des produits secondaires (catalogue, bibliographies, revue de presse etc.)
Le traitement documentaireLe traitement documentaire
Les différents niveau de traitement du document
Document primaireo Présente une information à caractère original c’est-à-dire
lisible par le lecteur telle que l’auteur l’a écriteo Soumis à une législation régissant les droits d’utilisation
et de reproduction
Document secondaireo Présente un document primaire à partir d’informations
extraites (auteur, titre…) ou créées (mots clés, résumé) o Exemples : notices bibliographiques, bibliographies,
catalogues de bibliothèques, index, répertoires de signets…
Document tertiaire o Synthèses réalisées à partir de plusieurs documentso Exemples : encyclopédies, états de l’art…18
Le traitement documentaireLe traitement documentaire
Typologies des documents primaires
Pourquoi une catégorisation des documents ? Pour mieux organiser les fonds documentaires. Mais ces
systèmes de catégorisation ont des limites : un livre peut aussi comporter un DVD ; un texte pourra être à la fois sur support papier (analogique) et électronique
Pour mieux rechercher les documents
Critères de catégorisation courants Le support : papier, film, magnétique, optique Le mode de codage : analogique ou numérique La nature des informations : juridique, économique,
scientifique… Le mode de représentation : information textuelle,
graphique (image), sonore19
Le traitement documentaireLe traitement documentaire
Document secondaire
Composition Il comporte des informations permettant de décrire le
document primaire : Ses caractéristiques « objectives » : auteur, titre, date…. Son contenu : mots clés, résumé… Son mode de gestion (par exemple : en prêt, cote, n°
d’exemplaire pour un livre) En cas de document électronique ces éléments
d’information s ’appellent les métadonnées (données sur les données)
Usages La recherche dans un fonds physique ou un système
informatique La prise de connaissance rapide de son contenu pour
Identifier son niveau d’intérêt S’approprier les informations synthétisées dans le résumé20
Le traitement documentaireLe traitement documentaire
Exemples de documents secondaires
Catalogue ou fichier bibliographique Très majoritairement informatisé Appelé OPAC (online public access catalog) dans les
bibliothèques Règles de description pouvant varier selon les contextes Exemples à voir : catalogues des bibliothèques de la Ville
de Paris, de la médiathèque de la Cité des sciences, de la BPI, de la BNF…
Produits documentaires basés sur des documents secondaires
Revue de presse (à distinguer du panorama de presse) Liste des nouveautés Bibliographie Bulletins de sommaires
21
Le traitement matérielLe traitement matériel
Ranger et conserver le document Principes
Distinguer stockage et conservation Définir le besoin réel et les coûts supportables La numérisation (dématérialisation) permet de créer
un support de substitution évitant les risques liés à la consultation et la diffusion des documents
Exemple : http://www.mémoiredeshommes.sga.défense.gouv.fr/
Techniques Validées pour le document papier : règles, normes
… Relèvent plutôt des métiers de l’archivistique
En forte évolution pour le document électronique Relèvent plutôt des métiers de l’informatique 22
Le traitement matérielLe traitement matériel
Document papier et électronique Document papier
Objet matériel, tangible et fini ; accessible directement par les sens
Lien entre la forme et le sens : le support conditionne l’accès au contenu
Document électronique Objet « immatériel » composé d’unités binaires permettant
les traitements informatiques et lisible par l’intermédiaire d’une machine
Les possibilités liées à l’informatique (liens hypertexte par ex. ) gomment les limites du document ;
Évolution vers la notion de ressource électronique Modes de production :
- Documents directement produits sous forme électronique à l’aide de logiciels (logiciels bureautiques….)- Documents analogiques (papier…) transformés en documents électroniques23
24
Principaux modes de codage numériques Principaux modes de codage numériques
Mode de codage
Type de codage Remarques
alphabétique (mode texte ou
caractère)
Codage selon une norme ex. codage ASCII sur 8 bitsexemple A : 01000001 a : 01100001
- Codage des signes des documents textuels (caractères, blancs, ponctuation…) -Fichiers utilisables en recherche et de faible volume.- American Standard Code for Information Interchange
Mode image bitmap
représentation des images selon une mosaïque de points
- Fichiers non directement utilisables en recherche.- Volumes très importants avant compression.
Mode vectoriel
représentation selon les éléments géométriques qui les composent
Utilisé pour les plans, graphiques.. En CAO et DAO essentiellement
Le cas de la numérisation
25
Processus Passage d’un support physique à un état dit dématérialisé Changement de mode de codage : passage d’un mode de
codage analogique à un codage numérique Information analogique : le signal est continu Information numérisée : représentée par un échantillon de
valeurs du signal analogique et codé à l’aide de numéraux (0 ou 1)
Caractéristiques techniques Ces changements se font par un processus technologique :
la numérisation et à l’aide d’un matériel spécifique : le numériseur (ou scanner)
Le fichier résultant de la numérisation est un fichier bitmap
Exemple : http://www.mémoiredeshommes.sga.défense.gouv.fr/
Le cas de la numérisationLe cas de la numérisation
26
o Capture du document par un signal lumineuxo analyse de l’intensité lumineuse par un capteur CDD
(charged-coupled device) - une seule analyse pour le noir et blanc- analyse de 3 faisceaux lumineux séparés par un prisme et des
filtres rouges, verts et bleus (RVB) pour des documents en couleur
o conversion en signal électrique binaire selon une grille propre au mode de codage
o Production du fichier bitmap
La capture de l’imageLa capture de l’image
Le cas de la numérisation
27
Le mode de traitement des imagesLe mode de traitement des images
NUMERISATION
RESTITUTION0000000000
0001110000
0010001100
0100000100
1000000010
1111111111
1000000000
1000000000
0100000010
0010000100
0001111000
In Mémoires optiques / Catherine Leloup. – Paris : EME, 1987.
Le nombre de points par pouce ou DPI (1 inch = 2,54 cm) détermine la résolution et donc la qualité de l’image mais aussi le poids du fichier
Le nombre d’information par point (noir et blanc, niveaux de gris ou couleurs)
Le mode de compression
La taille de l’image est fonction de ces trois paramètres
Le cas de la numérisation
28
Type d’imageNbre de
bits/pointValeurs codées Remarques
noir et blanc2 noir = 1
blanc = 0utilisé pour le texte
avec des niveaux de
gris
8 256 niveaux de gris
utilisé pour les documents iconographiques noir et blanc
couleur analyse RVB(*)
3 x 8 3 x 256 niveaux par couleur soit 16,4 millions de
couleurs
3 couleurs : rouge/vert/bleu(codage utilisé par les
moniteurs et les téléviseurs)
Définition et profondeur de l’analyseDéfinition et profondeur de l’analyse
(*) Les imprimantes couleur utilisent le modèle CMJN (cyan, magenta, jaune et noir) qui est celui de l’imprimerie en quadrichromie.
Le cas de la numérisation
29
Caractéristiques généraleso reproduction à l’identiqueo volume des fichiers très important, ce qui a un impact sur :
o le choix des supports de stockageo les possibilités et les temps de transmission par réseau
o document non modifiable (pas d’accès au contenu)
Qualité o La qualité et la lisibilité du document numérique restitué est
variable selon :o l’état initial du documento la résolution retenueo les performances du numériseur (scanner) et le niveau du réglage
des contrastes
Caractéristiques des fichiers bitmapCaractéristiques des fichiers bitmap
Le cas de la numérisation
30
Plus une image est de bonne qualité plus elle est lourde. La compression peut permettre de diminuer fortement le poids d’une image sans abaisser dans les mêmes proportions la qualité.
Elle permet de réduire la taille des fichiers en supprimant des pixels ou des couleurs Compression sans perte Compression avec perte
Les formats engendrant des pertes de données irréversibles sont à éviter lorsque l’on veut assurer la sauvegarde à long terme des images
La compression des imagesLa compression des images
Le cas de la numérisation
31
La compression des imagesLa compression des images
Codage ligne par ligne puis corrélation des lignes entre elles
Les lignes qui se suivent se ressemblent, on va donc procéder à un codage relatif ou prédictif d’une ligne à l’autre
Le cas de la numérisation
32
Format de compressionFormat de compression JPEGJPEG
La compression des imagesLa compression des images
Paramétrage du taux de qualité (0 à 100%)
codage
compression
restitution
Pour un taux = 80%) la compression est comprise entre 5 et 10Utilisé pour les images 8 bits et 24 bits
Le cas de la numérisation
33
Mise en forme de l’image nettoyage de l’image : élimination des éléments
parasites, détourage, pivotement, redressement
Compression Opération permettant de réduire le poids du fichier
bitmap ce qui permet de : limiter les besoins de stockage faciliter la transmission par réseau
Reconnaissance optique de caractère : OCR
passage d’un fichier bitmap à un fichier codé en ASCII
Les traitements sur les fichiers après Les traitements sur les fichiers après
numérisationnumérisation
Le cas de la numérisation
34
Objectifo automatisation de la saisie en mode caractère
- document retraitable, modifiable et indexable par un moteur- réduction de la taille
Processuso segmentation de l’image du document numériséo détermination des caractéristiques de chaque caractèreo comparaison par rapport à des jeux de police et décisiono traitements complémentaireso identification de mots par comparaison avec un dictionnaireo Établissement d’un niveau de confiance pour chaque moto apprentissage de nouvelles polices de caractères
O.C.R. (Optical Character Recognition)O.C.R. (Optical Character Recognition)
Le cas de la numérisation
Ce qu’il faut faire pour : la recherche plein texte, le surlignage, la vocalisation page à page, le mode e-book
TopMargin
PrintSpace
BottomMargin
Le cas de la numérisation
36
Attributs génériques WC : Note de confiance de la reconnaissance de chaque mot,
notée de 0 à 1 : 0,1; 0,2 etc. WD : appartenance à un dictionnaire (true, false)
O.C.R. (Optical Character Recognition)O.C.R. (Optical Character Recognition)
Forte dépendance de la structure physique qui traduit la structure logique du document original.
Le texte affiché peut comporter un certain nombre d'erreurs.
Il a été généré par O.C.R. Le taux de reconnaissance obtenu pour ce document
est de 92,32 %. iôU
Repopulation {Dédié à M. MOT, sénateur)
— Qu'est-ce que tu veux, maman?... Gaston est si distrait!.
Le cas de la numérisation
37
Au niveau des caractèreso définition insuffisanteo caractères peu nets ou liés, effets de lignes ou de bandes sur
les faxo annotations, marques, tâches…o tableaux et soulignéso écriture manuscrite (ICR, Intelligent Character Recognition)o Difficultés pour évaluer la qualité réelle du document reconnu
Au niveau du documento fonds coloréso problèmes de contrasteo Structure complexe
Limites de l’ O.C.R.Limites de l’ O.C.R.Le cas de la numérisation
?
Un document numérique / électronique, c’est une suite de fichiers sans lien entre eux
Métadonnées descriptives
•rattacher le document à l’original / différentes versions d’un document
•donner accès à la copie numérique / électronique
identifiant unique (localisation / identification)
Métadonnées de structure
•rattacher les fichiers entre eux
•reconstituer la structure du document
Métadonnées administratives
•gérer la collection, c’est-à-dire
•gérer les droits d’accès
•préserver les informations techniques nécessaires à la lecture des fichiers
•garantir l ’intégrité des fichiers et le suivi de leurs éventuelles modifications
LesLes métadonnéesmétadonnéesLe cas de la numérisation
39
Document objet Organisation du fonds physique selon des critères
permettant de retrouver les documents selon un nombre limité de critères ; exemple en BM : auteur pour les romans, thème/sous-thème pour les documentaires
Nécessité de faire un catalogue pour des recherches selon d’autres critères
A voir : organisation d’une BM et son catalogue en ligne
Document dématérialisé Recherche automatisée sur des critères prédéfinis
organisés selon la logique des catalogues (logique différente de celle du web) Les éléments de recherche, appelés métadonnées, sont
regroupés dans des notices Suppose une description préalable (encore faite « à la
main ») Recherche directement dans le document numérique
L’accès au documentL’accès au document
Le cas de la numérisation
L’accès au documentL’accès au document
Catalogue
Moteur
Le cas de la numérisation
Enjeux La qualité des résultats de recherche
Bruit : documents non pertinents sélectionnées par le moteur de recherche en réponse à une question
Silence : documents pertinents non sélectionnés par le moteur de recherche
Le coût de traitement Exemple : de l’ordre de 15 minutes pour la réalisation d’une
notice
Evolutions en cours Amélioration des performances des moteurs de recherche
sur le texte « brut » : analyse linguistique du texte Balisage du texte (tags) pour le structurer en fonction de
critères de recherche (question de l’usage des métadonnées par les moteurs)
Évolution des usages : de la recherche structurée à la recherche plein texte
41
L’accès au documentL’accès au document
• Recherche en texte intégral• Recherche statistique ou associative
– fréquence du mot à l’intérieur du document– rareté du mot dans la collection– longueur du mot trouvé par rapport à la longueur du champ
• Recherche linguistique – exploitation du vocabulaire et de la grammaire– lemmatisation de l’index– catégorisation des mots-outils– extraction d’entités nommées
L’accès au documentL’accès au document
L’accès au documentL’accès au document
43
• Recherche sémantique : exploitation d’un modèle de connaissance ou référentiel– extraction terminologique (couplée à l'analyse sémantique)– détection du contexte global du document – classification automatique des mots du texte – expansion de requête– navigation dans un thésaurus de haut niveau – calcul des relations entre thèmes (lexicométrie) – filtrage des thèmes en fonction de leur pertinence
– À voir : http://www.adbs.fr/le-web-de-donnees-perspectives-pour-les-metiers-de-l-information-documentation-79361.htm
Que peut voir un moteur de recherche dans une bibliothèque numérique ?
BibliographieBibliographie Approche générale
Claude Morizio, La recherche d’information, Paris : ADBS, Armand Colin, 2004. (128 : information documentation)
Le pentagone de l'industrialisation de la mémoire - Bloc-notes de Jean-Michel Salaün, 2006, http://blogues.ebsi.umontreal.ca/jms/index.php/post/2006/11/29/127-le-pentagone-de-l-industrialisation-de-la-memoire
Briet Suzanne, Qu’est-ce que la documentation ?, EDIT, 1951 consultable ici : http://martinetl.free.fr/suzannebriet/questcequeladocumentation/
Guillaud Hubert, Les trois dimensions de l’économie de la publication | La Feuille, http://lafeuille.blog.lemonde.fr/2011/09/13/les-trois-dimensions-de-leconomie-de-la-publication/
Document numérique Le gestion électronique documentaire / Jean-Yves Prax, Simon
Larcher . – 3ème ed. . – Paris : Dunod, 2004 . Pour cette première approche du document numérique, voir le chapitre 3 en se limitant aux thèmes abordés en cours.
45