44
Le document 1 Luc Bellier septembre–octobre 20

EBD 2013 le document, document numérique

Embed Size (px)

DESCRIPTION

numérisation, document numérique, formation à destination des étudiants de 1° année à l'Ecole des bibliothécaires et documentalistes (ebd.fr)

Citation preview

Page 1: EBD 2013 le document, document numérique

Le document

1Luc Bellier septembre–octobre 2013

Page 2: EBD 2013 le document, document numérique

PLANPLAN

Définir la notion de ‘document’ Travail de groupe

Définitions

Approches du document Exemples Analyse d’un document

La chaine documentaire

Traitements Documentaires Matériels Le cas de la numérisation

Accès 2

Page 3: EBD 2013 le document, document numérique

Définitions Définitions Définition ISO (International Organisation

for Standardization) Ensemble formé par un support et une information

généralement enregistré de façon permanente et tel qu’il puisse être lu par l’homme ou la machine

Vocabulaire de la documentation Ensemble d’un support d’information, quel qu’il soit,

des données enregistrées sur ce support et de leur signification, servant à la consultation, l’étude, la preuve ou la trace etc. : livre, échantillon de parfum, tissus, film…Le tout constitue une unité autonome.

3

Page 4: EBD 2013 le document, document numérique

Approches du documentApproches du document

« Tout est document pourvu qu’il soit le témoin d’un savoir inscrit dans un système documentaire » Suzanne Briet 1951

Le vu, le lu, le su (Jean-Michel Salaün) Le vu : la forme, le support Le lu : le texte, le contenu, le fond Le su : le medium, l’attention, le système d’échange

4

Page 5: EBD 2013 le document, document numérique

Approches du documentApproches du document

Le document ne peut être dissocié de ses environnements : Fond, forme, destination font parti intégrante du

document si celui-ci doit s’inscrire dans un système (documentaire, d’échanges etc.)

En ce sens le document doit toujours être interrogé pour ce qu’il est dans ces trois dimensions, et traité en conséquence : La diffusion (médium) La forme (description, reproduction, déclinaisons de différents supports

etc.) Le fond (la pertinence du contenu au regard des deux autres dimensions)

5

Page 6: EBD 2013 le document, document numérique

Tablette d’argile : textes juridiques ou comptables Rouleau de papyrus :

textes sacrés

Qu’est-ce qu’un document ?Qu’est-ce qu’un document ?

Page 7: EBD 2013 le document, document numérique

Fiches

Films

Qu’est-ce qu’un document ?Qu’est-ce qu’un document ?

Page 8: EBD 2013 le document, document numérique

Contenu/contenantLecture et dispositif de lecture

Qu’est-ce qu’un document ?Qu’est-ce qu’un document ?

Page 9: EBD 2013 le document, document numérique

Contenu/contenantLecture et dispositif de lecture

Qu’est-ce qu’un document ?Qu’est-ce qu’un document ?

Page 10: EBD 2013 le document, document numérique

Un système de valeurs autour des documents, symbolique, sémiotique et économique.

Qu’est-ce qu’un document ?Qu’est-ce qu’un document ?

Page 11: EBD 2013 le document, document numérique

Organiser les Organiser les documentsdocuments

Les ranger, les trouver, les décrire

Page 12: EBD 2013 le document, document numérique

13

Fonds

Fonds classé

Fonds inventorié

Fonds numérisé

Approches du document Approches du document : :

exemplesexemples

Page 13: EBD 2013 le document, document numérique

Approches du documentApproches du document

Approche métier• Objet porteur d’information, pris indépendamment du

support, de la nature de l’information ou de toute autre caractéristique

• A traiter à la fois au niveau de l’objet lui-même et de l’information qu’il supporte

Remarques • Un même document peut cumuler plusieurs fonctions • Les métiers de la gestion de l’information découlent de ces

fonctions qui sont liées aux besoins des organismes • Autres fonctions dans le contexte des bibliothèques de

lecture publique : essentiellement la mise à disposition d’un patrimoine culturel

14

Page 14: EBD 2013 le document, document numérique

Approches du Approches du documentdocument

Approches professionnelles :

Document de travail (au sens large) Tout type de document dès lors qu’il est pertinent pour

améliorer la qualité et l’efficacité du travail des collaborateurs

Durée de vie variable mais le contenu doit rester pertinent par rapport à des besoins identifiés

Enjeux : Le retrouver facilement et rapidement Le mettre à disposition sur le support qui convient

Document patrimonial Valeur généralement historique ; de l’ordre de 3% des

documents produits Durée de vie très longue Enjeux : le conserver sur le long terme.15

Page 15: EBD 2013 le document, document numérique

Approches du Approches du documentdocument

Approche fonctionnelle :

Document à valeur probante Valeur de preuve en cas de contrôle ou de contentieux Durée de vie variable, pouvant faire l’objet d’une

réglementation Enjeux : tracer le document et en garantir l’intégrité

pour qu’il garde sa valeur de preuve

Principales conditions d’exploitationo Technologiques, notamment en fonction du support

(papier, électronique, film…)o Juridiques (droits d’exploitation)o Modes d’utilisation (besoins des utilisateurs)

16

Page 16: EBD 2013 le document, document numérique

17

Estimation et analyse de besoins

Recherche et collecte d’informations

Sélection, acquisition des documents

Traitement des documents

Traitement intellectuel :•Catalogage et indexation•Analyse, résumé etc.

Enregistrement de l’information

Traitement matériel :•Enregistrement du document•Équipement, reproduction, conservation (reliure etc.)

Classement

Diffusion de l’information :•Prêt •Mise à disposition des produits secondaires (catalogue, bibliographies, revue de presse etc.)

Page 17: EBD 2013 le document, document numérique

Le traitement documentaireLe traitement documentaire

Les différents niveau de traitement du document

Document primaireo Présente une information à caractère original c’est-à-dire

lisible par le lecteur telle que l’auteur l’a écriteo Soumis à une législation régissant les droits d’utilisation

et de reproduction

Document secondaireo Présente un document primaire à partir d’informations

extraites (auteur, titre…) ou créées (mots clés, résumé) o Exemples : notices bibliographiques, bibliographies,

catalogues de bibliothèques, index, répertoires de signets…

Document tertiaire o Synthèses réalisées à partir de plusieurs documentso Exemples : encyclopédies, états de l’art…18

Page 18: EBD 2013 le document, document numérique

Le traitement documentaireLe traitement documentaire

Typologies des documents primaires

Pourquoi une catégorisation des documents ? Pour mieux organiser les fonds documentaires. Mais ces

systèmes de catégorisation ont des limites : un livre peut aussi comporter un DVD ; un texte pourra être à la fois sur support papier (analogique) et électronique

Pour mieux rechercher les documents

Critères de catégorisation courants Le support : papier, film, magnétique, optique Le mode de codage : analogique ou numérique La nature des informations : juridique, économique,

scientifique… Le mode de représentation : information textuelle,

graphique (image), sonore19

Page 19: EBD 2013 le document, document numérique

Le traitement documentaireLe traitement documentaire

Document secondaire

Composition Il comporte des informations permettant de décrire le

document primaire : Ses caractéristiques « objectives » : auteur, titre, date…. Son contenu : mots clés, résumé… Son mode de gestion (par exemple : en prêt, cote, n°

d’exemplaire pour un livre) En cas de document électronique ces éléments

d’information s ’appellent les métadonnées (données sur les données)

Usages La recherche dans un fonds physique ou un système

informatique La prise de connaissance rapide de son contenu pour

Identifier son niveau d’intérêt S’approprier les informations synthétisées dans le résumé20

Page 20: EBD 2013 le document, document numérique

Le traitement documentaireLe traitement documentaire

Exemples de documents secondaires

Catalogue ou fichier bibliographique Très majoritairement informatisé Appelé OPAC (online public access catalog) dans les

bibliothèques Règles de description pouvant varier selon les contextes Exemples à voir : catalogues des bibliothèques de la Ville

de Paris, de la médiathèque de la Cité des sciences, de la BPI, de la BNF…

Produits documentaires basés sur des documents secondaires

Revue de presse (à distinguer du panorama de presse) Liste des nouveautés Bibliographie Bulletins de sommaires

21

Page 21: EBD 2013 le document, document numérique

Le traitement matérielLe traitement matériel

Ranger et conserver le document Principes

Distinguer stockage et conservation Définir le besoin réel et les coûts supportables La numérisation (dématérialisation) permet de créer

un support de substitution évitant les risques liés à la consultation et la diffusion des documents

Exemple : http://www.mémoiredeshommes.sga.défense.gouv.fr/

Techniques Validées pour le document papier : règles, normes

… Relèvent plutôt des métiers de l’archivistique

En forte évolution pour le document électronique Relèvent plutôt des métiers de l’informatique 22

Page 22: EBD 2013 le document, document numérique

Le traitement matérielLe traitement matériel

Document papier et électronique Document papier

Objet matériel, tangible et fini ; accessible directement par les sens

Lien entre la forme et le sens : le support conditionne l’accès au contenu

Document électronique Objet « immatériel » composé d’unités binaires permettant

les traitements informatiques et lisible par l’intermédiaire d’une machine

Les possibilités liées à l’informatique (liens hypertexte par ex. ) gomment les limites du document ;

Évolution vers la notion de ressource électronique Modes de production :

- Documents directement produits sous forme électronique à l’aide de logiciels (logiciels bureautiques….)- Documents analogiques (papier…) transformés en documents électroniques23

Page 23: EBD 2013 le document, document numérique

24

Principaux modes de codage numériques Principaux modes de codage numériques

Mode de codage

Type de codage Remarques

alphabétique (mode texte ou

caractère)

Codage selon une norme ex. codage ASCII sur 8 bitsexemple A : 01000001 a : 01100001

- Codage des signes des documents textuels (caractères, blancs, ponctuation…) -Fichiers utilisables en recherche et de faible volume.- American Standard Code for Information Interchange

Mode image bitmap

représentation des images selon une mosaïque de points

- Fichiers non directement utilisables en recherche.- Volumes très importants avant compression.

Mode vectoriel

représentation selon les éléments géométriques qui les composent

Utilisé pour les plans, graphiques.. En CAO et DAO essentiellement

Le cas de la numérisation

Page 24: EBD 2013 le document, document numérique

25

Processus Passage d’un support physique à un état dit dématérialisé Changement de mode de codage : passage d’un mode de

codage analogique à un codage numérique Information analogique : le signal est continu Information numérisée : représentée par un échantillon de

valeurs du signal analogique et codé à l’aide de numéraux (0 ou 1)

Caractéristiques techniques Ces changements se font par un processus technologique :

la numérisation et à l’aide d’un matériel spécifique : le numériseur (ou scanner)

Le fichier résultant de la numérisation est un fichier bitmap

Exemple : http://www.mémoiredeshommes.sga.défense.gouv.fr/

Le cas de la numérisationLe cas de la numérisation

Page 25: EBD 2013 le document, document numérique

26

o Capture du document par un signal lumineuxo analyse de l’intensité lumineuse par un capteur CDD

(charged-coupled device) - une seule analyse pour le noir et blanc- analyse de 3 faisceaux lumineux séparés par un prisme et des

filtres rouges, verts et bleus (RVB) pour des documents en couleur

o conversion en signal électrique binaire selon une grille propre au mode de codage

o Production du fichier bitmap

La capture de l’imageLa capture de l’image

Le cas de la numérisation

Page 26: EBD 2013 le document, document numérique

27

Le mode de traitement des imagesLe mode de traitement des images

NUMERISATION

RESTITUTION0000000000

0001110000

0010001100

0100000100

1000000010

1111111111

1000000000

1000000000

0100000010

0010000100

0001111000

In Mémoires optiques / Catherine Leloup. – Paris : EME, 1987.

Le nombre de points par pouce ou DPI (1 inch = 2,54 cm) détermine la résolution et donc la qualité de l’image mais aussi le poids du fichier

Le nombre d’information par point (noir et blanc, niveaux de gris ou couleurs)

Le mode de compression

La taille de l’image est fonction de ces trois paramètres

Le cas de la numérisation

Page 27: EBD 2013 le document, document numérique

28

Type d’imageNbre de

bits/pointValeurs codées Remarques

noir et blanc2 noir = 1

blanc = 0utilisé pour le texte

avec des niveaux de

gris

8 256 niveaux de gris

utilisé pour les documents iconographiques noir et blanc

couleur analyse RVB(*)

3 x 8 3 x 256 niveaux par couleur soit 16,4 millions de

couleurs

3 couleurs : rouge/vert/bleu(codage utilisé par les

moniteurs et les téléviseurs)

Définition et profondeur de l’analyseDéfinition et profondeur de l’analyse

(*) Les imprimantes couleur utilisent le modèle CMJN (cyan, magenta, jaune et noir) qui est celui de l’imprimerie en quadrichromie.

Le cas de la numérisation

Page 28: EBD 2013 le document, document numérique

29

Caractéristiques généraleso reproduction à l’identiqueo volume des fichiers très important, ce qui a un impact sur :

o le choix des supports de stockageo les possibilités et les temps de transmission par réseau

o document non modifiable (pas d’accès au contenu)

Qualité o La qualité et la lisibilité du document numérique restitué est

variable selon :o l’état initial du documento la résolution retenueo les performances du numériseur (scanner) et le niveau du réglage

des contrastes

Caractéristiques des fichiers bitmapCaractéristiques des fichiers bitmap

Le cas de la numérisation

Page 29: EBD 2013 le document, document numérique

30

Plus une image est de bonne qualité plus elle est lourde. La compression peut permettre de diminuer fortement le poids d’une image sans abaisser dans les mêmes proportions la qualité.

Elle permet de réduire la taille des fichiers en supprimant des pixels ou des couleurs Compression sans perte Compression avec perte

Les formats engendrant des pertes de données irréversibles sont à éviter lorsque l’on veut assurer la sauvegarde à long terme des images

La compression des imagesLa compression des images

Le cas de la numérisation

Page 30: EBD 2013 le document, document numérique

31

La compression des imagesLa compression des images

Codage ligne par ligne puis corrélation des lignes entre elles

Les lignes qui se suivent se ressemblent, on va donc procéder à un codage relatif ou prédictif d’une ligne à l’autre

Le cas de la numérisation

Page 31: EBD 2013 le document, document numérique

32

Format de compressionFormat de compression JPEGJPEG

La compression des imagesLa compression des images

Paramétrage du taux de qualité (0 à 100%)

codage

compression

restitution

Pour un taux = 80%) la compression est comprise entre 5 et 10Utilisé pour les images 8 bits et 24 bits

Le cas de la numérisation

Page 32: EBD 2013 le document, document numérique

33

Mise en forme de l’image nettoyage de l’image : élimination des éléments

parasites, détourage, pivotement, redressement

Compression Opération permettant de réduire le poids du fichier

bitmap ce qui permet de : limiter les besoins de stockage faciliter la transmission par réseau

Reconnaissance optique de caractère : OCR

passage d’un fichier bitmap à un fichier codé en ASCII

Les traitements sur les fichiers après Les traitements sur les fichiers après

numérisationnumérisation

Le cas de la numérisation

Page 33: EBD 2013 le document, document numérique

34

Objectifo automatisation de la saisie en mode caractère

- document retraitable, modifiable et indexable par un moteur- réduction de la taille

Processuso segmentation de l’image du document numériséo détermination des caractéristiques de chaque caractèreo comparaison par rapport à des jeux de police et décisiono traitements complémentaireso identification de mots par comparaison avec un dictionnaireo Établissement d’un niveau de confiance pour chaque moto apprentissage de nouvelles polices de caractères

O.C.R. (Optical Character Recognition)O.C.R. (Optical Character Recognition)

Le cas de la numérisation

Page 34: EBD 2013 le document, document numérique

Ce qu’il faut faire pour : la recherche plein texte, le surlignage, la vocalisation page à page, le mode e-book

TopMargin

PrintSpace

BottomMargin

Le cas de la numérisation

Page 35: EBD 2013 le document, document numérique

36

Attributs génériques WC : Note de confiance de la reconnaissance de chaque mot,

notée de 0 à 1 : 0,1; 0,2 etc. WD : appartenance à un dictionnaire (true, false)

O.C.R. (Optical Character Recognition)O.C.R. (Optical Character Recognition)

Forte dépendance de la structure physique qui traduit la structure logique du document original.

Le texte affiché peut comporter un certain nombre d'erreurs.

Il a été généré par O.C.R. Le taux de reconnaissance obtenu pour ce document

est de 92,32 %. iôU

Repopulation {Dédié à M. MOT, sénateur)

— Qu'est-ce que tu veux, maman?... Gaston est si distrait!.

Le cas de la numérisation

Page 36: EBD 2013 le document, document numérique

37

Au niveau des caractèreso définition insuffisanteo caractères peu nets ou liés, effets de lignes ou de bandes sur

les faxo annotations, marques, tâches…o tableaux et soulignéso écriture manuscrite (ICR, Intelligent Character Recognition)o Difficultés pour évaluer la qualité réelle du document reconnu

Au niveau du documento fonds coloréso problèmes de contrasteo Structure complexe

Limites de l’ O.C.R.Limites de l’ O.C.R.Le cas de la numérisation

Page 37: EBD 2013 le document, document numérique

?

Un document numérique / électronique, c’est une suite de fichiers sans lien entre eux

Métadonnées descriptives

•rattacher le document à l’original / différentes versions d’un document

•donner accès à la copie numérique / électronique

identifiant unique (localisation / identification)

Métadonnées de structure

•rattacher les fichiers entre eux

•reconstituer la structure du document

Métadonnées administratives

•gérer la collection, c’est-à-dire

•gérer les droits d’accès

•préserver les informations techniques nécessaires à la lecture des fichiers

•garantir l ’intégrité des fichiers et le suivi de leurs éventuelles modifications

LesLes métadonnéesmétadonnéesLe cas de la numérisation

Page 38: EBD 2013 le document, document numérique

39

Document objet Organisation du fonds physique selon des critères

permettant de retrouver les documents selon un nombre limité de critères ; exemple en BM : auteur pour les romans, thème/sous-thème pour les documentaires

Nécessité de faire un catalogue pour des recherches selon d’autres critères

A voir : organisation d’une BM et son catalogue en ligne

Document dématérialisé Recherche automatisée sur des critères prédéfinis

organisés selon la logique des catalogues (logique différente de celle du web) Les éléments de recherche, appelés métadonnées, sont

regroupés dans des notices Suppose une description préalable (encore faite « à la

main ») Recherche directement dans le document numérique

L’accès au documentL’accès au document

Le cas de la numérisation

Page 39: EBD 2013 le document, document numérique

L’accès au documentL’accès au document

Catalogue

Moteur

Le cas de la numérisation

Page 40: EBD 2013 le document, document numérique

Enjeux La qualité des résultats de recherche

Bruit : documents non pertinents sélectionnées par le moteur de recherche en réponse à une question

Silence : documents pertinents non sélectionnés par le moteur de recherche

Le coût de traitement Exemple : de l’ordre de 15 minutes pour la réalisation d’une

notice

Evolutions en cours Amélioration des performances des moteurs de recherche

sur le texte « brut » : analyse linguistique du texte Balisage du texte (tags) pour le structurer en fonction de

critères de recherche (question de l’usage des métadonnées par les moteurs)

Évolution des usages : de la recherche structurée à la recherche plein texte

41

L’accès au documentL’accès au document

Page 41: EBD 2013 le document, document numérique

• Recherche en texte intégral• Recherche statistique ou associative

– fréquence du mot à l’intérieur du document– rareté du mot dans la collection– longueur du mot trouvé par rapport à la longueur du champ

• Recherche linguistique – exploitation du vocabulaire et de la grammaire– lemmatisation de l’index– catégorisation des mots-outils– extraction d’entités nommées

L’accès au documentL’accès au document

Page 42: EBD 2013 le document, document numérique

L’accès au documentL’accès au document

43

• Recherche sémantique : exploitation d’un modèle de connaissance ou référentiel– extraction terminologique (couplée à l'analyse sémantique)– détection du contexte global du document – classification automatique des mots du texte – expansion de requête– navigation dans un thésaurus de haut niveau – calcul des relations entre thèmes (lexicométrie) – filtrage des thèmes en fonction de leur pertinence

– À voir : http://www.adbs.fr/le-web-de-donnees-perspectives-pour-les-metiers-de-l-information-documentation-79361.htm

Page 43: EBD 2013 le document, document numérique

Que peut voir un moteur de recherche dans une bibliothèque numérique ?

Page 44: EBD 2013 le document, document numérique

BibliographieBibliographie Approche générale

Claude Morizio, La recherche d’information, Paris : ADBS, Armand Colin, 2004. (128 : information documentation)

Le pentagone de l'industrialisation de la mémoire - Bloc-notes de Jean-Michel Salaün, 2006, http://blogues.ebsi.umontreal.ca/jms/index.php/post/2006/11/29/127-le-pentagone-de-l-industrialisation-de-la-memoire

Briet Suzanne, Qu’est-ce que la documentation ?, EDIT, 1951 consultable ici : http://martinetl.free.fr/suzannebriet/questcequeladocumentation/

Guillaud Hubert, Les trois dimensions de l’économie de la publication | La Feuille, http://lafeuille.blog.lemonde.fr/2011/09/13/les-trois-dimensions-de-leconomie-de-la-publication/

Document numérique Le gestion électronique documentaire / Jean-Yves Prax, Simon

Larcher . – 3ème ed. . – Paris : Dunod, 2004 . Pour cette première approche du document numérique, voir le chapitre 3 en se limitant aux thèmes abordés en cours.

45