5
 NUMERISER VOS TEXTES (par Ebooks libres et gratuits - ELG) Numériser du texte est très facile, vous trouverez, dans ce tutoriel, quelques conseils pour rendre votre travail plus facile, plus rapide et éviter la répétition de gestes inutiles. En fait la numérisation des textes, t elle que nous la pratiquons , se devise deux étapes : La numérisation proprement dite, c'est à dire la photocopie numérique à l'aide d'un scanner, qui va produire un ensemble d'images numériques (par exemple aux formats PDF, ou TIFF multipages, voire en JPG) La reconnaissance de caractères, l'OCR (nous utiliserons ce terme, plus court, ensuite), qui est l'extraction du texte, de l'image numérique, grâce à un logiciel spécialisé. La numérisation : le scanner Tout scanner à plat peut-être utilisé pour la numérisation, la plupart ont une définition de 1200 dpi et nous n’utiliserons qu’une définition de 300 dpi  (les divers tests effectués montrent qu'une définition supérieure donne des résultats égaux, ou inférieurs...), en noir et blanc (l'utilisation des niveaux de gris ou de la couleur devra être strictement réservée aux pages comportant des illustrations qui le nécessitent - pour les illustrations en noir et blanc, faire un test en noir et blanc, avant d'adopter les niveaux de gris). Cette recommandation de se limiter à 300 dpi, noir et blanc, est motivée par deux choses : * Obtenir le meilleur résultat possible lors de l'OCR. * Obtenir des fichiers les moins volumineux possible. Nul besoin d’un scanner de qualité photo, un vieux scanner d’occasion suffit (attention au pilote). Par contre, si vous devez scanner de nombreux livres, et êtes à l'aise financièrement, la vitesse de scan sera un argument important... Placez votre livre ouvert à la première page (dans l'hypothèse où le livre ouvert est inférieur ou égal à la taille A4) en calant le livre dans un des coins, toujours le même (le fait que le livre soit toujours au même endroit de la vitre est important pour la suite). Nous allons donc scanner deux pages d'un coup. UMERISER VOS TEXTES http://www.ebook sgrat uits.com/guides/tutorial_scann er.htm 1 di 5 05/03/2015 12:51

Numeriser Vos Textes

Embed Size (px)

Citation preview

  • NUMERISER VOS TEXTES (par Ebooks libres etgratuits - ELG)

    Numriser du texte est trs facile, vous trouverez, dans ce tutoriel, quelques conseilspour rendre votre travail plus facile, plus rapide et viter la rptition de gestesinutiles. En fait la numrisation des textes, telle que nous la pratiquons, se devise deuxtapes :

    La numrisation proprement dite, c'est dire la photocopie numrique l'aided'un scanner, qui va produire un ensemble d'images numriques (par exempleaux formats PDF, ou TIFF multipages, voire en JPG)La reconnaissance de caractres, l'OCR (nous utiliserons ce terme, plus court,ensuite), qui est l'extraction du texte, de l'image numrique, grce un logicielspcialis.

    La numrisation : le scanner

    Tout scanner plat peut-tre utilis pour la numrisation, la plupart ont une dfinitionde 1200 dpi et nous nutiliserons quune dfinition de 300 dpi (les divers testseffectus montrent qu'une dfinition suprieure donne des rsultats gaux, ouinfrieurs...), en noir et blanc (l'utilisation des niveaux de gris ou de la couleur devratre strictement rserve aux pages comportant des illustrations qui le ncessitent -pour les illustrations en noir et blanc, faire un test en noir et blanc, avant d'adopter lesniveaux de gris). Cette recommandation de se limiter 300 dpi, noir et blanc,est motive par deux choses :* Obtenir le meilleur rsultat possible lors de l'OCR.* Obtenir des fichiers les moins volumineux possible.

    Nul besoin dun scanner de qualit photo, un vieux scanner doccasion suffit (attentionau pilote). Par contre, si vous devez scanner de nombreux livres, et tes l'aisefinancirement, la vitesse de scan sera un argument important...

    Placez votre livre ouvert la premire page (dans l'hypothse o le livre ouvert estinfrieur ou gal la taille A4) en calant le livre dans un des coins, toujours le mme (lefait que le livre soit toujours au mme endroit de la vitre est important pour lasuite). Nous allons donc scanner deux pages d'un coup.

    NUMERISER VOS TEXTES http://www.ebooksgratuits.com/guides/tutorial_scanner.htm

    1 di 5 05/03/2015 12:51

  • Il est important, dans la mesure du possible, que le livre soit bien plaqu contre lavitre ; vous pouvez, par exemple, ajouter le poids d'un autre livre, ou tout simplementappuyer avec les mains. Attention tout de mme ne pas abmer la reliure si vous tenez ce livre...

    Faites une premire prvisualisation, slectionnez toute la surface de la vitre

    L'important est de bien rgler la luminosit et/ou le contraste. Par exemple, si vous nepouvez pas plaquer parfaitement le livre sur la vitre, cause de la reliure, il fautsouvent claircir, de faon ce que la sparation entre les pages, correspondant lareliure, ne produise pas un norme trait noir, non seulement inesthtique, mais quipourrait induire en erreur l'OCR. Il faut que les caractres soient bien visibles, mais ilne sert rien d'augmenter trop le contraste, pour avoir des caractres trs noirs: nonseulement l'OCR ne sera pas plus efficace, mais les salets diverses qu'on peuttrouver sur des livres d'occasion, voire les simples rousseurs, seraient alors mises envaleur et pourraient tromper le moteur d'OCR.

    Crez un rpertoire qui recevra vos images. Lancer la numrisation donnez un nom votre fichier et un numro de prfrence, pour garder lordre des pages (noubliez pasde mettre des zros devant : 001, 002, 003 etc.).

    En ce qui concerne les formats d'enregistrement des images, nous vous conseillons les formats PDF ou TIFF multipages. dfaut, vous pouvezchoisir le format JPG.

    Tournez la page, et lancez nouveau la numrisation sans prvisualisation, nous avonsslectionn toute la surface du scanner afin de lutiliser un peu comme unephotocopieuse et dviter la prvisualisation. Mais n'oubliez pas, quand mme, detoujours placer le livre au mme endroit de la vitre.

    NUMERISER VOS TEXTES http://www.ebooksgratuits.com/guides/tutorial_scanner.htm

    2 di 5 05/03/2015 12:51

  • Nous vous conseillons de ne pas numriser plus 80-100 pages parsance, soit 40 50 passes de scanner pour les livres de taille infrieure au demi A4 -du moins avec un scanner basique, car cela devient vite fastidieux, et le scannerchauffe. Mais il faut noter qu'un de nos membres bien connu, qui a la chance dedisposer d'un scanner professionnel de haut niveau, scanne sans problme 400 pagesen une heure (c'est dire 200 passes de scanner).

    Si votre scan est uniquement destin tre ocris, il est inutile de recadrer ou defaire pivoter les images, car les logiciels OCR reconnaissent gnralement le sens dutexte, les colonnes et sil y a une ou plusieurs pages. Par contre, si vous dsirez, parexemple, publier galement l'image scanne, qui peut avoir un grand intrt dans le casde vieux livres, il faudra alors faire un travail de rotation, recadrage, etc de la page(manipulations qui dbordent le cadre du prsent article), et vous apprcierez alorsgrandement d'avoir suivi nos conseils concernant le placement du livre sur la vitre.

    La reconnaissance de caractres ou lOCR

    Plusieurs logiciels existent : Readiris, Omnipage, FineReader ; et pour ceux qui ont lepack office XP ou 2003, il est inclus, dans les outils Microsoft Office, DocumentScanning.

    Mais, aprs de nombreux tests, la quasi-totalit des membres de notre groupe a adoptFineReader (versions 7 ou 8), qui se rvle suprieur aux autres, cause d'un tas dedtails qu'il serait un peu long d'numrer ici.

    Prenons l'exemple de FineReader 7. Si dans lavenir vous utilisez un autre logiciel vousne serez pas dpays linterface est peu prs identique pour tous ces programmes.

    Nous vous conseillons de tout de suite enregistrer votre Lot sans titre, et donc deconserver vos lots FineReader ; le lot FineReader est en fait un dossier cach, du mmenom que celui que vous avez donn au lot, et situ l'endroit o vous avez enregistr lelot; il est donc facile de dplacer, sauvegarder ce lot (pour une sauvegarde, nous vousconseillons de zipper le dossier cach, pas son contenu, le dossier lui-mme).

    Si vous travaillez pour Ebooks libres et gratuits, il faut utiliser les options quiapparaissent sur cette page (les options FineReader 8 sont en bas de la page). PourFineReader 7, il faut, malheureusement, mettre ces options pour chaque nouveau lot.Pour FineReader 8, ces options peuvent tre mises par dfaut pour tous les nouveauxlots, si vous le dsirez. Ces options conviennent pour les livres non illustrs (en effet, lesimages ne sont pas conserves dans les sortie Word). Pour les livres illustrs, certainesde ces options doivent donc tre modifies, mais des corrections manuelles troplongues expliquer ici sont galement souvent ncessaires, pour les pages illustres,aprs la phase de reconnaissance, corrections qui obligent une nouvellereconnaissance des pages modifies.

    NUMERISER VOS TEXTES http://www.ebooksgratuits.com/guides/tutorial_scanner.htm

    3 di 5 05/03/2015 12:51

  • Cliquer sur licne Ouvrir et lire (ou cliquer sur Ouvrir une image, puis, quandtoutes les images sont ouvertes, cliquer sur Tout lire).

    Slectionnez les images que vous voulez reconnatre (ctrl + a pour toutes ou ctrl + clicgauche pour les slectionner les unes aprs les autres). Nous avons ici des images JPG,une par page, mais nous pourrions avoir un fichier PDF ou TIFF multipage par sancede scan.

    FineReader va donc ouvrir puis reconnatre chaque image. videmment le tempsvariera selon le nombre dimages traiter.

    Une fois la reconnaissance effectue, il ne reste que la dernire tape, le bouton 4 dansla figure ci-dessus, dont le libell va changer selon le choix que vous effectuerez encliquant sur la petite flche droite du bouton. Cela peut tre, par exemple :

    Microsoft Word, c'est dire l'envoi dans Word du contenu texte obtenu par l'OCREnregistrer, pour l'assistant d'enregistrement qui offre notamment la possibilitde sortir un PDF image index, c'est dire PDF image avec le texte d'OCR brutprsent, invisible, sous l'image, mais utilisable pour effectuer des recherches texteou pour un copier-coller.

    Ce sont ces deux dernires possibilits qui sont utilises par les membres de ELG.

    Vous pouvez aussi faire une reconnaissance de caractres partir des documentsimages de la bibliothque nationale sur le site Gallica BNF.

    La correction

    Le principe est tout simplement de comparer mot mot le document PDFimage index et le document Word, et de corriger ce dernier en seconformant exactement au contenu du PDF. Pour cela, il suffit de mettreensemble, sur l'cran, les deux documents, en se dbrouillant pour trouverune taille de fentre adquate. Cela peut reprsenter un gros travail si lescan a t mal fait ou s'il s'agit d'un vieux livre comme on en trouve parfoissur Gallica. Pour faciliter le travail, il est conseill de mettre en forme letexte Word pralablement, nous avons des macros Word pour cela(s'adresser Jean-Marc ou Coolmicro)

    NUMERISER VOS TEXTES http://www.ebooksgratuits.com/guides/tutorial_scanner.htm

    4 di 5 05/03/2015 12:51

  • Il faut noter que certains, prfrent effectuer la correction directement dansFineReader, qui offre la possibilit de mettre cte cte le texte et l'image,et sortir le doc Word ensuite. C'est une question de got, aucune des deuxmthodes n'tant meilleure en soi.

    NUMERISER VOS TEXTES http://www.ebooksgratuits.com/guides/tutorial_scanner.htm

    5 di 5 05/03/2015 12:51