View
1.295
Download
0
Category
Preview:
DESCRIPTION
Presentation on imaging file format standards in relation to dutch archival rules & regulations
Citation preview
De praktijk van het scannen In de praktijk loop je bij het scannen van documenten nogal eens tegen praktische problemen aan die je vooraf met de meeste fantasie niet kon voorzien. Voetangels, klemmen en praktische tips vanuit de praktijk.
Door Leon van Oosterom cdia+, Directeur Elveo B.V.
1
2
3
Rosetta Stone
Gedurende 1400 jaar ( tot 1799) was het de mensheid onmogelijk de Egyptische hiëroglyfen te lezen.
Rosetta stone:drie talen één gebeurtenis •Egyptische hiëroglyfen, •Demotisch schrift•Grieks.
‘Jean Francois Champollion’ vertaalde gedurende 14 jaar de betekenis van de hiëroglyfen.
Twee zaken dus van belang:
1.De duurzaamheid van de materialen waarop de Egyptische hiëroglyfen waren opgetekend
2.De mogelijkheid om die gegevens correct te interpreteren.
4
Beleidsregels voor digitale vervanging archiefbescheiden
13 februari 2008 Op 31 januari 2008 is de nieuwe, door het Nationaal
Archief ontwikkelde beleidsregel van kracht geworden. Hierin wordt het wettelijk kader vastgelegd voor archiefbescheiden die naar een rijksarchiefbewaarplaats zullen worden overgebracht, dus voor alle organen die behoren tot de centrale overheid en de provincies.
Namens de minister van Onderwijs, Cultuur en Wetenschap wordt voor de archiefbescheiden die zij willen vervangen een machtiging afgegeven door het Nationaal Archief.
5
http://www.nationaalarchief.nl/archiefbeheer/archiefzorg/substitutie/
6
ParametersVoor gedrukte tekst worden de volgende parameters gebruikt:- indien kleur relevant is1: 300dpi met bitdiepte 24;- indien grijstinten relevant zijn: 300 dpi met bitdiepte 8;- indien kleur en grijstinten niet relevant zijn: 300 dpi met bitdiepte 1.
1 Scanning geschiedt in kleur, tenzij scanning in zwartwit geen informatieverlies oplevert.
Bestandsformaat A. Ten aanzien van het bestandsformaat wordt gebruik
gemaakt van zogenoemde open standaarden2.
B. Indien bij het scanproces gebruik wordt gemaakt van een tussenformaat, dan mag geen kwaliteitsverlies optreden bij de omzetting van het tussenformaat naar het uiteindelijke formaat3.
3 Een omzetting van TIFF als tussenformaat naar JPEG als eindformaat is ongewenst, omdat die omzetting gepaard gaat met kwaliteitsverlies.
7
Volgens de archiefinspectie beperkt de genoemde richtlijn zich tot het Rijk en “on the fly substitutie” en niet bulkscanning. De overige overheden richten zich op de Provinciale Beleidsregels.
Deze hanteren alleen de kwaliteitsindex en géén absolute waarden en spreken zich niet uit over compressie
8
Ruime omschrijving “conversie” Conversie = om- of overzetten in een
ander opslagformaat. Bijvoorbeeld MSWord naar PDF.
Is scanning conversie of substitutie, oftewel machtiging vereist of niet???
9
In afwachting van goedkeuring Europese commissie, ingang wellicht december 2009, januari 2010?
Artikel 26. Algemene eisen aan opslagformaten voor digitale archiefbescheiden
1. Digitale archiefbescheiden worden, uiterlijk op het tijdstip van overbrenging, opgeslagen in een valideerbaar en volledig gedocumenteerd bestandsformaat dat voldoet aan een open standaard, tenzij dit redelijkerwijs niet van de zorgdrager kan worden verlangd. Alsdan vindt met de beheerder van de voor overbrenging aangewezen archiefbewaarplaats overleg plaats over een alternatief bestandsformaat.
2. Voor zover op het tijdstip van overbrenging gebruik wordt gemaakt van encryptietechniek, wordt aan de beheerder van de archiefbewaarplaats de bijbehorende decryptiesleutel verstrekt.
3. Gebruikmaking van compressietechniek is slechts toegestaan, voor zover daarbij niet zodanig verlies van informatie optreedt, dat niet langer aan de bij deze regeling gestelde eisen ten aanzien van de toegankelijke en geordende staat van digitale archiefbescheiden kan worden voldaan.
10
Artikel 20. Toegankelijke staatDe zorgdrager zorgt ervoor dat het archiveringssysteem de toegankelijke
staat van archiefbescheiden waarborgt, zodanig dat elk van de archiefbescheiden binnen een redelijke termijn
a. kan worden gevonden1°. aan de hand van de daaraan gekoppelde metagegevens; of2°. door middel van een andere ontsluitingsmethode; en
b. leesbaar of waarneembaar te maken is.
11
Niet langer wordt voorgeschreven welke resolutie gescan moet worden.
Niet langer wordt compressie per definitie verboden.
12
13
één pagina A4 op 300 DPI 24 bits kleur levert een bestand op van 25 Mb.
één productiescanner genereert per dag 1 tot 1½ Terabyte
voor 100 meter archief is bijna 10 Terabyte geheugenruimte nodig (1 meter = 100 Gbyte)
14
Kies voor een eenduidige archiveringsstrategie en wanneer dat digitaal is, kies voor een standaard en open formaat.Zie: OS_lijst_open_standaarden_voor_pas_toe_of_leg_uit[1].pdf
Leg de organisatie simpel te volgen regels op ten aanzien van kwaliteit en conformiteit.
Office formaten zijn géén archieveringsformaten, ook Open Document Formats niet (ODF).
15
Een ander en veel belangrijker probleem van het ODF-formaat is dat een eenduidige weergave van de documentopmaak tussen verschillende viewers en omgevingen niet is te garanderen.
Zo kunnen verschillen optreden in regeleindes, pagina-eindes, de positionering van elementen als afbeeldingen en tabellen, en fonts.
Doordat fonts niet ingebed kunnen worden in het ODF-formaat, is een eenduidige weergave -op computers waar het betreffende font niet aanwezig is- onmogelijk.
16
Hoeveel bit?
a) Bilevel
b) Greyscale
c) Indexed color
d) Full color
Hoeveel DPI?
a) 100 DPI
b) 200 DPI
c) 300 DPI
d) Meer?
Welke samenstelling
a) Single page
b) Multipage
c) Bookmarks
d) OCR
Welke format
a) tiff
b) jpg
c) PDF
d) PDF/A-1b
e) ODF ????Indexering
a) Document
b) Zone OCR
c) Tagged Metadata
17
1. Document analyse
2. Stel output structuur en vorm vast
3. Bepaal scannersoort
4. Kies juiste aansturing scanner
5. Bepaal en richt het imaging proces in
6. Validatie
7. Logprocedures
18
1. Imaging post processing1. Logdata scanoutput2. Image enhancement3. QC image kwaliteit4. Herkennen barcodes/patchcodes5. Structureren output6. Vastleggen Metatags
1. Data extractie door OCR2. Data Entry
7. Full tekst OCR8. Volledigheidscontrole9. Definitieve Output
19
Tiff groep 4 (ITU4-6) Tiff uncompressed PNG JPEG JPEG-2000 (wavelet) JPEG-2000 lossless JBIG JPEG XR
Hoge kwaliteit compressie.alleen binair
Hoge kwaliteit, geen compressie
Hoge kwaliteit, 30:1 compressie Redelijke kwaliteit 40:1 compressie
Goede kwaliteit 90:1 compressie
Hoge kwaliteit, 4:1 compressie
Hoge kwaliteit 20-40:1 compr. binair/ grijs
Goede kwaliteit 90:1 compressie
En PDF dan?
Het verschil tussen PDF en PDF/A wordt gevormd door dat wat moet en niet mag
PDF/A-1 files moeten opgebouwd zijn inclusief: • Embedded fonts • Device-independent color • XMP metadata PDF/A-1 files mogen niet bevatten: • Encryptie • LZW Compressie • Embedded files • Externe content referenties • PDF Transparantie • Multi-media • JavaScript
20
PDF/A-1a PDF/A-1b
21
Per de versie 1.7 (8) is PDF ISO genormeerd onder nummer: ISO 32000-1
Quote: ISO Secretary-General Alan Bryden comments: “As an ISO standard,
we can ensure that this useful and widely popular format is easily available to all interested stakeholders. The standard will benefit both software developers and users by encouraging the propagation and dissemination of a common technology that cuts across systems and is designed for long term survival.”
22
JPEG 2000 image compressie Meer geavanceerde digital signature
support OpenType fonts 3D graphics Audio/video content Consistentie met andere op PDF-
gebaseerde standaarden
23
Met ingang van PDF/A-2 zal Jpeg2000 toegepast kunnen worden als compressie methode binnen PDF/A.
Lossless JPEG 2000 verminderd de data met een factor 2 tot 4 !!
Lossy JPEG 2000 vertoont substantieel minder compressiefouten ten opzichte van JPEG en comprimeert daardoor 2 x zo sterk
24
Tussen het scanmoment en de daadwerkelijke vorming van een PDF/A bestand kan veel misgaan! PDF/A voorschriften. Metadatavelden (XMP tags) Resolutie en compresssie?
Validatiecriteria vast?
25
26
Een zorgvuldige validatie van de output op PDF/A 1b is aan te bevelen.
Verschillende leveranciers leveren daartoe tools: Adobe Apagao Callas Software AG PDF Tools AG Intarsys Seal Systems AG Solid Documents
27
28
Quality Index :3 = nauwelijks leesbaar3.6 = marginaal5 = goed8 = uitstekend
Stel een A4 document met als kleinste letter de letter “e” met een hoogte van 2 millimeter.
Doelstelling is een goede kwaliteit binaire scan te maken (Q1=5). Gewenste resolutie wordt dan:
3x5 / 0,039 x 2mm= 15 / 0,078 = 192dpi (200 dpi)
De Quality Index gebruiken bij binair scannen:• dpi = 3QI / (.039h)• QI = dpi x .039h)/3• h = 3QI / (.039dpi)
29
Stel een A4 document met als kleinste letter de letter “e” met een hoogte van 2 millimeter.
Doelstelling is een goede kwaliteit scan met 256 grijswaarden te maken. Gewenste resolutie wordt dan:
2x5 / 0,039 x 2mm= 10 / 0,078 = 128dpi (150 dpi)Quality Index :3 = nauwelijks leesbaar3.6 = marginaal5 = goed8 = uitstekend
De Quality Index gebruiken bij grijs of kleur scannen:• dpi = 2QI / (.039h)• QI = dpi x .039h)/2• h = 2QI / (.039dpi)
30
1. Zwart wit scannen documenten; 300DPI
2. Kleur scannen documenten; 200DPI
3. Scannen t.b.v. OCR; 300DPI
4. Zwart wit scannen tekeningen; 200DPI
5. Scannen voor internet; 100DPI
6. Historische documenten; grijs of kleur
7. Zwakke documenten; grijs of kleur
31
1 bit (21) = 2 kleuren8 bits (28) = 256 grijstonen24 bits (224) = 16,7 miljoen kleurtonen
32
het menselijk oog kan van elk van de drie basiskleuren 256 helderheidgradaties onderscheiden, wat overeen komt met 16,7 miljoen kleuren.
Niet elke kleur geeft ook werkelijk nieuwe informatie door. Sommige kleuren kunnen samengevoegd worden, zonder dat dit echt opvalt. In de praktijk blijkt dat het menselijk oog maar ongeveer 16 helderheidsgradaties kan waarnemen.
Kleuren die op elkaar lijken krijgen dezelfde kleurwaarde en men spreekt in dit geval van redundante (lees onnodige) kleuren. Redundante kleuren spelen in de compressietechnieken uiteraard een belangrijke rol.
33
Resolutie 300 DPIVolledig in kleur
34
Tiff (25MB)
JPG2000
JPG 12
JPF 70
JPG 7
JPF 2 (500Kb)
35
GEVOELGEVOEL
36
Kleur in documenten geeft het gevoel terug dat ook in de originele vorm aanwezig is. Draagt daarmee zeer bij aan de authenticiteit
GEVOELGEVOEL
37
Kleur in documenten geeft het gevoel terug dat ook in de originele vorm aanwezig is. Draagt daarmee zeer bij aan de authenticiteit
38
39
40
41
42
Tiff 11,3Mb JPEG 1,2Mb
200 DPI
JPEG 2000 223Kb
1. Alle informatie in één keer vastgelegd en is ook na opslag nog ruim te beïnvloeden (lees: verbeteren)
2. Geen of zeer weinig herscans.
3. Meer toepassingsmogelijkheden.
4. Beter leesbaar dus minder fouten.• Voor de mens (data-entry)• Voor software (OCR, barcode, patchcode)
5. Snellere werkvoorbereiding door kleurcodering
43
44
Cornell Universityhttp://www.library.cornell.edu/preservation/tutorial/contents.html
TMSSequoiahttp://www.tmsinc.com
Adobehttp://blogs.adobe.com/insidepdf/ http://blogs.adobe.com/insidepdf/2009/01/digital_signatures_the_europea.htmlhttp://blogs.adobe.com/insidepdf/2009/01/digital_signatures_pdf.html
Diversenhttp://www.ArchiveBuilders.comhttp://www.jpeg2000info.com/http://www.isit.comhttp://www.kb.nl/coop/metamorfoze/home.htmlhttp://www.nationaalarchief.nl/archiefbeheer/archiefzorg/substitutie/
45
Recommended