Vēsturisko materiālu digitalizācija LNB
Artūrs Žogla, Aigars Staks
Rāmava, 06.10.2010.
Digitalizācijas vēsture LNB
• ~1998.g statēģiskie lēmumi – – mikrofilmas vs. skenētie attēli
• 2006. maijs digitālās bibliotēkas attīstības pāns
DiBi misija ir organizēt Latvijas valsts un latviešu tautas kultūrvēsturiskā mantojuma saglabāšanu digitalizētā formā un nodrošināt tā pieejamību
sabiedrībai.
Digitizējamo datu tipi, problēmas
• Grāmatas un avīzes– Milzīgs apjoms, reizēm slikta kvalitāte, dažadas valodas
• Mikrofilmas– Mehāniski bojājumi, zemas kvalitātes darbs
• Audio ieraksti– Bojājumi, lēns apstrādes process
• Fotogrāfijas– Metadatu atklāšana
• Citi – Kartes, Plakāti utt.– Lietojamības izaicinājumi
Lielākie projekti
• Periodika.lv - 2008
• DOM - 2009
• “Zudusī Latvija” (Europeana Local) - 2010
• ERAF – digitālās bibliotēkas 2.kārta -2011
• ERAF – e-pakalpojumi - 2012
• ...
DiBI 2.kārtas projekta mērķis
• Digitalizēt:– ~2.1 milj. periodisko izdevumu lpp. (~700 nosaukumi)– ~1.4 milj. grāmatu lpp. (~7000 grāmatas)
• Izveidot vēsturisko tekstu portālu• Iesaistīt lietotājus satura uzlabošanā
Digitalizācijas process
Materiālu atlase [1]
• Periodiskie izdevumi– Laika periods: 1760.-1995.– Tipi: avīzes, žurnāli, zinātniskie raksti– Valodas: latviešu, vācu, krievu
• Grāmatas– Laika periods: 19.gs. vidus – 2009.– Valodas: latviešu, vācu, krievu, latgaliešu, franču,
zviedru, u.c.
Materiālu atlase [2]• LNB galvenā grāmatu krātuve• LNB periodisko izdevumu nod.• LNB restaurācijas nod.• Latvijas Akadēmiskā bibliotēka• LU bibliotēka
• LNB Silakroga depozitārijs
Skenēšana [1]
• Projekta periods: 2010. feb. – 2011. jūn.• Kopējais lapu skaits: ~3.5 milj.• Viens sūtījums reizi 2 nedēļās
– Periodika: ~46 000 lappušu– Grāmatas: ~55 000 lappušu
• Skenētājs:
Skenēšana [6]
• Materiālu atlases principi1. Pieprasītākie2. Fiziski sabrūkošie (laikraksti)3. Kultūrvēsturiski nozīmīgie
– Vairāku izdevumu gadījumā – pirmizdevumi– Vairāku eksemplāru gadījumā – labākās kvalitātes
eksemplārs
Skenēšana [7]
• Pavaddokuments – katram sūtījumam
Skenēšana [8]
Skenēšana [9]
Skenēšana [10]
• JPEG 2000 datne katrai lappusei– Grāmatām, žurnāliem – krāsainas (RGB)– Laikrakstiem – melnbaltas (Greyscale)– Izšķirtspēja: 400 dpi
• Datnes izmērs: 3-100 MB
Skenēšana [11]
Katrā mapē – viena grāmata
Skenēšana [12]
Katrā datnē – viena lpp
Skenēšana [13]
• Sūtījumu izsekošanas rīks
Skenēšana [14]
Tipisks epasts digitalizēšanas gaitā
Skenēšana [15]
• “Latviešu avīzes”, 1828. g.
Skenēšana [16]
~1.4
cm
Segmentēšana [1]
• Izdevuma loģisko daļu identificēšana– Raksti/rakstu virsraksti– Attēli/attēlu paraksti– Autori– Tabulas– Reklāmas
• Teksta atpazīšana (OCR)
Segmentēšana [2]
Maksims GorkijsRīgas jūrmalā
1905. gada rudenī ievērojamais krievu proletariātarakstnieks M a k s i m s G o r k i j s pavadīja dažas nedēļasRīgas jūrmalā...
OCR
Segmentēšana [3]
Valodas:•LV, GE, RU, LA, LG, SE, LT, FR, ....
Druka:•Jaunā druka•Vecā druka•Jauktā druka (jaunā+vecā)•Mašīnraksts•Rokraksts
Segmentēšana [4]
• Vecā druka
Segmentēšana [5]
• Jauktā druka
Vecādruka
Jaunādruka
Segmentēšana [6]
• Mašīnraksts
Segmentēšana [7]
• Vecā krievu rakstība
Segmentēšana [8]
• Latgaliešu
Segmentēšana [9]
• Franču
Segmentēšana [10]
• Senprūšu
Segmentēšana [11]
• OCR kvalitāte (pa simboliem)– Mūsdienu tekstiem – tuvu 100%– Vecai drukai – 80%– Visblāvākajam mašīnrakstam - <50%
• Virsrakstus un attēlu parakstus labo manuāli
Segmentēšana [12]
• Mūsdienu teksta OCR kvalitāte
Oriģināls OCRSimboli pareizi/kopā: 396/403 (~98%)
Segmentēšana [13]
• Vecās drukas teksta OCR kvalitāte
Oriģināls OCRSimboli pareizi/kopā: 685/739 (~92.7%)
Segmentēšana [14]
• Gala rezultāts:– 1 METS datne – katram izdevumam– 1 ALTO datne – katrai lappusei– 1 JPG datne – katrai lappusei– 1 OCR datne – katram rakstam
– 1 PDF datne – katram izdevumam
Nepieciešamisaskarnei
Segmentēšana [15]
PDF datne ar satura rādītāju
Segmentēšana [16]
Atpazīts, iezīmējams un kopējams teksts
Saskarne [1]
• Mantojums-1
http://data.lnb.lv/digitala_biblioteka/laikraksti/
Saskarne [3]
• Mantojums-1– Avīzes digitalizētas un pieejamas Internetā
• Periodika.lv– Atpazīts avīžu teksts (OCR) un padarīts meklējams
• Nākotnes saskarne– Lietotāju līdzdalība satura pilnveidošanā– Interaktivitāte
Saskarne [4]
• Austrālijas pieredze– Austrālijas NB avīžu digitalizācijas projekts
http://newspapers.nla.gov.au/ndp/del/home
Saskarne [5]
• Austrālijas pieredze– Lietotāju iesaiste satura pilnveidošanā
OCR kļūdu labošana Komentāri Birkas
Saskarne [6]
• Austrālijas pieredze– Lietotāju iesaiste satura pilnveidošanā
Saskarne [7]
• “Gudrā” personu identificēšana
Andris Bērziņšpolitiķis
Andris Bērziņšaktieris
Andris Bērziņšpolitiķis
Andris Bērziņš?
Saskarne [8]
• “Gudrā” vietu identificēšana
“Mežciems”?
PamatnosaukumsObjekta
veids Administratīvā vai teritoriālā vienībaMežciems dzc. pietura Daugavpils, Latvija, Eiropas Savienība
Mežciems lielciemsJaunsvirlaukas pagasts, Jelgavas novads, agrāk Jelgavas rajons
Mežciems pilsētas daļa Vidzemes priekšpilsēta, LatvijaMežciems pilsētas daļa Daugavpils, Latvija, Eiropas Savienība
Mežciems skrajciemsGaujienas pagasts, Apes novads, agrāk Alūksnes rajons
Mežciemsvasarnīcu ciems
Carnikavas novads, agrāk Rīgas rajons
Mežciems viensētaGaiķu pagasts, Brocēnu novads, agrāk Saldus rajons
Latvijas Ģeotelpiskās informācijas aģentūras dati
Saskarne [9]
• “Gudrā” vietu identificēšana
“Ogre”?
Ogre – pilsēta Ogre – upe “Ogre” – trikotāžas kombināts