Upload
dinhdieu
View
245
Download
6
Embed Size (px)
Citation preview
Projekt digitalizacije izdanja
Leksikografskoga zavoda
Miroslav Krleža
Cvijeta Kraus, [email protected]
Irina Starčević Stančić, [email protected]
Leksikografski zavod Miroslav Krleža
2
Uvod
• osnovan 1950. godine, LZMK se sustavno bavi
enciklopedistikom i leksikografijom
• više od 250 različitih enciklopedija, leksikona,
rječnika, atlasa, bibliografija
• 2009. godine portal http://enciklopedija.lzmk.hr
• Enciklopedija Miroslava Krleže, Hrvatski obiteljski
leksikon, Filmski leksikon, Istarska enciklopedija,
Medicinski leksikon, Nogometni leksikon,
odabrani članci HBL-a
3
Uvod …
• prvo izdanje Hrvatskog biografskog leksikona objavljeno je
1983. godine; 2013. godine objavljen je 8. svezak (Kr-Li)
• u tijeku je prebacivanje svih članaka objavljenih 1983.-2009.
u digitalnu inačicu Hrvatskoga biografskoga
leksikona (do kraja 2014. godine biti će
dostupni svi objavljeni svesci)
• Hrvatska enciklopedija (1999.–2009.)
od 2013. godine dostupna je u
mrežnom izdanju
http://www.enciklopedija.hr
4
Projekt digitalizacije arhivskih izdanja
• s razvojem informacijske i komunikacijske tehnologije javlja
se potreba prezentacije, dostupnosti i povezivanja izdanja
Leksikografskoga zavoda u elektroničkome obliku
• cilj projekta je objaviti sva izdanja u elektroničkome obliku,
učiniti ih pretraživima i dostupnima korisnicima putem
Interneta
• na samom početku projekta bilo je potrebno odrediti
prioritetna izdanja za digitalizaciju
5
Projekt digitalizacije arhivskih izdanja …
• određujući faktor vrijednosti i zanimanje korisnika kao
prioritetna pokazala su se izdanja:
• Pomorska enciklopedija I. izdanje (1954.-1964.)
– prvo Zavodsko enciklopedijsko izdanje
• Filmska enciklopedija (1986.-1990.)
– višestruko zanimljiva korisnicima
• Medicinski leksikon (1992.)
• Enciklopedija Miroslava Krleže (1999.)
• Hrvatski biografski leksikon (1983.-2014.)
6
Postupak digitalizacije
• tehnička potpora
• 1 skener (Microtek Artix DI 2020) s uvlakačem
• 4 licence za Abbyy FineReader
• izdanja se službi za digitalizaciju dostavljaju izrezana u listove
• stranice izdanja se skeniraju, pohranjuju na server u slikovnom formatu, a onda se dodatno obrađuju programom za optičko prepoznavanje znakova (OCR – Optical Character
Recognition) da bi se dobio tekst
7
OCR – optičko prepoznavanje znakova
• svaka skenirana stranica provlači se kroz OCR program Abbyy
FineReader koji sliku automatski pretvara u tekstualni oblik
• nakon što program pretvori sliku u tekst potrebno je tekst
provjeriti i ispraviti eventualne greške koje je program
napravio
• ukoliko ima više elemenata na
stranici oni se mogu označiti
ručno (tekst, slika, tablica ...)
8
Problemi / nedostaci OCR-a
• prilikom obrade teksta OCR programom Abbyy FineReader
potrebno je obratiti pažnju na određene dijelove teksta zbog
mogućnosti pogrešnog prepoznavanja znakova
• greške je potrebno ručno ispraviti prije spremanja
dokumenta, odnosno stranice izdanja u Word dokument
9
Problemi / nedostaci OCR-a …
1. ZNAKOVI UNUTAR TEKSTA
• slova sa znakovima svojstvena drugim jezicima (ö; á; ...)
• nazivi natuknica
• imena autora
• literatura
• datumi unutar teksta ...
• tekst koji je pročitan kroz program potrebno je ujednačiti s
originalnim tekstom izdanja (veličina slova, stilovi
podebljano, kurziv, razmaci ...)
10
Problemi / nedostaci OCR-a …
2. SLIKE UNUTAR TEKSTA / LEGENDE SLIKA
• slike se označavaju izdvojeno od teksta, a potpisi ispod slika
se označavaju kao tekstualni dio
• ukoliko se slika nalazi na sredini stranice potrebno je
napraviti ručno označavanje teksta i slike
11
Problemi / nedostaci OCR-a …
3. TABLICE
• Abbyy FineReader daje mogućnost oblikovanja tablica kao u
originalnom tekstu
• program ih automatski pročita i analizira, a naknadno ih je
moguće dodatno urediti
12
Problemi / nedostaci OCR-a …
4. FORMULE
• Abbyy FineReader nema mogućnost čitanja matematičkih
formula te se one označavaju kao slike ili dodatno uređuju
dostupnim programima
13
Primjer digitalizacije Filmske enciklopedije
• skeniranje stranica enciklopedije
• obrada u programu Abbyy FineReader
• pretvaranje slike u tekst
• provjera i usklađivanje s originalnim tekstom
• spajanje Word dokumenata
• prilagođavanje teksta za
digitalno izdanje
14
Primjer digitalizacije Tehničke enciklopedije
(1963.-1997.)
• primjer stručne enciklopedije s mnogo matematičkih
formula
• Tehnička enciklopedija je u potpunosti skenirana
• zbog svoje specifičnosti matematičkih formula nije se radio
OCR teksta, odnosno pretvaranje u tekstualni format
• formule su označene kao slike te je enciklopedija
napravljena u obliku pretraživog PDF formata
15
Statistički podaci o provedenoj digitalizaciji
16
Naziv izdanja Izdanje Br. sv.Br.
stranicaSkenirano
OCR
ukupno
Pomorska enciklopedija I. 8 5.687 100% 1.013
Pomorska enciklopedija II. 8 5.709 100% 0
Filmska enciklopedija I. 2 1.530 100% 1.530
Enciklopedija likovnih
umjetnostiI. 4 2.861 100% 1.427
Muzička enciklopedija II. 3 2.244 100% 134
18.031 4.104
Zaključak
• Projekt digitalizacije arhivskih izdanja Leksikografskoga
zavoda Miroslav Krleža je u tijeku
• Cilj: sva izdanja prebaciti u digitalni oblik da bi bila dostupna
i pretraživa kroz sustav portala
• Projekt se izvodi u okviru vlastitih financijskih i kadrovskih
mogućnosti, ali se istražuju mogućnosti financiranja i
realizacije kroz fondove ili programe EU
17
Projekt digitalizacije izdanja
Leksikografskoga zavoda
Miroslav Krleža
Cvijeta Kraus, [email protected]
Irina Starčević Stančić, [email protected]
Leksikografski zavod Miroslav Krleža