118
Definícia metadátových formátov pre digitalizáciu monografií Verzia 1.0 2013

Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

   

Definícia metadátových formátov pre digitalizáciu monografií

  

  

Verzia 1.0        

2013 

 

 

 

Page 2: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

Autor: Jan HutařÚpravy: Pavla ŠvástováSNK úpravy: Dominik Kubík, Ľudmila Rohoňová

História verzií

Meno Dátum Verzia dokumentu Realizované zmeny

 

 

Page 3: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

1 Východiská- UC = user copy = používateľské kópie- MC = master copy = archívna kópie- PS = pôvodný sken - obrazový súbor vznikajúci pri digitalizácii, ktorý sa po spracovaní (orez, vyrovnanie a pod) vymaže a ďalej sa neukladá- Pri všetkých metadátových formátoch budú použité verzie aktuálne v čase implementácie projektu DIKDADIKDA, alebo verzie predchádzajúce v prípade, že nová verzia je nová min. 3 mesiace- Základná intelektuálna entita vo workflow digitalizácie a následne v LTP systéme = zväzok monografie (pozri ďalej).- PSP balíček - producer submission package - balíček dát a metadát, ktorý prichádza od producenta dát (teda napr. z procesu (workflow) digitalizácie)

- PSP balíček bude obsahovať kompletnú intelektuálne entitu t.j. zväzok monografie- Z procesu (workflow) digitalizácie je možné zaslať viac PSP balíčkov v balíku napr. [Tar] a pod.- Ak má dvojzväzkové dielo v katalógu knižnice bibliografický záznam pre každý zväzok, vznikne pre každý zväzok PSP balík a každý zväzok bude chápaný ako jedna intelektuálne entita; to isté platí aj v prípade, že viaczväzkové dielo má iba jeden záznam

- SIP balíček - submission information package - je balík dát a metadát v podobe, v ktorej je akceptovateľný pre LTP systém alebo pre aplikáciu sprístupnenia. Môže vznikať v transformačnom module z PSP balíčka po jeho kontrolách. SIP by mal obsahovať len jednu intelektuálnu entitu.- Primárne sa u monografií nebude robiť členenie na vnútorné časti (kapitoly a pod.). členenie na vnútorné časti sa bude realizovať iba pri niektorých zvlášť dôležitých monografiách. V tomto prípade musí existovať možnosť vyjadriť popis častí (napr. kapitol, príloh a pod) v metadátach.- Základné bibliografické metadáta budú preberané priamo z knižničných katalógov do systému pre riadeniu procesu (workflow) digitalizácie.- Prevod existujúcich dát, ktoré sú v proprietárnom DTD (periodiká a monografie) do vnútorného formátu LTP systému bude prebiehať v transformačnom module.- Aj pri nových dátach z digitalizácie bude nutný prevod do interných formátov LTP systému a aplikácií na sprístupnenie - opäť bude prebiehať v module transformácie- Úpravy obrazu, ktoré vedú k zmene rozmerov obrazu, rozlíšenie a pod. sa musia robiť predtým, než sa realizuje krok OCR, t.j. budú sa robiť na súboroch formátu TIFF;- OCR (ALTO XML) bude vznikať z užívateľskej kópie - OCR je lepšie realizovať na súboroch s kompresiou (menej šumu)- Je nutné zachovať rovnakú veľkosť obrazu užívateľských a archívnych kópií (počet pixelov, rozlíšenie) tak, aby ALTO XML sedelo veľkosťou a rozlíšením- Všetky metadáta musia pre zápis používať kódovanie UTF-8

Page 4: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

 

2 Výstupy digitalizácie1          archívne kópie (1 MC pre každú stranu)2          užívateľské kópie (1 UC pre každú vzniknutú MC, teda stranu)3          OCR - ALTO XML súbor pre každú stranu4          OCR TXT súbor - pre možnosť stiahnuť si len text dokumentu (tam kde je kvalita OCR zodpovedajúca), vyhľadávanie / indexácie5          metadáta pre MC

a) bibliografické metadáta - MODS a DCb) štrukturálne metadáta - METSc) technické metadáta - MIX, premisd) administratívne metadáta - premis, METS

6          kontrolné metadátové súbory (s kontrolnými súčtami a údajmi o vzniku dát a pod.)

Pozn.METS neobsahuje popisné, ani technické metadáta pre UC. Obrazové súbory UC sú iba súčasťou štrukturálnej mapy <structMap> a <fileSec>. Súčasťou PSP balíčka sú obrazy UC v priečinku [userCopy]. 

3 Granularita metadátového záznamuMonografie- Základnou intelektuálnou entitou pre monografie je 1 zväzok- Ak má monografia iba jeden zväzok, vznikne jeden metadátový popis (= METS záznam)- Ak má monografia 2 zväzky, napr. dvojzväzkový slovník, jedná sa o dve intelektuálne entity (zväzok prvý a zväzok druhý) a vzniknú teda dva metadátové záznamy, ku každému zväzku jeden METS záznam a teda dva PSP balíčky- V knižničných katalógoch sú niekedy viaczväzkové monografie katalogizované ako jeden súbor, t.j. majú jeden záznam v katalógu, niekedy sú jednotlivé diely vedené ako jednotlivé záznamy v katalógu; v oboch prípadoch musí vzniknúť metadátový popis ku každému zväzku ako základnej intelektuálnej entite a tiež PSP balík pre každý zväzok- Každý METS záznam musí obsahovať metadáta o nadradenej intelektuálnej entite (napr. súbor monografie) tak, aby bolo možné obe entity virtuálne spojiť a bolo používateľovi jasné , že sa jedná o jeden súbor / titul, ktorý má dva zväzky.    

Page 5: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

4 IdentifikátoryDo workflow digitalizácie budú prichádzať bibliografické metadáta, ktoré už budú obsahovať nasledujúce identifikátory vrchných úrovní intelektuálnych entít (úroveň titulu):

●        ISBN - len pre titul monografie (jednozväzkovej) alebo pre súbor monografií, ktoré majú len jeden súborný záznam. ISBN nie je pridelené vždy●        ISSN●        čSNB - identifikátor entity tak ako zodpovedá katalogizačnému záznamu, t.j. každá entita podľa pravidiel na http://www.caslin.cz/spoluprace/sluzby/ccnb/ zo záznamom v katalógu SNK má tento identifikátor

 Producent dát musí dodatočne vygenerovať do balíčka podľa tejto špecifikácie:

●        identifikátor UUID ku každej úrovni bibliografických metadát vo formáte MODS (prvok <identifier> s atribútom type = "UUID")

○        pre úroveň celého titulu (nenachádza sa v bibliografickom zázname v knižničnom katalógu)○        pre úroveň prílohy○        pre úroveň kapitol

●        URN: NBN, ktoré si bude možné nechať, prideliť v systéme pre riadenie procesov v digitalizácii, alebo nástrojom Resolver pre dané úrovne

 Identifikátory pre úroveň titulu monografie:

1          UUID (vygeneruje dodávateľ) - povinné2          čSNB - číslo Slovenskej národnej bibliografie (povinné, ak ho je možné záznamu prideliť)3          ISSN (ak je obsiahnuté v zázname)4          ISBN (ak je možné ho záznamu prideliť)5         Iný identifikátor - možno využiť rôzne identifikátory, ktoré nejakým spôsobom prepoja digitálny záznam s fyzickou jednotkou – napr. čiarový kód, systémové číslo alebo pole 001 z knižničného katalógu atď. Tieto čísla možno kombinovať napr. s poradím čísla v ročníku, číslom čísla a pod.

 Identifikátory pre úroveň vnútornej časti:

1          UUID (vygeneruje producent dát) - povinné2          Iné identifikátory (čiarový kód, systémové číslo, pole 001 a pod.)

 Identifikátory pre úroveň prílohy:

1          UUID (vygeneruje dodávateľ) - povinné2          doi, handle a pod.3          Iný identifikátor

Page 6: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

5 Štruktúra PSP balíčku V kapitole je návrh štruktúry pre balenie dát a metadáta v jednom PSP balíčku na výstupe z workflow digitalizácie. 

ZLOŽKA> OBSAHUJE >> OBSAHUJE >>>

Číslo periodika info.xml  

  masterCopy (zložka) Obraz vo formáte JPEG 2000 Lossless

  userCopy (zložka) Obraz vo formáte JPEG2000 - 100% quality (lossy mode)

  ALTO (zložka) súbory ALTO.xml pre každú stranu

  TXT (zložka) súbory OCR.TXT pre každú stranu

  amdSec (zložka) AMD_METS.xml pre každú stranu

  hlavny_METS.xml  

  súbor.md5  

  Jedná sa o variantu, kedy technické a administratívne metadáta nie sú obsiahnuté v hlavnom METS zázname, ale pre každú stranu v inom ďalšom METS zázname (AMD_METS.xml). Dôvod: ak by bolo všetko v hlavnom METS zázname, bol by záznam neúmerne dlhý. Hlavný metadátový záznam METS obsahuje metadáta pre archívne kópie obrazových dát, neobsahuje však žiadne metadáta pre používateľské kópie. PSP balík = 1 zložka pre zväzok monografie. V prípade, že má monografia 2 zväzky / diely, tak 1 zväzok = 1 PSP. Hlavná zložka PSP balíčka obsahuje nasledujúce zložky a súbory:

Page 7: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

5.1 súbor info.xmlVeľmi stručne v ňom budú zaznamenané údaje o vzniku celého PSP balíčka - kto, kedy ho vytvoril, akú mal veľkosť, odkiaľ a kam bol nakopírovaný a pod. Zaznamenané môžu byť údaje o obsahu PSP balíčku - počet a názvy súborov a pod. Súbor obsahuje odkaz na súbor s MD5. Súbor info.xml by tiež mohol byť vedľa hlavného PSP balíka. Údaje a štruktúra info.xml súboru:

1          vznik balíčka - dátum podľa ISO8601 na úroveň sekúnd2          ID balíčka - použiť identifikátor čísla periodika (URN: NBN) - pozri Názvové konvencie v kap. 63          ID titulu - čSNB , ISBN alebo ISSN (opakovateľné)4          údaje o väčšom celku (projekte), do ktorého balík patrí – napr. digitalizácia pre ANL5          názov inštitúcie, ktorá je zadávateľom digitalizácie6          tvorca balíčka - kód inštitúcie (firmy), ktorá balíček vytvorila7          veľkosť balíčka - v kB8          obsah balíčka9          názvy súborov vrátane directory path a koncovky (mime type) (nepovinné)10      počet súborov v balíčku celkom11      odkaz na súbor s MD5 a jeho MD512      poznámka - napr. o tom, že balíček neobsahuje OCR a pod.

 <?xml version = "1.0" encoding = "UTF-8"?><info xmlns="http://www.ee.cz/schemas/DIKDA/info.xsd">                            <created> 2012-01-26T13: 53:11 </ created>                           <packageid> anl_123456 </ packageid>                 <titleid TYPE="issn"> ISSN0009-2770 </ titleid>                 <titleid TYPE="ccnb"> cnb123456789 </ titleid>                 <collection> ANL </ collection>                 <institution> NKP </ institution>                 <creator> Názov firmy </ creator>                 <size> 123456789 </ size>                 <itemlist ITEMTOTAL="35"/>                        <item>                        ...                        </ Item>       <checksum TYPE="md5" CHECKSUM="fe8e0172fb031cdc79a9f6002cb64f55"> / MD5_anl001-                  000003.md5 </ checksum>                 <note /></ Info> 

5.2 zložka [masterCopy]Zložka s master kópiami, obsahuje súbory JPEG2000 v bezstratovou kompresiou,1 súbor = 1 strana, t.j. súbor obsahuje všetky naskenované strany monografie.

Page 8: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

5.3 zložka [userCopy]Priečinok s používateľskými kópiami, pre každú naskenovanú stranu monografie obsahuje jeden JPEG2000 súbor sa stratovou kompresiou.

5.4 zložka [ALTO]Obsahuje ku každej strane 1 ALTO XML súbor, t.j. toľko ALTO XML súborov koľko je strán zväzku monografie.

5.5 zložka [TXT]Obsahuje ku každej strane 1 OCR súbor ako čistý text. T.j. toľko OCR.TXT súborov koľko je strán zväzku monografie.

5.6 zložka [amdSec]Zložka s technickými metadátami - obsahuje pre každú naskenovanú stranu monografie 1 METS súbor (AMD_METS.xml). Tieto metadáta nie sú zámerne umiestnené v hlavnom METS zázname (hlavný_METS.xml), pretože ten by neúmerne narástol a bolo by ťažké s ním pracovať. Musí byť z neho však nalinkovaný (z časti fileSec). Každý METS súbor AMD_METS.xml obsahuje nasledujúce časti METS formátu:

●        amdSec - administratívne metadáta - obsahuje časti:○        technické metadáta techMD, ktoré:

■        vo formáte PREMISobject popisujú vlastnosti:●        archívnej kópie●        ALTO XML●        pôvodného TIFF súboru, z ktorého vznikli archívne kópie

■        vo formáte MIX popisujú vlastnosti:●        archívnej kópie●        pôvodného TIFF súboru

○        metadáta o proveniencii digitálnych objektov digiprovMD - obsahuje časti:

■        PREMISevent■        PREMISagent.

○        fileSec - sekcia s odkazmi na súbory - povinná časť METS záznamu METS záznam pre jednu stranu, ktorý vzniká primárne na zachytenie technických a administratívnych metadát, bude odkazovať na súbory, ktoré sú s konkrétnou stranou spojené, t.j. archívne kópie, ALTO XML a OCR TXT.○        structMap - iba fyzická štrukturálna mapa, povinná časť METS záznamu. Bude zobrazovať štruktúru súborov na danej strane, t.j. opäť

Page 9: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

archívnej kópie, ALTO XML a OCR TXT. Pre ďalšie mapovanie do LTP systému nebude potrebná.

 

5.7 súbor Hlavny_METS.xmlĎalšou časťou PSP balíčka je hlavný METS dokument. Hlavný METS záznam teda obsahuje:

●        dmdSec - bibliografické metadáta k zväzku monografie vrátane popisu nadradených entít (napr. titul) alebo naopak častí (napr. kapitola). Základ bude prevzatý z katalógu, prípadný ďalší popis častí bude z procesu digitalizácie. Hlavným formátom bude MODS. Pre LTP systémy je potrebná aj prítomnosť skráteného záznamu v Dublin Core.●        fileSec - hlavná časť s odkazmi na všetky digitálne objekty (archívne kópie, ALTO XML a OCR TXT), ktoré sa viažu k jednému zväzku monografie. Obsahuje tiež odkazy na administratívne metadáta AMD_METS.xml do priečinka [amdSec].●        structMap - štrukturálne mapa pre celý dokument, t.j. pre jeden zväzok monografie. Obsahuje:

○        logickú časť - vyjadruje logickú štruktúru zväzku s odkazmi na ALTO XML○        fyzickú časť, ktorá obsahuje informácie o všetkých reprezentáciách konkrétnej strany (archívne kópie, ALTO XML, OCR TXT a AMD_METS.xml)○        mapovanie na ALTO XML oblasti (areas)

●        structLink - zoznam strán jednotlivých úrovní periodika na základe pridania väzieb medzi logickou a fyzickou štruktúrou

 

5.8 súbor MD5Poslednou časťou PSP balíčka je súbor s kontrolnými súčtami pre všetky súbory balíka (okrem info.xml a. Md5 súboru samotného). Súbor. Md5 je jeden pre 1 celý balíček PSP (balíček so zväzkom monografie). Tento súbor. Md5 obsahuje kontrolný súčet pre každý súbor obsiahnutý v PSP balíčku. Z tohto dôvodu nie sú samostatné kontrolné súčty súčasťou podpriečinkov balíčka. Kontrolné súčty sú tiež samozrejmosťou pri technických metadátach.   [1] buď priamo v SW pre workflow digitalizácie, alebo za pomoci aplikácie ako napr. Resolver URN: NBN 

Page 10: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

6 Názvové konvencie zložiek a súborovPomenovanie PSP balíčka

●        každý PSP balíček prichádzajúci z procesu digitalizácie musí obsahovať len jedinú intelektuálne entitu (zväzok monografie). Následne musí názov balíčka vychádzať z identifikátora tejto entity, napr. URN: NBN, číslo čiarového kódu použitého na fyzickej jednotke a pod.●        každý zväzok monografie musí mať svoj jednoznačný identifikátor, potom má každý PSP balíček a každý súbor v ňom vlastný jednoznačný identifikátor●        názvy nesmú obsahovať medzery a diakritiku, odporúčanými oddeľovačmi sú podčiarkovník a pomlčka

 Pomenovanie zložiek

●        pozri návrh štruktúr PSP balíčka (kap.5)●       názvy nesmú obsahovať medzery a diakritiku, odporúčanými oddeľovačmi sú podčiarkovník a pomlčka

 Pomenovanie súborov

●        názvy akýchkoľvek súborov patriacich k jednej základnej entite (zväzok) musia byť založené na jednom type identifikátora●        pre zväzok monografie by takýmto identifikátorom mohlo byť URN: NBN, čSNB , ISBN alebo ISSN titulu●        podobne použiteľným identifikátorom by mohlo byť generované číslo UUID, ktoré by sa generovalo pre každý súbor. Tým by sa však stratila (aj vizuálna) väzba na vrchnú úroveň titulu aj väzba na súvisiace súbory (strana v J2K a k nej patriace súbor ALTO XML a pod.).●        názvy nesmú obsahovať medzery a diakritiku, odporúčanými oddeľovačmi sú podčiarkovník a pomlčka

 Využitie URN: NBN môže vyzerať nasledovne (použitý príklad pomenovania pre projekt DIKDA - digitalizácia monografií): 

typ súboru názov súboru vysvetlenie

PSP balíček (číslo, zväzok)

DIKDA_123456 názov celej zložky PSP balíčka, pri základných int. entitách bude v názve využité vždy URN: NBN

archívna kópie MC_DIKDA_123456_0013.jp2 archívne JPEG2000 strany 13 zväzku monografie s urn: NBN: sk: DIKDA-123456

používateľská kópia UC_DIKDA_123456_0013.jp2 používateľská kópia vo formáte JPEG2000 strany 13 zväzku monografie s urn: NBN: sk: DIKDA-123456

Page 11: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

ALTO XML ALTO_DIKDA_123456_0013.xml ALTO súbor patriaci ku 13tej strane zo zväzku monografie s urn: NBN: sk: DIKDA-123456

OCR TXT TXT_DIKDA_123456_0013.txt TXT súbor s OCR patriaci ku 13tej strane zo zväzku monografie s urn: NBN: sk: DIKDA-123456

info.xml INFO_DIKDA_123456.xml info xml k celému PSP balíčku zväzku monografie

MD5 DIKDA_123456.md5 súbor s kontrolnými súčtami k celému PSP balíčku zväzku monografie

Hlavny_METS.xml METS_DIKDA_123456.xml hlavný METS záznam k celému zväzku monografie s urn: NBN: sk: DIKDA-123456

AMD_METS.xml AMD_METS_DIKDA_123456_0013.xml METS záznam s technickými metadátami pre stranu 13 zo zväzku monografie s urn: NBN: sk: DIKDA-123456

 Zložka jedného balíčka PSP, ktorá obsahuje len jeden obrazový súbor na prvej strane zväzku monografie (príklad balíka z digitalizácie DIKDA):

DIKDA_123456    

  info.xml  

  [MasterCopy] MC_DIKDA_123456_0001.jp2

  [UserCopy] UC_DIKDA_123456_0001.jp2

  [ALTO] ALTO_DIKDA_123456_0001.xml

  [TXT] TXT_DIKDA_123456_0013.txt

  [AmdSec] AMD_METS_DIKDA_123456_0001. xml

  METS_DIKDA_123456.xml  

  DIKDA_123456.md5  

   

Page 12: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

7 Transportný balík pre jeden alebo viac PSP balíčkovAk bude jeden PSP balík obsahujúci 1 základnú intelektuálnu entitu (zväzok monografie) premiestňovaný, napr. ako tar balík, mal by názov súboru tar zodpovedať názvu PSP balíčka (teda vychádzať z použitého identifikátora pre entitu zväzku).Výstupom z workflow digitalizácie môže tiež byť balík (napr. tar), ktorý obsahuje viac PSP balíčkov - toto združovanie bude obmedzené len kapacitou HW. Takýto združený balík by mal byť pomenovaný na základe už použitého identifikátora.

●        v prípade, že balík obsahuje zväzky jedného viaczväzkového diela, mal by názov balíka vychádzať z čSNB alebo ISBN●        typ identifikátora musí byť vyjadrený v názve súboru – napr. ISBN_1234567890.tar alebo CSNB_12345678910.tar a pod.●        treba počítať s tým, že bude dochádzať k tomu, že združený balík nebude obsahovať napríklad všetky zväzky titulu monografie. Táto skutočnosť musí byť zrejmá z názvu balíka (napr. ISBN_1234567890_YYYY kde YYYY môže byť poradové číslo, dátum, čas vzniku jedného z viacerých balíkov obsahujúcich zväzky určitého titulu / súboru s identifikátorom ISBN 1234567890).

Transportný balík by mal obsahovať nasledujúce časti:○        balíčky PSP (zväzkov)○        informačný súbor, ktorý zodpovedá špecifikácii info.xml○        kontrolné súčty všetkých PSP balíčkov○        zoznam balíčkov v transportnom balíku

  

8 Metadáta- Všetky metadáta budú "zabalené" pomocou kontajnerového formátu METS- Formát METS bude v aktuálnej verzii v čase implementácie alebo vo verzii predchádzajúcej (http://www.loc.gov/standards/mets/mets-schemadocs.html )- Všetky metadáta vo všetkých formátoch musia byť zapísané pomocou XML za použitia kódovania UTF-8- Vloženie metadátových formátov do kontajnera METS bude vždy formou <mdWrap>, t.j. nie odkazovaním z METS záznamu von Význam poľa "Povinnosť"- Pole "Povinnosť" uvádza, či je plnenie jednotlivých elementov povinné, odporúčané alebo voliteľné- Môže nadobúdať nasledujúce hodnoty:o M - mandatory (povinné plnenie - element je súčasťou každého záznamu)o MA - mandatory if available (povinné plnenie pokiaľ je to možné, ak možno a pod.)o R - recommended (plnenie hodnôt elementu je odporúčané, nie je však povinné)

Page 13: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

o RA - recommended if available (odporúčané plnenie pokiaľ ho je možné plniť)o O - optional (plnenie hodnôt elementu je voliteľné podľa konkrétnych potrieb)  

8.1 Koreňový element hlavného METS záznamuKoreňový element hlavného METS záznamu k jednému zväzku monografie musí obsahovať odkazy/linky na špecifikácie jednotlivých použitých metadátových schém (METS, MODS, Dublin Core). 

element Atribúty popis_obrázku = Povinnosť

<mets>   koreňový element METS záznamu

M

  LABEL LABEL - názov titulu monografie, vrátane roku vydania, Mladý fotograf, 1987napr.Mladý fotograf

  TYPE TYPE - hodnota vždy "Monograph"

M

 Príklad:<Mets: Metsxmlns: XSI = "http://www.w3.org/2001/XMLSchema-instance" xmlns: xlink = "http://www.w3.org/1999/xlink"xmlns: mods = "http://www.loc.gov/mods/v3" xmlns: oai_dc = "http://www.openarchives.org/OAI/2.0/oai_dc/" xmlns: dc = " http://purl.org/dc/elements/1.1/ "XSI: schemaLocation = " http://www.w3.org/2001/XMLSchema-instance http://www.w3.org/2001/XMLSchema.xsdhttp://www.loc.gov/METS/http://www.loc.gov/standards/mets/mets.xsdhttp://www.loc.gov/mods/v3 http://www.loc.gov/standards/mods/mods.xsd http://www.openarchives.org/OAI/2.0/oai_dc/ LABEL = "Mladý fotografMladý fotograf, 1987"TYPE = "Monograph"xmlns: Mets = "http://www.loc.gov/METS/">  

Page 14: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

8.2 METS hlavička <metsHdr>- Dokumentuje vznik a úpravy METS záznamu 

element atribúty popis_obrázku = Povinnosť

<metsHdr>   hlavička METS záznamu M

  LASTMODDATE LASTMODDATE - dátum poslednej úpravy záznamu, musí byť v tvare ISO 8601 (na úrovni sekúnd)

M

  CREATEDATE CREATEDATE - dátum vytvorenia záznamu, musí byť v tvare ISO 8601 (na úrovni sekúnd)

M

       <agent>

  údaje o tvorcovi záznamu METS M

  Rola ÚLOHA - hodnota "CREATOR" M

  TYPE TYPE - hodnota "Organization" M

              <name>

  meno jednotlivca alebo organizácie;tvorca záznamu, buď dodávateľ (firma XY), alebo v prípade tvorby záznamu v knižnici bude využitá sigla knižnice, t.j. pre NK SR hodnota "ABA001"

M

       <agent>

  údaje o vlastníkovi METS M

  Rola ÚLOHA - hodnota "ARCHIVIST"  

  TYPE TYPE - hodnota "Organization"  

              <name>

  meno jednotlivca alebo organizácie;vlastník záznamu, buď dodávateľ (firma XY) alebo v prípade tvorby záznamu v knižnici bude využitá sigla knižnice, t.j. pre SNK hodnota "ABA001"

M

 Príklad:<mets:metsHdr CREATEDATE="2012-01-26T13:49:12" LASTMODDATE="2012-01-26T13:49:12">                 <mets:agent ROLE="CREATOR" TYPE="ORGANIZATION">                        <mets:name> Elsyst Egineering </ Mets: name>                 </ Mets: agent><mets:agent ROLE="ARCHIVIST" TYPE="ORGANIZATION"><mets:name> ABA001 </ Mets: name></ Mets: agent></ Mets: metsHdr> 

Page 15: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

 

8.3 METS časť <dmdSec> - Bibliografické metadáta - MODS a Dublin Core

●        na samotný bibliografický popis bude použitý formát MODS, aktuálna verzia v dobe implementácie, alebo verzia predchádzajúcej implementácie (http://www.loc.gov/standards/mods/) a formát Dublin Core (ďalej DC) kvalifikovaný ( http :/ / dublincore.org / documents / dcmi-terms / )●        DC je primárne určený na poskytnutie dát cez OAI-PMH, bude zodpovedať OAI XSD (pozri http://www.openarchives.org/OAI/2.0/oai_dc.xsd ) a bude sa jednať o nekvalifikovaný Dublin Core●        DC bude použitý, uložený v METS rovnakým spôsobom ako formát MODS - pozri možnosti štruktúry PSP balíčka vyššie●        pre vytvorenie DC z MODS formátu môže byť použité (a podľa potrieb knižnice upravené) oficiálne mapovanie Kongresovej knižnice - pozri http://www.loc.gov/standards/mods/mods-conversions.html●        DC a MODS budú vložené v METS časti dmdSec - pozri možnosti štruktúr PSP balíčka v kap. 7.●        základným zdrojom popisných metadát je katalóg SNK. Pre prevod metadát k titulu monografie z MARCu21 resp. MARCXML do MODS možno využiť a podľa potrieb knižnice upraviť oficiálne mapovanie a konverznú šablónu zo stránok Kongresovej knižnice (http://www.loc.gov/standards/mods/mods-conversions.html ) ●        v digitalizovaných dokumentoch je bibliografický popis vytváraný primárne z aspektu popisu fyzickej predlohy, nejde o popis elektronického dokumentu

 Monografie- Základnou intelektuálnou entitou pre popis je zväzok monografie, t.j. v jednom METS zázname, ktorý bude obsahovať metadáta a štruktúru jedného zväzku, budú MODS záznamy k tomuto zväzku- Metadáta budú popisovať entity [1] :

1          zväzok (Volume)2          vnútorná časť (InternalPart) - typy "textový oddiel" (Chapter) a "obraz" (Picture)3          príloha (Supplement)

- Pozn: nepočíta sa s úrovňou titulu, ani pre viacdielne publikácie, ktoré majú iba jeden katalogizačný záznam; pri jednozväzkových monografiách splýva titul s popisom zväzku (MODS záznam popisujúci zväzok je záznam titulu z katalógu SNK). Ak predsa len existuje súhrnný názov pre viac zväzkov (napr. zozbrané spisy), je riešením plnenie všeobecného názvu do údajov o edícii

1          ad zväzok (Volume) - popis zväzku pri klasickej monografii (1 zväzok = 1 záznam) zodpovedá záznamu v katalógu

Page 16: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

2          ad vnútorná časť (InternalPart) - bližšie určenie typov "kapitol" a "obrazu" (fotografie, tabuľky, ilustrácie, grafy a pod.) bude možné vyjadriť pomocou atribútov a výrazov kontrolovaného slovníka v elementu <genre>

- Pri popise vnútornej časti je i element <recordInfo>. Dôvod: popis bude vznikať manuálne a je žiaduce  viesť o vzniku záznamu kontrolné údaje; element je voliteľný

3          ad príloha (Supplement) – za prílohu sa pokladá voľne vložená entita do jednotlivého zväzku, napr. mapa, kľúč na riešenie úloh, pracovný zošit, CD / DVD a pod.

 Rozlišujeme 3 druhy príloh monografie:a) príloha, ktorá sa neskenuje, ale chceme o nej vytvoriť bibliografický záznam, dať najavo čitateľovi, že existuje napr. CD / DVD a pod.

●        digitálna podoba prílohy (ak existuje) nie je súčasťou balíka PSP zväzku●       popis možno urobiť v rámci popisu prílohy (Supplement) v MODS - pozri špecifikácia nižšie

○        ak existuje v katalógu záznam k tejto prílohe (napr. CD / DVD, mapa a pod), bude využitý pre generovanie MODS záznamu prílohy

●        taká príloha nie je súčasťou logickej štrukturálnej mapy vo formáte METSb) príloha podobného typu, tvaru a veľkosti ako je popisovaný zväzok monografie, ktorá sa spolu s číslom skenuje

●        digitálna podoba prílohy je spolu so zväzkom (Volume) súčasťou PSP balíčka zväzku a je súčasťou hlavného METS záznamu●        popis je možné urobiť v rámci popisu prílohy (Supplement) v MODS – pozri špecifikácia nižšie●        táto príloha môže mať vnútorné časti (InternalPart) rovnako ako zväzok (Volume) a ich text je súčasťou ALTO XML, ktorý je spoločný pre zväzok (Volume) aj prílohu (Supplement)●        taká príloha je súčasťou logickej štrukturálnej mapy vo formáte METS●       taká príloha je súčasťou fyzickej štrukturálnej mapy vo formáte METS (linky medzi jednotlivými súbormi reprezentujúcimi strany a popisnými metadátami)

c) príloha odlišného typu, tvaru a veľkosti ako je popisovaný zväzok monografie, ktorá sa skenuje zvlášť – nezávisle na zväzku napr. mapa a pod.K týmto prílohám vznikajú metadáta podobne ako pre jednotlivé zväzky monografií, avšak pre pôvodný zväzok, ku ktorému príloha patrí, vznikne 1 popis (PSP balíček s jedným hlavným METS záznamom a ALTO XML súborom) a pre prílohu je vytvorený ďalší 1 popis (a PSP balíček s METS záznamom) Záznamy monografie môžu byť v katalógoch nasledovné:

●        monografia má len jeden zväzok - existuje jeden záznam v katalógu a jedno čSNB ●        monografia má viac zväzkov - potom existuje buď

Page 17: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

○        1) jeden záznam pre súbor ak jednotlivé zväzky / diely nie sú od seba príliš odlišné (napr. Slovník slovenského jazyka, M-S), k jednému záznamu existuje jedno čSNB ; alebo○        2) v prípade, že jednotlivé diely / zväzky súboru sú odlišné (napr. Atlas slovenska - diel Flóra, diel Fauna, atď.), má každý zväzok svoj záznam v katalógu SNK a svoje čSNB , súborný záznam v tomto prípade neexistuje

 ●        popis nadradenej entity, kde existuje iba 1 katalogizačný záznam pre viac zväzkov monografie, nebude súčasťou metadát popisujúcich zväzok●        strana sa nebude popisovať, jej logické aj fyzické číslovanie aj typ strany sú obsiahnuté v štruktúre METS dokumentu (časť structMap)●        typ strany bude zodpovedať presne zoznamu typov strán z novo dohodnutých pravidiel popisu, ktoré vychádzajú z DTD monografie, ale sú pridané nové typy strán - obálka (cover), reprezentácia (frontJacket) a mapa (map))

○        backCover, backEndSheet, blank, cover, Flyleaf, frontCover, frontEndSheet, frontJacket, index, listOfIllustrations, listOfMaps, listOfTables, máp, normalPage, spine, table, tableofcontents titlePage)

●        v katalógoch SNK neexistujú údaje o kapitolách monografií – t.j. vnútorné členenie a popis musí vzniknúť v procese digitalizácie ; popis titulu / zväzku monografie musí byť prevzatý z katalógu SNK do systému pre riadenie workflow digitalizácie●        pre každú entitu vznikne jeden MODS záznam s vlastným ID, ktorý bude označovať aj typ časti (napr. oddiel, ilustrácia a pod.). V prípade opakovania častí sa bude opakovať zodpovedajúci počet MODS záznamov v jednom PSP balíčku. Identifikátory budú začínať prefixami: MODSMD_VOLUME, MODSMD_CHAP, MODSMD_PICT, MODSMD_SUPPL pre MODS, obdobne pre DC. Za tie sa ďalej pridá podčiarkovník a číslo, identifikujúce poradie identifikátora, zarovnané a doplnené o nuly na 4 miesta. Štvormiestne poradové čísla sú pri ID uvedené preto, aby bolo v celom dokumente jednotné číslovanie. ID teda vyzerá nasledovne:

○        titul (vždy jeden)■        MODSMD_VOLUME_0001■        DCMD_VOLUME_0001

○        príloha (môže ich byť viac)■        MODSMD_SUPPL_XXXX, kde XXXX je poradové číslo prílohy, naprMODSMD_SUPPL_0001 je prvá príloha atď.■        DCMD_SUPPL_XXXX, kde XXXX je poradové číslo prílohy, naprDCMD_SUPPL_0001 je prvá príloha atď.

○        kapitola (môže byť viac)■        MODSMD_CHAP_XXXX, kde XXXX je poradové číslo článku, naprMODSMD_ART_0001 je prvý článok atď.

Page 18: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

■        DCMD_CHAP_XXXX, kde XXXX je poradové číslo článku, naprDCMD_ART_0001 je prvý článok atď.

○        obrázok (môže ich byť viac)■        MODSMD_PICT_XXXX, kde XXXX je poradové číslo obrázku, naprMODSMD_PICT_0001 je prvý obrázok atď.■        DCMD_PICT_XXXX, kde XXXX je poradové číslo obrázku, naprDCMD_PICT_0001 je prvý obrázok atď.

 ●        každý MODS záznam má vlastnú <dmdSec> časť●       každý MODS záznam bude uložený vo vlastnej METS časti <dmdSec> pomocou mdWrap●        všetky top elementy MODS formátu sú opakovateľné, okrem <recordInfo>●        všetky elementy Dublin Core sú opakovateľné●        každá časť <dmdSec> musí mať ID a vnorený element <mdWrap> s atribútmi MDTYPE, mimetype

 

element atribúty popis_obrázku = povinnosť

<dmdSec>   identifikátor <dmdSec> časti METS záznamu

M

  ID pre <dmdSec> s popisom zväzku (titulu) monografie hodnota "MODSMD_VOLUME" a "DCMD_VOLUME"

 

    pre <dmdSec> s popisom vnútornej časti monografie hodnota podľa typov vnútornej časti (oddiel [2], obraz) - hodnoty "MODSMD_CHAP" a "DCMD_CHAP" pre článok a hodnoty "MODSMD_PICT" a "DCMD_PICT" pre obraz

 

    pre <dmdSec> s popisom prílohy monografie hodnota "MODSMD_SUPPL" a "DCMD_SUPPL"

 

                            <mdWrap>

  element obsahujúci vložené záznamy MODS

M

  MDTYPE MDTYPE - hodnota "MODS" pre záznamy v MODS, hodnota "DC" pre záznam v Dublin Core

 

  Mimetype Mimetype - hodnota "text / xml"  

 

 [2] Pozor: výraz "kapitola" je v tomto kontexte všeobecný a môže vyjadrovať nielen kapitolu, ale tiež napr. predslov, obsah a pod.

Page 19: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

 

8.3.1 Pole MODS a Dublin Core pre jednotlivé časti monografie 

●        ID pri elemente <mods>: Identifikátory budú začínať prefixami: MODS_VOLUME, MODS_SUPPL, MODS_CHAP, MODS_PICT pre MODS, obdobne pre DC. Za tie sa ďalej pridá podčiarkovník a číslo, identifikujúce poradie identifikátora, zarovnané a doplnené o nuly na 4 miesta. Štvormiestne poradové čísla pri ID sú uvedené preto, aby bolo v celom dokumente jednotné číslovanie a jednota. ID teda vyzerá nasledovne:

○        titul monografie (vždy jeden)■        MODSMD_VOLUME_0001■        DCMD_VOLUME_0001

○        príloha (môže ich byť viac)■        MODSMD_SUPPLEMENT_XXXX, kde XXXX je poradové číslo prílohy, naprMODSMD_SUPPLEMENT_0001 je prvá príloha atď.■        DCMD_SUPPLEMENT_XXXX, kde XXXX je poradové číslo prílohy, naprDCMD_SUPPLEMENT_0001 je prvá príloha atď.

○        kapitola (môže byť viac)■        MODSMD_CHAPTER_XXXX, kde XXXX je poradové číslo kapitoly, napríkladMODSMD_CHAPTER_0001 je prvá kapitola atď.■        DCMD_CHAPTER_XXXX, kde XXXX je poradové číslo kapitoly, napríkladDCMD_CHAPTER_0001 je prvá kapitola atď.

○        obrázok (môže ich byť viac)■        MODSMD_PICTURE_XXXX, kde XXXX je poradové číslo obrázku, naprMODSMD_PICTURE_0001 je prvý obrázok atď.■        DCMD_PICTURE_XXXX, kde XXXX je poradové číslo obrázku, naprDCMD_PICTURE_0001 je prvý obrázok atď.

 ●        mapovanie jednotlivých polí  MARCu 21 možno nájsť na jednej z oficiálnych stránok MODS formátu pre jednotlivé top-level elementy:

○        http://www.loc.gov/standards/mods/userguide/generalapp.html●        konverzné šablóny pre prevod z MARCXML do MODS sa nachádzajú na:

○        http://www.loc.gov/standards/mods/mods-conversions.html Obsah stĺpca "Popis":

●        vysvetlenie a príklad●        odporúčané plnenia tam, kde je to možné uviesť●        povinnosť platí rovnako pre elementy MODS, ako aj pre elementy Dublin Core

Page 20: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

●        ak je napr. rodičovský element odporúčaný a dcérsky element je povinný, znamená to, že dcérsky element je povinný len vtedy, ak je použitý element rodičovský

 Význam stĺpca "Povinnosť"

●        pole "Povinnosť" uvádza, či je plnenie jednotlivých elementov povinné, odporúčané alebo voliteľné●        môže nadobúdať nasledujúce hodnoty:

○        M - mandatory (povinné plnenie - element je súčasťou každého záznamu)○        MA - mandatory if available (povinné plnenie pokiaľ je možné ho plniť)○        R - recommended (plnenie hodnôt elementu je odporúčané, nie je však povinné)○        RA - recommended if available (odporúčané pokiaľ je možné ho plniť)○        O - optional (plnenie hodnôt elementu je voliteľné podľa konkrétnych potrieb)

  

8.3.1.1 Pole MODS a DC pre zväzok monografie

Element MODS

Atribúty

Popis Povinnosť Element DC

<mods> ID ID musí vyjadrovať názov úrovne, napr. "MODS_VOLUME_0001"

M  

<titleInfo>   názov zväzku monografie ; pre plnenie použiť katalogizačný záznam

M  

  type type: hodnota "alternative" pre paralelné a iné názvy; zodpovedá poľu 245 podpole "b" (MARC 21)

   

       <title>   názvové informácie - názov zväzku monografiehodnoty prevziať z katalógu, zodpovedá poľu 245, podpoľu "a" (MARC 21)

M <dc.title> 

       <subTitle>

  podnázov zväzku monografie MA <dc.title>

       <partNumber>

  číslo časti, napr.rad / edícia (časť 1, rad B) R <dc:description>

       <partName>

  meno edície alebo špeciálnej edičnej rady, napr. Knihy odvahy a dobrodružstva

R <dc:description>

Page 21: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

<name>   

údaje o zodpovednosti za zväzokPOZOR - údaje o zodpovednosti nutné preberať z polí 1xx a 7xx (MARC21)ak má monografia autora a ilustrátora, element <name> sa opakuje s rôznymi rolami

MA  

  type použiť jednu z hodnôt:- Personal- Corporate- Conference- Family

   

       <namePart>

  údaje o krstnom mene a priezvisku a pod., treba vyjadriť pre krstné meno aj priezviskoak nemožno rozlíšiť krstné meno a priezvisko, neuplatňuje sa type a meno sa zaznamená v podobe, v akej je, do jedného elementu <namePart>

M <dc:creator>nutné do jedného poľa DC spojiť meno aj priezvisko

  type použiť jednu z hodnôt:- Date (RA)- Family (MA)- Given (MA)- TermsOfAddress (RA)

   

       Rola   špecifikácia roly osoby alebo organizácie uvedenej v elemente <name>

M  

              <roleTerm>

  popis roly - nutné použiť kontrol. slovník napr. z MARCu21 M  

  type type: code - kód roly z kontrolovaného slovníka rolí (http://www.loc.gov/marc/relators/relaterm.html)

M  

  authority authority - údaje o kontrolovanom slovníku využitom k popisu roly, k popisu vyššie uvedeného MARC zoznamu je nutné uviesť authority = "marcrelator";

   

<typeOfResource>

  pre monografie hodnota "text";mala by sa vyčítať z návestia katalogizačného záznamu z pozície 06 (MARC21)

R <dc:type> 

<genre>   bližšie údaje o type dokumentuhodnota "volume"

M <dc:type> 

<originInfo>   informácie o pôvode predlohy M  

       <place>   údaje o mieste spojenom s vydaním, výrobou alebo o pôvode popisovaného dokumentu

MA <dc:coverage>

                konkrétne určenie miesta, napr. Praha MA <dc:coverage

Page 22: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

<placeTerm>

zodpovedá údaju z katalogizačného záznamu, pole 260, podpole "a" (MARC21)

  type type - bude vždy text    

       <publisher>

  meno entity, ktorá dokument vydala, vytlačila alebo inak vyprodukovalazodpovedá poľu 260, podpole "b" katalogizačného záznamu (MARC 21);Ak má monografia viac vydavateľov, preberajú sa z katalogizačného záznamu všetci (sú v jednom poli 260).

MA <dc:publisher> 

       <dateIssued>

  dátum vydania predlohy,preberať z katalógu;zodpovedá údaju z katalogizačného záznamu, pole 260, podpole "c" (MARC21)iné dáta než rok možno zapísať v nasledujúcich podobách (bez medzier):- DD.MM.RRRR - ak vieme deň, mesiac aj rok vydania- MM.RRRR - ak vieme len mesiac a rok vydania- RRRR - ak vieme iba rok- DD.-DD.MM.RRRR - vydanie pre viac dní- MM.-MM.RRRR - vydanie pre viac mesiacov

M <dc:date>  

  Qualifier Qualifier - možnosť ďalšieho spresnenia, hodnota "approximate" pre dáta, kde nevieme presný údaj

R  

       <issuance>

  údaje o vydávaníhodnota "monographic"zodpovedá hodnote uvedenej na pozícii 07 v návestí katalogizačného záznamu (MARC21)

M  

<language>   údaje o jazyku dokumentu;v prípade viacnásobného výskytu nutné element <language> opakovať

M  

       <languageTerm>

  presné určenie jazyka – kódomnutné použiť kontrolovaný slovník ISO 639-2, (http://www.loc.gov/standards/iso639-2/php/code_list.php )

M <dc:language> 

  objectPart

objectPart: možnosť vyjadriť jazyk konkrétnej časti zväzku;možné hodnoty napr. summary (pre zhrnutie), originál (pre predlohu prekladu) - nutné vytvoriť kontrolovaný slovník;jazyk resumé možné preberať z poľa 041, podpole "b" (MARC21)jazyk predlohy prekladu možno preberať z poľa 041, podpole "h" (MARC21)

O  

  type type: použiť hodnotu code M  

  authority 

authority: použiť hodnotu "iso639-2b";zodpovedá poľu 041, podpole "a“ (MARC21)

M  

<physicalD   obsahuje údaje o fyzickom popise zdroja / predlohy M  

Page 23: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

escription>

       <form>   údaje o fyzickej podobe dokumentu, napr. print, electronic a pod.pre monografie hodnota printzodpovedá hodnotám pozície 23 a 29 v poli 008 (MARC21)

R <dc:format> 

  authority

authority: hodnota "marcform" M  

     <extent>   údaje o rozsahu (strán, zväzkov alebo rozmerov)zodpovedá hodnotám v poli 300 podpole "a" a "c" (MARC21), ak sú vyplnené obe polia, bude sa element <extent> opakovať;počet strán bude vyjadrený vo fyzickej štrukturálnej mape a bude tak viditeľný v aplikácii sprístupnenie aj bez vyplnenia tohto poľa

RA <dc:format> 

     <note>   poznámka o fyzickom stave dokumentu;pre každú poznámku je nutné vytvoriť nový <note> element

RA  

<abstract>   zhrnutie obsahu ako celkuzodpovedá poľu 520 (MARC21)

R <dc:description> 

<note>   všeobecná poznámka ku zväzku monografie ako celkuzodpovedá poľu 500 (MARC21)

RA <dc:description> 

<subject>   údaje o vecnom triedenípredpokladá sa preberanie z katalogizačného záznamu

R  

  authority

authority: vyplniť hodnotu „sksna“ R  

       <topic>   ľubovoľný výraz špecifikujúci alebo charakterizujúci obsah zväzku monografie;použiť kontrolovaný slovník - napríklad z bázy autorít SNK (vecné témy) alebo obsah poľa 650 (MARC21)

M <dc:subject> 

              <geographic>

  geografické vecné triedeniepoužiť kontrolovaný slovník - napríklad z bázy autorít SNK (geografický termín) alebo obsah poľa 651 (MARC21)

R <dc:subject> 

              <temporal>

  chronologické vecné triedeniepoužiť kontrolovaný slovník - napríklad z bázy autorít SNK (chronologický údaj) alebo obsah poľa 648 (MARC21)

R <dc:subject> 

              <name>

  meno použité ako vecné záhlaviepoužiť kontrolovaný slovník - napríklad z bázy autorít SNK (meno osobné) alebo obsah poľa 600 (MARC21)

R <dc:subject> 

              <namePart>

  celé meno sa zapíše do tohto elementu    

Page 24: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

<classification>

  klasifikačné údaje vecného triedenia podľa Medzinárodného desatinného triedenia zodpovedá poľu 080 (MARC21)

R <dc:subject> 

  authority

authority: vyplniť hodnotu "UDC"    

<relatedItem>

  informácie o ďalších dokumentoch / častiach / zdrojoch, ktoré sú vo vzťahu k popisovanému dokumentu;Poznámkaelement <relatedItem> môže obsahovať akýkoľvek iný element MODS - ich použitie sa riadi pravidlami popísanými pre tieto elementy

RA  

  type type: hodnota "series"    

<identifier>   údaje o identifikátoroch, obsahujú unikátne identifikátory medzinárodné alebo lokálne, ktoré zväzok monografie má - pozri prehľad typov atribútov nižšie

M <dc:identifier> 

  type type: budú sa povinne vypĺňať nasledovné hodnoty, ak existujú:- Doi- HDL - handle- ISSN - prevziať z katalogizačného záznamu SNK - ISBN - prevziať z katalogizačného záznamu SNK - Ccnb - čSNB - prevziať z katalogizačného záznamu SNK - napr.- Urnnbn - pre URN: NBN, napr. zápis v tvare urn: NBN: sk: DIKDA-123456 pre projekt DIKDA; pozor, musí zodpovedať URN: NBN, podľa ktorého je pomenovaný PSP balíček a jeho jednotlivé súbory- UUID - vygeneruje dodávateľ - POVINNÉ- Iný interný identifikátor, hodnota "local", možno použiť napríklad na vyjadrenie čiarového kódu

MA  

<location>   údaje o uložení popisovaného dokumentu, napr. signatúra, miesto uloženia a pod.

MA  

       <URL>   pre uvedenie lokácie elektronického dokumentu O <dc:source> 

  note note: pre poznámku o type URL (na plný text, abstrakt a pod.)

O  

       <physicalLocation>

  údaje o inštitúcii, kde je fyzicky uložený popisovaný dokument, napr. SNKnutné použiť kontrolovaný slovník - zodpovedá poľu 040 (MARC21)Pozn.: pri dokumentoch v digitálnej podobe nie je možné vyplniť

M <dc:source> 

  authority

authority: hodnota "siglaADR" O  

Page 25: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

       <shelfLocator>

  signatúra alebo lokačné údaje o dokumente M <dc:source>

<part>   popis časti, ak je zväzok časťou súboru,element môže byť využitý len na zaznamenanie <caption>

O  

  type type: hodnota bude vždy "volume"    

       <detail>        

              <caption>

  text pred označením čísla, napríklad "č", "časť", "No." a pod. RA  

<recordInfo>

  údaje o metadátovom zázname - jeho vzniku, zmenách a pod.

M  

     <recordContentSource>

  kód alebo názov inštitúcie, ktorá záznam vytvorila alebo zmenila; nutné vytvoriť kontrolovaný slovník

R  

     <recordCreationDate>

  dátum prvého vytvorenia záznamu, na úrovni minút MA  

  encoding

encoding: záznam bude podľa normy ISO 8601 na úrovni minút, hodnota atribútu teda iso8601

MA  

     <recordChangeDate>

  dátum zmeny záznamu R  

  encoding

encoding: záznam bude podľa normy ISO 8601 na úrovni minút, hodnota atribútu teda iso8601

   

     <recordOrigin>

  údaje o vzniku záznamuhodnoty: machine generated alebo human prepared

R  

 

8.3.1.2 Pole MODS a DC pre vnútornú časť monografie (textový oddiel a obraz)

Element MODS Atribúty Popis Povinnosť Element DC

<mods> ID ID musí vyjadrovať názov úrovne, t.j. napr. "MODS_PICTURE_XXXX" pre obrázok v texte, "MODS_CHAPTER_XXXX" pre textový oddiel a pod."XXXX" je poradové číslo kapitoly alebo obrázku napr. . "MODS_PICTURE_0001" bude v ID prvého obrázku atď.

M  

<titleInfo>   názvové informácie vnútornej časti M  

Page 26: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

       <title>   vlastný názov vnútornej časti (oddielu, obrazu);pri obraze brať prípadne z popisku obrazu;pokiaľ nie je titul, nutné vyplniť hodnotu "untitled"

M <dc:title> 

       <subTitle>   podnázov vnútornej časti (oddielu);napr. podnázov kapitoly

MA <dc:title> 

       <partNumber>   číslo vnútornej časti RA <dc:title>

       <partName>   názov vnútornej časti RA <dc:title>

<name>   údaje o zodpovednosti za vnútornú časť (oddielu i obrazu)

MA <dc:creator>nutné do jedného poľa DC spojiť meno aj priezvisko

  type type: použiť jeden z typov:- Personal- Corporate- Conference- Family

   

       <namePart>   údaje o krstnom mene a priezvisku a pod.nutné vyjadriť pre krstné meno aj priezvisko;ak nemožno rozlíšiť krstné meno a priezvisko,neuplatňuje sa type a meno sa zaznamenáv podobe, v akej je, do jedného elementu <namePart>

MA  

  type type: použiť jednu z hodnôt:- Date - odporúčané pokiaľ možno uviesť- Family - povinné pokiaľ možno uviesť- Given - povinné pokiaľ možno uviesť- TermsOfAddress - odporúčané pokiaľ možno uviesť

   

       Rola   špecifikácia roly osoby alebo organizácie uvedenej v elemente <name>

MA  

              <roleTerm>   popis rolynutné použiť kontrol. slovník napr. z MARCu21

MA  

  type type: code - kód roly z kontrolovaného slovníka rolí (http://www.loc.gov/marc/relators/relaterm.html )

   

  authority authority - údaje o kontrolovanom slovníku využitom k popisu roly, k popisu vyššie uvedeného MARC zoznamu nutné uviesť authority = "marcrelator"

   

<genre>   bližšie údaje o type vnútornej častipovinné

M <dc:type> 

Page 27: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

hodnota: "chapter" alebo "picture"

  type type: odporúčané R  

    hodnota pre chapter - možnosť vyplniť bližšie určenie typu oddielu (možnosť použiť DTD monografie, MonographComponentPart Types):- Table of content- Advertisement- Abstract- Introduction- Review- Dedication- Bibliography- EditorsNote- Prefácie- Chapter- Article- Index (použije sa pre všetky typy zoznamov mimo hlavný obsah; napr. zoznam obrazov, tabuliek)- Unspecified - ak nepatrí ani do jednej z vyššie uvedených kategórií

   

    hodnota pre picture - možnosť vyplniť ďalšie určenie typu obrazu:- Table- Illustration- Chart- Photograph- Graphic- Map- Advertisement- Cover- Unspecified - ak nepatrí ani do jednej z vyššie uvedených kategórií

   

<language>   údaje o jazyku vnútornej častinemožno vyplniť pri obrazovom formáte;v prípade viacnásobného výskytu nutné element <language> opakovať

MA  

       <languageTerm>   presné určenie jazyka – kódomnutné použiť kontrolovaný slovník ISO 639-2, (http://www.loc.gov/standards/iso639-2/php/code_list.php ) nemožno vyplniť pri obrazovom formáte

M <dc:language> 

  type type: použiť hodnotu code    

  authority authority: použiť hodnotu "iso639-2b"    

<physicalDescription>   obsahuje údaje o fyzickom popise vnútornej časti;

R  

Page 28: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

určené skôr pre oddiely ako pre obrazy

       <form>   údaje o fyzickej podobe vnútornej časti, napr. print, electronic a pod.

R <dc:format>

  authority authority: hodnota "marcform"    

<abstract>   zhrnutie obsahu vnútornej časti R <dc:description>

<note>   všeobecná poznámka k vnútornej časti;v poznámke by sa mala uvádzať šifra autora vnútornej časti, ktorá sa vyskytuje pod vnútornou časťou

RA <dc:description>

<subject>   údaje o vecnom triedení R  

       <topic>   ľubovoľný výraz špecifikujúci alebocharakterizujúci obsah vnútornej časti;možné (nie je však nutné) použiť kontrolovaný slovník

M <dc:subject> 

  authority Napríklad z bázy autorít SNK pri použití autoritatívnych záznamov použiť SNK a atribút authority:pri použití voľných kľúčových slov atribút authority nepoužívať

O  

       <geographic>   geografické vecné triedeniepoužiť kontrolovaný slovník - napríklad z bázy autorít SNK (geografický termín)

R <dc:subject> 

  authority authority: R  

       <temporal>   chronologické vecné triedeniepoužiť kontrolovaný slovník - napríklad z bázy autorít SNK (chronologický údaj)

R <dc:subject> 

  authority authority: vyplniť hodnotu „sksna“ R  

       <name>   meno použité ako vecné záhlaviepoužiť kontrolovaný slovník - napríklad z bázy autorít SNK (osobné meno)

R <dc:subject> 

  authority authority: vyplniť hodnotu „sksna“    

              <namePart>   celé meno sa zapíše do tohto elementu    

<classification>   klasifikačné údaje vecného triedenia podľa Medzinárodného desatinného triedeniaplniť iba pre oddielzodpovedá poľu 080 (MARC21)

RA <dc:subject> 

  authority authority: vyplniť hodnotu "UDC"    

<identifier>   údaje o identifikátoroch, obsahujú unikátne M <dc:identifier>

Page 29: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

identifikátory medzinárodné alebo lokálne, ktoré vnútorná časť má - pozri prehľad typov atribútov nižšie

povinné

  type type: budú sa povinne vypĺňať nasledovné hodnoty, ak existujú pre oddiel alebo obraz:- UUID - vygeneruje dodávateľ - POVINNÉ- Urnnbn - pre URN: NBN, pri vnútorných častiach monografií sa s URN: NBN počíta primárne pre články v zborníku, nie pre "obyčajné" kapitoly- Doi- HDL - handle-Iný interný identifikátor, hodnota atribútu "local", možno použiť napríklad na vyjadrenie čiarového kódu

MA  

<part>   vrchný element, ktorý bude použitý len na záznam rozsahu vnútornej časti;nemožno použiť pri obraze

RA  

       <extent>   spresnenie popisu časti - rozsah na stranách MA <dc:format>

              <Start>   prvá strana, na ktorej začína vnútorná časť MA <dc:coverage>

              <end>   posledná strana, na ktorej končí vnútorná časť MA <dc:coverage>

<recordInfo>   údaje o metadátovom zázname vnútornej časti – o jeho vzniku, zmenách a pod.

M  

     <recordContentSource>

  kód alebo názov inštitúcie, ktorá záznam vytvorila alebo zmenila; nutné vytvoriť kontrolovaný slovník

R  

       <recordCreationDate>

  dátum prvého vytvorenie záznamu vnútornej časti

M  

  encoding encoding: záznam bude podľa normy ISO 8601 na úrovni minút, hodnota atribútu teda iso8601

   

       <recordChangeDate>

  dátum zmeny záznamu vnútornej časti R  

  encoding encoding: záznam bude podľa normy ISO 8601 na úrovni minút, hodnota atribútu teda iso8601

   

       <recordOrigin>   údaje o vzniku záznamu vnútornej častihodnoty: machine generated alebo human prepared

R  

         

  

Page 30: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

8.3.1.3 Pole MODS a DC pre prílohu

Element MODS

Atribúty

Popis Povinnosť

Element DC

<mods> ID ID musí vyjadrovať názov úrovne, t.j. "MODS_SUPPLEMENT_XXXX", kde XXXX je poradové číslo prílohy, napr. "MODS_SUPPLEMENT_0001" je prvá príloha atď.

M  

<titleInfo>   názvové informácie prílohypoužiť názvové autority alebo katalogizačný záznam

   

       <title>   názvové informácie - názov zväzku monografie, ktorého súčasťou príloha je;prevziať z katalógu

M <dc:title> 

       <partNumber>

  číslo prílohy, ak nejaké má;odporúčané pokiaľ ho možno vyplniť

MA <dc:description>

       <partName>

  názov prílohy MA <dc:title>

<name>   údaje o zodpovednosti za prílohu MA  

  type type: použiť jeden z typov:- Personal- Corporate- Conference- Family

M  

       <namePart>

  údaje o krstnom mene a priezvisku a pod.nutné vyjadriť pre krstné meno aj priezvisko;ak nemožno rozlíšiť krstné meno a priezvisko, neuplatňuje sa type a meno sa zaznamená v podobe, v akej je, do jedného elementu <namePart>

M <dc:creator>nutné do jedného poľa DC spojiť meno aj priezvisko

  type použiť jednu z hodnôt:- Date - odporúčané pokiaľ možno uviesť- Family - povinné pokiaľ možno uviesť- Given - povinné pokiaľ možno uviesť- TermsOfAddress - odporúčané pokiaľ možno uviesť

   

       Rola   špecifikácia roly osoby, alebo organizácie uvedenej v elementu <name>

MA  

              <roleTerm>

  popis rolynutné použiť kontrol. slovník napr. z MARCu21

MA  

Page 31: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

  type 

type: code - kód roly z kontrolovaného slovníka rolí (http://www.loc.gov/marc/relators/relaterm.html )

M  

  authority

authority - údaje o kontrolovanom slovníku využitom pri popise roly, k popisu vyššie uvedeného MARC zoznamu nutné uviesť authority = "marcrelator"

R  

<typeOfResource>

  opis charakteristiky typu, alebo obsahu prílohyjedna z hodnôt:  - Text – napr. pre prílohu typu časopis, kniha, brožúra a pod.- Cartographic - pre mapy- Notated music- Sound recording-musical - pre hudobné CD / DVD- Sound recording-nonmusical- Sound recording- Still image - fotografie, plagáty a pod- Moving image - pre filmové DVD- Three dimensional object- Software, multimedia - pre CD / DVD so SW- Mixed material

R <dc:type>

<genre>   bližšie údaje o type dokumentuhodnota: supplement

M <dc:type> 

<originInfo>   informácie o pôvode prílohyplniť ak sa líši od údajov v popise zväzku monografie (platí aj pre jednotlivé sub-elementy)Poznámka:Jeden alebo viac výskytov elementov sa predpokladá pre vydavateľa, ďalší výskyt v prípade nutnosti popísať tlačiarov. Ak je nutné vyjadriť tlačiarov (pole 260 podpole "f" a "e" a "g" v MARCu21), je nutné element <originInfo> opakovať s atribútom Transliteration = "printer" a elementy <place>, <publisher>, <dateCreated >, ktoré budú obsahovať údaje o tlačiaroch.

MA  

       <place>   údaje o mieste spojenom s vydaním, výrobou alebo pôvodom prílohy

MA <dc:coverage> 

              <placeTerm>

  konkrétne určenie miesta, napr. Martin,zodpovedá údajom v katalogizačnom zázname, pole 260, podpole "a" (MARC21)

MA <dc:coverage> 

  type type - bude vždy text    

Page 32: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

       <publisher>

  meno entity, ktorá prílohu vydala, vytlačila alebo inak vyprodukovalazodpovedá údajom v katalogizačnom zázname - poľu 260 podpole "b" (MARC21)

MA <dc:publisher> 

       <dateIssued>

  dátum vydania prílohy, podľa toho aké údaje sú k dispozíciimožno použiť údaje z katalogizačného záznamu, pole 260, podpole "c" (MARC21)iné dáta než rok možno zapísať v nasledujúcich podobách:- DD.MM.RRRR - ak vieme deň, mesiac aj rok vydania- RRRR - ak vieme iba rok- MM.RRRR - ak vieme len mesiac a rok vydania- DD.-DD.MM.RRRR - vydanie pre viac dní- MM.-MM.RRRR - vydanie pre viac mesiacov

MA <dc:date> 

  Qualifier

Qualifier - možnosť ďalšieho spresnenia, hodnota "approximate" pre dáta, kde nevieme presný údaj

O  

       <dateCreated>

  dátum vytvorenia prílohybude použité iba pri popise tlačiarov, pozri poznámku pri elemente <originInfo> alebo napr. pri popise CD / DVD a pod.zodpovedá údajom z katalogizačného záznamu, pole 260, podpole "g" (MARC21)

R  

  Qualifier

Qualifier - možnosť ďalšieho spresnenia, hodnota "approximate" pre dáta, kde nevieme presný údaj

R  

       <frequency>

  údaje o pravidelnosti vydávaniazodpovedá údajom z poľa 310 alebo pozícii 18 v poli 008 (MARC21)

RA  

<language>   údaje o jazyku dokumentu M  

       <languageTerm>

  presné určenie jazyka - kódomnutné použiť kontrolovaný slovník ISO 639-2, (http://www.loc.gov/standards/iso639-2/php/code_list.php )

M <dc:language> 

  type type: použiť hodnotu code M  

  authority

authority: použiť hodnotu "iso639-2b" M  

<physicalDescription>

  obsahuje údaje o fyzickom popise M  

Page 33: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

       <form>   údaje o fyzickej podobe dokumentu, napr. print, electronic a pod.povinnépre tlačené predlohy hodnota "print", pre elektronické prílohy hodnota "electronic"zodpovedá hodnotám pozícií 23 a 29 v poli 008 (MARC21)

M <dc:format> 

  authority

authority: hodnota "marcform" R  

       <extent>   údaje o rozsahu (strán, zväzkov alebo rozmerov);zodpovedá údajom v poli 300 podpole "a" a "c" (MARC21), ak sú vyplnené obe polia, bude sa element <extent> opakovať

RA <dc:format> 

       <note>   poznámka o fyzickom stave dokumentu;pre každú poznámku je nutné vytvoriť nový <note> element

RA  

<abstract>   zhrnutie obsahu dokumentuzodpovedá poľu 520 (MARC21)

RA <dc:description>

<note>   všeobecná poznámka k dokumentuzodpovedá poľu 500 (MARC21)

RA <dc:description>

<subject>   údaje o vecnom triedení R  

  authority

authority: vyplniť hodnotu "sksna" R  

       <topic>   ľubovoľný výraz špecifikujúci alebocharakterizujúci obsah prílohy;použiť kontrolovaný slovník - napríklad z bázy autorít SNK (vecná téma)

M <dc:subject> 

Page 34: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

       <geographic>

  geografické vecné triedeniepoužiť kontrolovaný slovník - napríklad z bázy autorít SNK (geografický termín)

R <dc:subject> 

       <temporal>

  chronologické vecné triedeniepoužiť kontrolovaný slovník - napríklad z bázy autorít SNK (chronologický údaj)

R <dc:subject> 

       <name>   meno použité ako vecné záhlaviepoužiť kontrolovaný slovník - napríklad z bázy autorít SNK (osobné meno)

R <dc:subject>

              <namePart>

  celé meno sa zapíše do tohto elementu R  

<classification>

  klasifikačné údaje vecného triedenia podľa Medzinárodného desatinného triedeniazodpovedá poľu 080 (MARC21)

R <dc:subject>

  authority

authority: vyplniť hodnotu "UDC"    

<identifier>   údaje o identifikátoroch, obsahuje unikátne identifikátory, medzinárodné alebo lokálne, ktoré príloha má - pozri prehľad typov atribútov nižšie

MA <dc:identifier>

Page 35: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

  type type: budú sa povinne vypĺňať nasledovné hodnoty, ak existujú:- Doi- HDL - handle- ISSN - prevziať z katalogizačného záznamu SNK - ISBN - prevziať z katalogizačného záznamu SNK - Ccnb - čSNB - prevziať z katalogizačného záznamu SNKnapr.- Urnnbn - pre URN: NBN- UUID - vygeneruje dodávateľ - POVINNÉ- Iný interný identifikátor, hodnotu atribútu "local", možno použiť napríklad na vyjadrenie čiarového kódu

M  

 8.4 METS časť <amdSec> - Technické a administratívne metadáta – formáty MIX a premis  

●        pre všetky digitalizované dáta sa budú využívať formát premis (jeho časti object, event a agent), pre obrazové dáta ďalej aj formát MIX●        technické a administratívne metadáta budú zabalené v časti <amdSec> formáte METS vo vlastných formátoch (MIX, premis - časti object; events; agent)●        technické a administratívne metadáta budú vznikať aj pre prvotné skeny (väčšinou TIFF), ktoré sa po potrebných úpravách mažú a ďalej neuchovávajú

○        technické metadáta sú určené primárne pre zachytenie technických informácií o formátoch súborov, o výsledkoch validácie a kontrol○        administratívne metadáta zachytávajú všetky zmeny, procesy a pod., ktoré boli v dátach i metadátach vykonané

●        technické metadáta prichádzajúce z digitalizácie sú ďalej v maximálnej miere ukladané v LTP systéme (po namapovanie do interného formátu LTP systému)●        všetky premis záznamy budú vo vedľajšom METS zázname (AMD_METS.xml), ktorý je určený pre administratívne a technické metadáta (spolu s MIX záznamy).●        celý METS záznam (AMD_METS.xml) je linkovaný z hlavného METS záznamu dokumentu●        <amdSec> časť bude existovať vždy jedna pre všetky reprezentácie jednej strany dokumentu (MC, ALTO XML, OCR.TXT) a bude obsahovať metadáta v <techMD> a <digiprovMD> podcastov●        časť <amdSec> musí mať ID a vnorený element <techMD> alebo <digiprovMD>, oba s ID a vnoreným elementom <mdWrap> s atribútom MDTYPE

   

Page 36: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

Element Atribúty Popis Povinnosť

<amdSec>   element obsahujúci technické metadáta vo formáte premis alebo MIX

M

  ID ID - identifikátor konkrétnej časti <amdSec>, napr. pre stranu 1 hodnota "PAGE0001", pre stranu 2 "PAGE0002" atď.

 

                          <techMD>                          alebo                          <digiprovMD>

  element rozlišujúci typy jednotlivých administratívnych metadát

M

  ID ID pre časť <techMD>:

 

    - Pre časti obsahujúce premis Object hodnota:

○        

"OBJ_001" - objekt 1 (premis Object pre vymazaný TIFF),○        

"OBJ_002" pre MC,○        

"OBJ_003" pre ALTO XML

 

    - Pre časti obsahujúce MIX hodnotu:

○        

"MIX_001" = MIX metadáta pre pôvodné TIFF,○        

"MIX_002" pre MC

 

    ID pre časť <digiprovMD>:

 

Page 37: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

    - Pre časti obsahujúce premis Event hodnota:

○        

"EVT_001" atď.

- Pre časti obsahujúce premisu Agent hodnotu

○        

"AGENT_001" atď.

 

       <mdWrap>

  element obsahujúci vložené záznamy premis, MIX

M

  MDTYPE 

MDTYPE- Pre záznamy premis object, event aj agent vždy hodnota "premis"pre záznamy MIX hodnota "NISOIMG"

 

 Príklad:

 <mets:amdSec ID="PAGE0001">    <mets:techMD ID="OBJ_001">      <mets:mdWrap MDTYPE="PREMIS" MIMETYPE="text/xml">                   <mets:xmlData>                    ...                   </ Mets: xmlData>      </ Mets: mdWrap>    </ Mets: techMD>    <mets:techMD ID="MIX_001">      <mets:mdWrap MDTYPE="NISOIMG" MIMETYPE="text/xml">        <mets:xmlData>                   ...        </ Mets: xmlData>      </ Mets: mdWrap>    </ Mets: techMD>              <mets:digiprovMD ID="EVT_001">      <mets:mdWrap MDTYPE="PREMIS" MIMETYPE="text/xml">        <mets:xmlData>                   ...        </ Mets: xmlData>      </ Mets: mdWrap>    </ Mets: digiprovMD>    <mets:digiprovMD ID="AGENT_001">                <mets:mdWrap MDTYPE="PREMIS" MIMETYPE="text/xml">        <mets:xmlData>                   ...

Page 38: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

        </ Mets: xmlData>      </ Mets: mdWrap>    </ Mets: digiprovMD>  </ Mets: amdSec> 

 

8.4.1 premis Object●        bude zodpovedať poslednej aktuálnej verzii v dobe implementácie projektu , alebo verzii predchádzajúcej●        pomocou premis Object sa budú popisovať súbory, t.j. podľa špecifikácie premis vždy úroveň tzvFile (nie reprezentácia ani bitstream)●        záznam v premis Object sa bude vytvárať pre každý súbor 1) vzniknutý v procese digitalizácie (pôvodný sken, ktorý sa ďalej maže)2) archívne obrazové kópie3) ALTO XML, OCR.TXT4) užívateľská kópia●        Premis Object sa nebude vytvárať pre OCR.TXT súbory●        pre každý záznam premis Object bude existovať vlastná podčasť <techMD>●        záznam premis Object pre jeden súbor bude obsahovať linky na udalosti, ktoré sú popísané v premis Events v rovnakom METS metadátovom zázname konkrétneho dokumentu (zväzku monografie) v časti <digiprovMD>; cez <premis:relatedEventIdentification>, to isté platí pre objekty, ktoré budú nalinkované v prípade vzťahu (napr. UC vznikla z MC) s popisovaným objektom cez <premis:relatedObjectIdentification>.

○        napr. Premis Object popisujúci archívne súbory JPEG2000 je týmto spôsobom nalinkovaný na pôvodný sken vo formáte TIFF (resp. na jeho premisa Object záznam) - pomocou tagu <relatedObjectIdentification>, ktorý obsahuje ID pôvodného objektu (napr. TIFF)○        zároveň pomocou tagu <relatedEventIdentification> je záznam premisa Object archívneho súboru JPEG2000 nalinkovaný na udalosť, počas ktorej vznikol

●        POZOR - premis Object bude vznikať a uchovávať sa aj pre neexistujúce dáta (pôvodné a neskôr vymazané súbory TIFF)

  Obsah poľa "Popis":

●        vysvetlenie a príklad●        odporúčané plnenia tam, kde je to možné●        výskyt elementu (ako je definované formátom premis - podľa XSD)

○        0-1 element je voliteľný, neopakovateľný○        0-n element je voliteľný, opakovateľný○        1-n element je povinný a opakovateľný○        element je povinný a neopakovateľný

Page 39: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

 Význam pola "Povinnosť"

●        pole "Povinnosť" uvádza, či je plnenie jednotlivých elementov povinné, odporúčané alebo voliteľné●        môže nadobúdať nasledujúce hodnoty

○        M - mandatory (povinne plniť - element je súčasťou každého záznamu)○        MA - mandatory if available (povinne plniť pokiaľ je to možné, ak možno a pod.)○        R - recommended (plnenie hodnôt elementu je odporúčané, nie je však povinné)○        RA - recommended if available (odporúča pokiaľ je ich možné plniť)○        O - optional (plnenie hodnôt elementu je voliteľné podľa konkrétnych potrieb)

 Obsah poľa "Použitie pre"

●        použitie jednotlivých elementov pre popis MC, PS (pôvodné skeny), XML (ALTO)

 

Element Popis Použitie pre

Povinnosť

<objectIdentifier> identifikátor k jednoznačnému odlíšeniu objektu v určitom kontexte;1-n

MC, XML, PS

M

   <objectIdentifierType> popis kontextu, v ktorom je identifikátor unikátny, napr. DIKDA, ANL alebo názov repozitára; nutné použiť kontrolovaný slovník;1-1

MC, XML, PS

M

   <objectIdentifierValue> vlastná hodnota identifikátora, napr. img0001-master, urn.nbn.cz-123465 a pod.;1-1

MC, XML, PS

M

<objectCategory> typ objektu, ku ktorému sa metadáta (premisa Object) vzťahujú, napr. file pre súbor, representation pre dig. reprezentáciu, bitstream pre bitstream;1-1

MC, XML, PS

M

<preservationLevel> údaje o úrovni ochrany súboru, ktorá sa naň vzťahuje; niektoré súbory nie sú tak dôležité ako iné, majú menšiu úroveň ochrany;0-n

MC, XML, PS

M

   <preservationLevelValue> hodnota úrovne ochrany, ktorá je pre súbor relevantná, pre pôvodný sken PS hodnota deleted, pre MC a XML hodnota preservation;1-1

MC, XML, PS

M

Page 40: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

   <preservationLevelDateAssigned>

dátum, kedy bola priradená hodnota úrovne ochrany, zápis v ISO 8601, na úrovni dňa (DD-MM-RRRR)0-1

MC, XML, PS

R

<objectCharacteristics> technické údaje o súbore1-n

MC, XML, PS

M

   <compositionLevel> údaj o tom, či je potrebné digitálny objekt rozbaliť alebo dekódovať; napr. 0 (defaultne pre žiadne zabalenie alebo kódovanie); 1 pre jedno zabalenie a kódovanie, podobne potom hodnota 2;1-1

MC, XML, PS

M

   <fixity> údaje o kontrolnom súčte0-n

MC, XML, PS

M

      <messageDigestAlgorithm> použitý algoritmus kontrolného súčtu, napr. MD5 ai1-1

MC, XML, PS

M

      <messageDigest> hodnota kontrolného súčtu1-1

MC, XML, PS

M

      <messageDigestOriginator> agent (osoba, inštitúcia, stroj, SW), ktorý kontrolný súčet vytvoril (napr. JHOVE a pod.)0-1

MC, XML, PS

M

   <size> údaje o veľkosti súboru v bytoch0-1

MC, XML, PS

M

   <format> údaje o formáte súboru1-n

MC, XML, PS

M

      <formatDesignation> identifikácia formátu súboru, výstup z JHOVE, PRONOM služieb a pod.0-1

MC, XML, PS

M

         <formatName> meno formátu, napr. image / tiff alebo Adobe PDF1-1

MC, XML, PS

M

         <formatVersion> verzia formátu, napr. 6.00-1

MC, XML, PS

M

      <formatRegistry> identifikácia formátu - dodatočnéá informácie o zázname formátov v registroch formátov (napr. PRONOM ai.)

MC, XML, PS

M

Page 41: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

0-1

         <formatRegistryName> meno použitého registra formátov, napr. UDFR, PRONOM a iné1-1

MC, XML, PS

M

         <formatRegistryKey> unikátny identifikátor (označenie) formátu v registri, napr. fmt/155 z PRONOM1-1

MC, XML, PS

M

   <creatingApplication> údaje o aplikácii, v ktorej bol popisovaný súbor vytvorený; nutné popísať skener, SW kde vzniklo ALTO XML / TXT, SW / kodek pre vytvorenie JPEG2000 MC0-n

MC, XML, PS

M

         <creatingApplicationName> názov aplikácie, napr. ImageGear, Kakadu a pod.;0-1

MC, XML, PS

M

         <creatingApplicationVersion>

verzia aplikácie, napr. 15.03.0000-1

MC, XML, PS

M

         <dateCreatedByApplication> dátum a čas vytvorenia, napr. 2008-11-10T12: 37:46; musí byť v tvare ISO 8601 (na úrovni sekúnd);0-1

MC, XML, PS

M

<originalName> pôvodné meno súboru, napr. digibok_2007081301091_0011.jp20-1

MC, XML, PS

M

<relationship> vyjadrenie vzťahu popisovaného súboru k iným súborom a udalostiam (events)0-n

MC, XML

M

   <relationshipType> typ vzťahu, odporúčané hodnoty: derivation = vzťah kde objekt je výsledkom zmeny iného objektu; structural = vzťah medzi časťami objektu;napr. ALTO vytvorené z TIFF bude mať vzťah derivation, podobne ako JPEG2000 z TIFF vytvorený;1-1

MC, XML;

M

   <relationshipSubType> spresnenie vzťahu, odporúčané hodnoty: created from; has source; is source of; has Sibling; has part; is part of; has root; includes; is included in; a pod.;napr. ALTO alebo JPEG2000 vytvorený z pôvodného TIFF budú mať vzťah "CREAT ed from"1-1

MC, XML;

M

   <relatedObjectIdentification> identifikácia súvisiaceho súboru MC, M

Page 42: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

1-npre MC, XML pre vyjadrenie vzťahu k pôvodnému objektu (skenu)

XML

      <relatedObjectIdentifierType> špecifikácia kontextu, v ktorom je identifikátor súboru jedinečný, napr. URN; temporary filepath; objectID1-1

MC, XML

M

      <relatedObjectIdentifierValue> vlastný reťazec identifikátora, napr. URN: NBN: sk-1301091_011 # 0001 alebo názov súboru, cesta k súboru a pod.1-1

MC, XML

M

   <relatedEventIdentification> identifikácia s popisovaným súborom súvisiace udalosti (eventu); zoznam udalostí pozri premis event0-n

MC, XML

M

      <relatedEventIdentifierType> typ udalosti, napr. interný číslovací systém udalostí ako no.nb.evt; NK repository event ID, UUID a pod.1-1

MC, XML

M

      <relatedEventIdentifierValue> hodnota identifikátora udalosti, napr. NK_EVT_005 alebo hodnota UUID ai.1-1

MC, XML

M

      <relatedEventSequence> poradie udalosti, napr. 003; na určenie poradia je možné určiť dátum udalosti0-1

MC, XML

R

<linkingEventIdentifier> identifikátor udalosti týkajúcej sa pôvodného skenu PS; typy udalostí môžu byť napr. vytvorenie, zmazanie0-npre PS nutný link na udalosti vytvorenie (digitalizácia) a jeho vymazanie

PS M

   <linkingEventIdentifierType> typ identifikátora udalosti, napr. UUID, NK_eventID, vlastné číslovacie systém a pod.1-1

PS M

Page 43: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

   <linkingEventIdentifierValue> hodnota identifikátora, napr. event_01; img0001-master-event001 a pod.1-1

PS M

   Príklad (premis Object pre pôvodné zmazaný sken): <premis:object xsi:type="premis:file" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:premis="info:lc/xmlns/premis-v2">   <premis:objectIdentifier>                <premis:objectIdentifierType> EE_Sirius_DIKDA_FileID </ premís: objectIdentifierType>                <premis:objectIdentifierValue> 614 </ premís: objectIdentifierValue>   </ Premís: objectIdentifier>   <premis:objectCategory> file </ premís: objectCategory>   <premis:preservationLevel>                <premis:preservationLevelValue> deleted </ premís: preservationLevelValue>      <premis:preservationLevelDateAssigned> 2012-01-26T13: 49:25 </ premís: preservationLevelDateAssigned>   </ Premís: preservationLevel>   <premis:objectCharacteristics>                <premis:compositionLevel> 0 </ premís: compositionLevel>                <premis:fixity>                   <premis:messageDigestAlgorithm> MD5 </ premís: messageDigestAlgorithm>                   <premis:messageDigest> 437d2c0462dfe2fb276bf0e4f86eeea1 </ premís: messageDigest>                   <premis:messageDigestOriginator> Elsyst Engineering </ premís: messageDigestOriginator>                </ Premís: fixity>      <premis:size> 19535558 </ premís: size>                <premis:format>                   <premis:formatDesignation>                      <premis:formatName> image / tiff </ premís: formatName>                      <premis:formatVersion> 42 </ premís: formatVersion>                   </ Premís: formatDesignation>                   <premis:formatRegistry>            <premis:formatRegistryName> PRONOM </ premís: formatRegistryName>            <premis:formatRegistryKey> x-cmp/12 </ premís: formatRegistryKey>                   </ Premís: formatRegistry>                </ Premís: format>

Page 44: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

                <premis:creatingApplication>                   <premis:creatingApplicationName> INSERTDOCUMENTSTOSIRIUS                   </ Premís: creatingApplicationName>                   <premis:creatingApplicationVersion> 1.0.0.0                   </ Premís: creatingApplicationVersion>                   <premis:dateCreatedByApplication> 2011-11-30T07: 22:00                   </ Premís: dateCreatedByApplication>      </ Premís: creatingApplication>   </ Premís: objectCharacteristics>   <premis:originalName> D: \ Test-Virtual \ Vystúp \ ivo_import \ náhľadu \ B300C__161289.tif   </ Premís: originalName>   <premis:linkingEventIdentifier>      <premis:linkingEventIdentifierType> EE_Sirius_DIKDA_ANLs_LoggingID                </ Premís: linkingEventIdentifierType>                <premis:linkingEventIdentifierValue> 1700 </ premís: linkingEventIdentifierValue>   </ Premís: linkingEventIdentifier></ Premís: object> 

8.4.2 premis Event●        bude zodpovedať poslednej aktuálnej verzii v dobe implementácie, alebo predchádzajúcej verzii●        Premisa Event záznamy zhromažďujú informácie o procesoch a udalostiach, ktoré sa týkajú jedného alebo viacerých objektov, v našom prípade súborov. Primárne použitie je na zaznamenanie udalostí, ktoré popisovaný súbor menia alebo upravujú.●        bude vznikať v súvislosti s udalosťami, ktoré sa robili na obrazových dátach

○        digitalizácia - vytvorenie prvého skenu (napr. do TIFF)○        vytvorenie ALTO XML○        vygenerovanie MC○        vygenerovanie UC○        vymazanie PS

●        opis udalostí bude zachytávať informácie o ich výsledku / výstupe●       záznamy premisa Event budú uložené v METS zázname určenom pre administratívne a technické metadáta (AMD_METS.xml) v jeho časti <amdSec>, podčasť <digiprovMD>

○        AMD_METS.xml je linkovaný z hlavného METS záznamu dokumentu●        pre každú udalosť bude vytvorená jedna <digiprovMD> časť

●        každý záznam premisa Event je linkovaný na pôvodcu aktivity – t.j. na premisa Agent záznam

 Obsah poľa "Popis":

●        vysvetlenie a príklad●        odporúčané plnenia tam, kde je to možné●        výskyt elementu (ako je definované formátom premis - podľa XSD)

Page 45: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

○        0-1 element je voliteľný, neopakovateľný○        0-n element je voliteľný, opakovateľný○        1-n element je povinný a opakovateľný○        element je povinný a neopakovateľný

 Význam pole "Povinnosť"

●        pole "Povinnosť" uvádza, či je plnenie jednotlivých elementov povinné, odporúčané alebo voliteľné●        môže nadobúdať nasledujúce hodnoty:

○        M - mandatory (povinne plniť - element je súčasťou každého záznamu)○        MA - mandatory if available (povinne plniť pokiaľ je to možné, ak možno a pod.)○        R - recommended (plnenie hodnôt elementu je odporúčané, nie je však povinné)○        RA - recommended if available (odporúča pokiaľ možno plniť)○        O - optional (plnenie hodnôt elementu podľa konkrétnych potrieb)

 Pole záznamu premis Event

Element Popis Povinnosť

<eventIdentifier> údaje identifikátora udalosti v kontexte digitalizácie alebo repozitára1-1

M

   <eventIdentifierType> typ identifikátora, napr. no.nb.evt; NK_eventID, UUID a pod.1-1

M

   <eventIdentifierValue> hodnota identifikátora, napr. EVT_001; event_019 a pod.1-1

M

<eventType> kategorizácie udalosti, nutné použiť kontrolovaný slovník; typy udalostí, ktoré musia byť zaznamenané: capture, migration, derivation, deletion1-1

M

<eventDateTime> dátum a čas kedy bola udalosť vykonaná; nutné zapísať v ISO 8601 na úrovni sekúnd1-1

M

<eventDetail> ďalšie údaje o udalosti, odporúčané hodnoty pre vyššie uvedené <eventType> nasledujú za /:- Capture / digitization - vznik prvého skenu- Capture / XML_creation- Capture / TXT_creation- Migration / MC_creation- Derivation / UC_creation- Deletion / PS_deletion0-1

M

Page 46: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

<eventOutcomeInformation> informácie o výsledku udalosti0-n

R

   <eventOutcome> kategorizácie výsledku udalosti, napr. slovami ako successful alebo failure, možné použiť kódy - nutné používať kontrolovaný slovník alebo zoznam kódov0-1

M

<linkingAgentIdentifier> identifikácia jedného alebo viacerých agentov spojených s udalosťou0-n

M

   <linkingAgentIdentifierType> označenie typu identifikátora, napr. NK_AgentID, UUID a pod.1-1

M

   <linkingAgentIdentifierValue>

hodnota identifikátora, napr. agent_softwareName_5.2; agent_novakJ a pod.1-1

M

   <linkingAgentRole> rola agenta vo vzťahu k udalosti, napr. softvér; SW component; operator; nutné používať kontrolovaný slovník0-n

R

<linkingObjectIdentifier> informácie o objekte / súbore spojenom s udalosťou, link na naň0-n

M

   <linkingObjectIdentifierType>

označenie typu identifikátora, napr. PhysUnitID; URN, NK_OBJ, OBJ_001 a pod.; hodnoty by sa mali preberať z kontrolovaného slovníka1-1

M

   <linkingObjectIdentifierValue>

hodnota identifikátora, napr. URN: NBN: sk-_0011 # 0001 ai.1-1

M

 Príklad (Udalosť - nadobudnutie pôvodného skenu): <premis:event xmlns:premis="info:lc/xmlns/premis-v2">   <premis:eventIdentifier>      <premis:eventIdentifierType> EE_Sirius_DIKDA_ LoggingID      </ Premís: eventIdentifierType>      <premis:eventIdentifierValue> 1700 </ premís: eventIdentifierValue>   </ Premís: eventIdentifier>   <premis:eventType> creation </ premís: eventType>   <premis:eventDateTime> 2011-11-30T08: 24:34 </ premís: eventDateTime>   <premis:eventDetail> capture / digitization </ premís: eventDetail>   <premis:eventOutcomeInformation>      <premis:eventOutcome> succeessful </ premís: eventOutcome>   </ Premís: eventOutcomeInformation>   <premis:linkingAgentIdentifier>

Page 47: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

      <premis:linkingAgentIdentifierType> EE_Sirius_DIKDA_UserID      </ Premís: linkingAgentIdentifierType>      <premis:linkingAgentIdentifierValue> 1 </ premís: linkingAgentIdentifierValue>              <premis:linkingAgentRole> operator </ premís: linkingAgentRole>   </ Premís: linkingAgentIdentifier>   <premis:linkingObjectIdentifier>     <premis:linkingObjectIdentifierType> EE_Sirius_DIKDA_ FileID      </ Premís: linkingObjectIdentifierType>                <premis:linkingObjectIdentifierValue> 614 </ premís: linkingObjectIdentifierValue>   </ Premís: linkingObjectIdentifier></ Premís: event>

 

 

8.4.3 premis Agent 

●        bude zodpovedať poslednej aktuálnej verzii v dobe implementácie, alebo verzii predchádzajúcej●        využitie premis Agent sa predpokladá pre tzv. ochranné aktivity, ktoré prebiehajú na archívnych dátach (AIP balíček) a je nutné mať pre každú udalosť na týchto dátach presnejšie informácie o tom, kto ju vykonal (osoba administrátora alebo oprávnenej osoby)

○        informácie v premis Event a premis Object prichádzajúce z procesu digitalizácie v PSP balíčku nám dajú dostatočné informácie o udalosti, kedy bola vykonaná, na akom SW bola vykonaná (premisa Object "creatingApplication" + premisa Event "eventDetail" – t.j. ďalšie upresnenie v premis Agent nie je nutné

●        záznam premisa Agent obsahuje charakteristiku tzv. agenta, ktorý je spojený s vykonanou a zaznamenanou udalosťou (premisa Event)

○        agent môže byť osoba, organizácia alebo softvér●        z premis Event je linkovanie na agenta, ktorý určitú akciu vykonal, typ ID agenta a jeho hodnota sú uvedené v premis Events (<premis:linkingAgentIdentifier>), plný popis agenta je potom v premis Agent●        záznamy premis Agent budú uložené v METS zázname určenom pre administratívne a technické metadáta (AMD_METS.xml) v jeho časti <amdSec>, podčasť <digiprovMD>

○        AMD_METS.xml je linkovaný z hlavného METS záznamu dokumentu●        pre každého agenta, t.j. jednu premisu Agent záznamu, bude vytvorená jedna <digiprovMD> časť

 Obsah poľa "Popis":

●        vysvetlenie a príklad

Page 48: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

●        odporúčané plnenia tam, kde je to možné●        výskyt elementu (ako je definované formátom premis - podľa XSD)

○        0-1 element je voliteľný, neopakovateľný○        0-n element je voliteľný, opakovateľný○        1-n element je povinný a opakovateľný○        element je povinný a neopakovateľný

 Význam pole "Povinnosť"

●        pole "Povinnosť" uvádza, či je plnenie jednotlivých elementov povinné, odporúčané alebo voliteľné●        môže nadobúdať nasledujúce hodnty

○        M - mandatory (povinne plniť - element je súčasťou každého záznamu)○        MA - mandatory if available (povinne plniť pokiaľ je to možné, ak možno a pod.)○        R - recommended (plnenie hodnôt elementu je odporúčané, nie je však povinné)○        RA - recommended if available (odporúča pokiaľ možno plniť)○        O - optional (plnenie hodnôt elementu podľa konkrétnych potrieb)

  

Element Popis Povinnosť

<agentIdentifier> popis identifikátora, ktorý jednoznačne označuje agenta v rámci jedného kontextu (napr. repozitár)1-n

M

   <agentIdentifierType>

označenie typu identifikátora, napr. NK_AgentID, UUID a pod.1-1

M

   <agentIdentifierValue>

hodnota identifikátora, napr. agent_softwareName_5.2; agent_novakJ a pod.1-1

M

<agentName> textové upresnenie agenta, napr. presný názov SW, plné meno osoby a pod. - FixImage1.3; Ján Horňák; CCS docWorks 6.2.1;0-n

R

<agentType> všeobecné označenie agenta - pre osoby napr. osoba, pre SW napr. softvér a pod.hodnoty: organization; person; software0-1

M

<agentNote> použitie len ak je <agentType> Software a pôjde o agenta súvisiaceho s migráciou TIFF na JPEG2000 (creation / migration Event);bude obsahovať príkaz k výrobe JPEG2000 súboru v programe Kakadu0-n

MA

 Príklad:

 

Page 49: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

<premis:agent xmlns:premis="info:lc/xmlns/premis-v2">   <premis:agentIdentifier>      <premis:agentIdentifierType> EE_App_Name </ premís: agentIdentifierType>      <premis:agentIdentifierValue> agent_Sirius </ premís: agentIdentifierValue>   </ Premís: agentIdentifier>   <premis:agentName> BATCHPROCESSOR </ premís: agentName>   <premis:agentType> softvér </ premís: agentType>   <premis:agentNote> C: \ Program Files \ Elsyst Engineering \ BatchProcessor \ Utilities \ image_to_j2k.exe-i "C: \ SiriusBatchProcessor \ skenserver_Sirius_DIKDA_ANL \ B300C__161289.tif"-o "C: \ SiriusBatchProcessor \ skenserver_Sirius_DIKDA_ANL \ B300C__161289.jp2" - c [256,256], [256,256], [128,128], [128,128], [128,128], [128,128]-p RPCL-n 6-t 4096,4096-b 64,64-SOP-EPH </ premís: agentNote></ Premís: agent> 

 

8.4.4.Technické metadáta MIX 

●        Bude využitý formát MIX, verzia aktuálna v čase implementácie projektu, alebo verzia predchádzajúca (pozri http://www.loc.gov/standards/mix// )●        MIX záznam vzniká iba pre obrazové súbory!

○        t.j. bude vznikať 1) pre archívnu kópiu 2) ďalší MIX záznam bude vzniká pre pôvodný súbor vzniknutý pri prvotnom skenovaní (najčastejšie TIFF) a to aj napriek tomu, že tento TIFF sa v priebehu výroby vymaže a nie je archivovaný○        tieto dva MIX záznamy budú súčasťou jedného METS záznamu AMD_METS.xml (v časti <amdSec>, podčasť <techMD>) pre administratívne a technické metadáta, ktorý vznikne ku každému obrazovému súboru a ktorý je linkovaný z hlavného METS záznamu zväzku monografie

●        MIX záznamy jednotlivých obrazových súborov sa budú líšiť - MIX záznam pôvodného skenu nebude obsahovať napr. element ImageProcessing, MIX záznam archívneho súboru MC nebude naproti tomu obsahovať informácie o procese skenovania, ktoré sa viažu k pôvodnému skenu a budú v elemente ImageCaptureMetadata a pod. - podrobnosti pozri tabuľka nižšie, stĺpec "použitie pre MC a PS"●        pre každý záznam MIX bude vytvorená vlastná časť <techMD>●        MIX môže byť tiež zapuzdrený v premis Object <premis:objectCharacteristicsExtension>

Page 50: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

●        vo formáte MIX nebude uvedená informácia o kontrolných súčtoch (fixity), ktorá je obsiahnutá v premis Object a nie je nutné ju opakovať (pozri MIX profily Holandsko, Fínsko a Nórsko)●        <fileSize> je len odporúčané, údaj o veľkosti súboru je súčasťou popisu premis Object

 Obsah poľa "Popis":

●        vysvetlenie a príklad●        odporúčané plnenia tam, kde je to možné●        výskyt elementu (ako je definované formátom MIX - podľa XSD)

○        0-1 element je voliteľný, neopakovateľný○        0-n element je voliteľný, opakovateľný

 Význam poľa "Povinnosť"

●        pole "Povinnosť" uvádza, či je plnenie jednotlivých elementov povinné, odporúčané alebo voliteľné●        môže nadobúdať nasledujúce hodnoty

○        M - mandatory (povinne vyplniť - element je súčasťou každého záznamu)○        MA - mandatory if available (povinne vyplniť pokiaľ je to možné, ak možno a pod.)○        R - recommended (plnenie hodnôt elementu je odporúčané, nie je však povinné)○        RA - recommended if available (odporúča pokiaľ možno plniť)○        O - optional (plnenie hodnôt elementu je voliteľné podľa konkrétnych potrieb)

 Obsah poľa "Použitie pre"

●        použitie jednotlivých elementov pre MC, PS (pôvodné skeny) a UC - určuje, ktorý element je a ktorý nie je súčasťou MIX záznamu MC alebo MIX záznamu popisujúceho pôvodný obrazový dokument zo skenera

 

Element Popis Povinnosť Použitie pre

<BasicDigitalObjectInformation>      

   <ObjectIdentifier> údaje o identifikátore obrazového dokumentu, ktorý je formátom MIX popísaný;0-n

R MC, PS

                <objectIdentifierType> napr. meno súboru, alebo iný identifikátor;0-1

M MC, PS

                <objectIdentifierValue> hodnota identifikátora, napr. 20110306_001.jp2 alebo urn: NBN: 123456;

M MC, PS

Page 51: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

0-1

   <fileSize> veľkosť súboru0-1

R MC + PS

   <FormatDesignation> údaje o formáte obrazového súboru0-1

M MC, PS

                <formatName> názov formátu, napr. možno využiť MIME types [2] (Image/jp2 a pod.)0-1

M MC, PS

                <formatVersion> verzia formátu, napr. 1.00-1

M MC, PS

   <byteOrder> endianita, možnosti sú little endian, middle (mix) endian a big endian0-1

M MC + PS

   <Compression> údaje o kompresii obrazového súboru (ak0-n

M MC, PS

                <compressionScheme> informácie o kompresnej schéme, vyjadrené číslom (napr. 34712 je kompresia JPEG2000) alebo slovami (napr. JP2 Lossless)0-1

M MC, PS

<BasicImageInformation> základné technické údaje o obrazovom dokumente0-1

M MC, PS

   <BasicImageCharacteristics> 0-1 M MC, PS

      <imageWidth> šírka obrazu v pixeloch, napr. 39870-1

M MC, PS

      <imageHeight> výška obrazu v pixeloch, napr. 23450-1

M MC, PS

      <PhotometricInterpretation> fotometrická interpretácia0-1

M MC, PS

         <colorSpace> farebný priestor, napr. RGB0-1

M MC, PS

         <ColorProfile> údaje o farebnom profile0-1povinné pre dokumenty, kde je nutné uchovať presnú reprezentáciu farby pôvodného dokumentu a používa sa ICC profil

MA MC + PS

            <IccProfile> ICC profil0-1

M MC + PS

               <iccProfileName> meno profilu, napr. sRGB, Adobe RGB ai. M MC +

Page 52: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

0-1 PS

                           <iccProfileVersion>

verzia profilu, napr. sRGB IEC61966-2.10-1

M MC + PS

                           <iccProfileURL> odkaz na profil0-1

R MC + PS

<SpecialFormatCharacteristics> špeciálne technické údaje o obrazovom dokumente, použitie pre formát JPEG20000-1povinný pre JPEG2000

MA MC

   <JPEG2000> 0-1 M MC

      <CodecCompliance> údaje o kodeku0-1

M MC

         <codec> názov kodeku, napr. Kakadu, LuraWave ai.0-1

M MC

            <codecVersion> verzia kodeku, napr. 3.10-1

M MC

            <CodestreamProfile> popis Codestream profilu JPEG2000, napr. P0 a P1 (pozri ISO / IEC 15444-4);0-1

M MC

            <ComplianceClass> špecifikácia najvyššej výšky, šírky a počtu komponentov, ktoré dekodér dokáže dekódovať, možno použiť hodnoty C0, C1 a C2;0-1

M MC

      <EncodingOptions> obsahuje informácie o kódovaní JPEG20000-1

M MC

         <Tiles> popis pixelovej veľkosti dlaždíc formáte JPEG20000-1

M MC

            <TileWidth> šírka dlaždice, napr. 1280-1

M MC

            <TileHeight> výška dlaždice, napr. 1280-1

M MC

            <QualityLayers> číselná hodnota počtu vrstiev, do ktorých bol JPEG2000 rozdelený, napr. 12.0-1

M MC

            <ResolutionLevels> opis počtu nižších rozlíšení, ktoré je možné z obrazu získať, napr. 60-1

M MC

<ImageCaptureMetadata> popis procesu skenovania, je dôležité M PS

Page 53: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

vyplniť, pretože tieto údaje nemožno zistiť z finálneho master / archívneho súboru0-1

   <SourceInformation> informácie o predlohe0-1

R PS

      <sourceType> Book, Newspaper a iné; nutné používať kontrolovaný slovník0-1

M PS

       <SourceID> identifikátor predlohy0-n

R PS

           <sourceIDType> typ identifikátora, napr. čSNB , URN: NBN0-1

M PS

           <sourceIDValue> vlastná hodnota identifikátora0-1Povinné

M PS

   <GeneralCaptureInformation> základné údaje o skenovaní0-1

M PS

      <dateTimeCreated> údaj o dátume a čase skenovania, napr. 2009-01-03T08: 25:28; zapísať v ISO 8601 na úrovni sekúnd0-1

M PS

      <imageProducer> entita vykonávajúca skenovanie, napr. The National Library of the Slovak Republic, osoba a pod.0-1

M PS

      <captureDevice> typ skenovacieho zariadenia, napr. reflection print scanner; odporúčané využívanie hodnôt z kontrolovaného slovníka0-1

M PS

   <ScannerCapture> údaje o skeneri0-1

M PS

      <scannerManufacturer> výrobca skenera, napr. 4DigitalBooks, Treventus, Zeutschel0-1

M PS

      <scannerModel> údaje o konkrétnom type skenera0-1

M PS

         <scannerModelName> meno modelového radu skenera, napr. DL0-1

M PS

         <scannerModelNumber> číslo / označenie modelu, napr. 30000-1

M PS

Page 54: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

         <scannerModelSerialNo> výrobné číslo skenera, napr. E4R00036490-1

M PS

      <MaximumOpticalResolution> údaje o maximálnom optickom rozlíšení skenera0-1

M PS

         <xOpticalResolution> optické rozlíšenie na osi x, napr. 3000-1

M PS

         <yOpticalResolution> optické rozlíšenie na osi y, napr. 3000-1

M PS

         <opticalResolutionUnit> jednotka optického rozlíšenie, napr. inch (in.)0-1

M PS

     <scannerSensor> popis typu snímacieho senzora skenovacieho zariadenia, napr. matrix, linear, undefined a iné0-1

M PS

      <ScanningSystemSoftware> údaje o softvére skenovacieho zariadenia0-1

M PS

         <scanningSoftwareName> názov softvéru, napr. Copinet0-1

M PS

         <scanningSoftwareVersionNo>

číslo verzie softvéru, napr. 3.70-1

M PS

  <DigitalCameraCapture> údaje o snímacom zariadení (fotoaparát)0-1povinné, ak je používaný fotoaparát a nie je používaný skener

MA PS

      <digitalCameraManufacturer> výrobca fotoaparátu, napr. Canon0-1

M PS

      <DigitalCameraModel> popis modelu fotoaparátu0-1

M PS

         <digitalCameraModelName> názov modelovej rady, napr. EOS0-1

M PS

         <digitalCameraModelNumber>

označenie modelu fotoaparátu, napr. 1000D0-1

M PS

         <DigitalCameraModelSerialNo>

výrobné číslo prístroja, napr. E123450-1

M PS

      <camerarSensor> typ senzora fotoaparátu, napr. matrix a iné0-1

M PS

      <CameraCaptureSettings> údaje o nastavení fotoaparátu použitého na snímanie predlôh0-1

M PS

Page 55: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

         <ImageData> v rámci tohto kontajnerového elementu budú použité nasledovné sub-elementy:fNumberexposuretimeisoSpeedRatingsshutterSpeedValueaperturevaluebrightnessValueexposureBiasValuemaxaperturevaluesubjectDistancemeteringmodelightsourceflashfocalLengthBacklightexposureIndexsensingmethodcfaPatternAutofocusPrintAspectRatio všetky hodnoty budú prebrané v prípade použitia fotoaparátu z údajov Exif

M PS

   <orientation> popis orientácie obrazu tak, ako je uložený vzhľadom k jeho riadkom a stĺpcom, napr. normal *; normal, image flipper; normal, rotated 180 °; unknown a pod.0-1

M PS

<ImageAssessmentMetadata> informácie o digitálnom obraze pre jeho hodnotenie a využitie z hľadiska dlhodobej ochrany a pod.0-1

M MC, PS

   <SpatialMetrics> rozmery obrázku, 2 rozmerná projekcia objektov tak ako ju "vidí" snímacie zariadenia0-1

M MC, PS

      <samplingFrequencyPlane> popis základnej roviny, napr. object plane (pre priamo z predlohy digitalizované dokumenty), source object plane (pre digitalizáciu mikrofilmov), camera / scanner focal plane (indikácie sampel. frekvencia fyzického senzora);0-1

R MC + PS

      <samplingFrequencyUnit> jednotka merania sampel. frekvencie, napr. hodnoty 1 = žiadna pevná jednotka; 2 = inch, 3 = centimeter;0-1

M MC, PS

         <xSamplingFrequency> údaje o počte pixelov na jednotku MA MC, PS

Page 56: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

samplovacej frekvencie pre šírku obrázku0-1povinné, ak hodnota samplingFrequencyUnit je 2 alebo 3

            <numerator> čitateľ, číselné vyjadrenie, napr. 3000-1

M MC, PS

            <denominator> menovateľ, číselné vyjadrenie napr. 10-1

M MC, PS

        <ySamplingFrequency> údaje o počte pixelov na jednotku samplovacej frekvencie pre výšku obrázku0-1povinné, ak hodnota samplingFrequencyUnit je 2 alebo 3

MA MC, PS

            <numerator> čitateľ, číselné vyjadrenie, napr. 3000-1

M MC, PS

            <denominator> menovateľ, číselné vyjadrenie napr. 10-1

M MC, PS

   <ImageColorEncoding> doplňujúce údaje o farbe obrazu0-1

M MC, PS

      <bitsPerSample> počet bitov na kanál0-1

M MC, PS

         <bitsPerSampleValue> hodnota počtu bitov, napr. 8, 1, 4 alebo 8,8,8 a pod.0-nPOZOR - pre každú hodnotu je nutné element opakovať, t.j. napr. 3x element <bitsPerSampleValue> s hodnotou 8 <mix:BitsPerSample>   <mix:bitsPerSampleValue> 8 </ mix: bitsPerSampleValue>   <mix:bitsPerSampleValue> 8 </ mix: bitsPerSampleValue>   <mix:bitsPerSampleValue> 8 </ mix: bitsPerSampleValue></ Mix: BitsPerSample>

M MC, PS

         <bitsPerSampleUnit> špecifikácia jednotky, napr. integer alebo floating point0-1

R MC, PS

      <samplesPerPixel> počet farebných komponentov na pixel, napr. 1, 3, 40-1

M MC, PS

   <TargetData> informácie o kalibračných tabuľkách0-1

MA MC

Page 57: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

povinné pre obrazy, kde sa robí kontrola oproti kalibračnej tabuľke

      <targetType> typ kalibračné tabuľky; 0 = external (kalibračná tabuľka sa neobjaví na dig. obraze, je to oddelený dig. súbor); 1 = internal (tabuľka je naskenovaná spolu s PREÈDLOHOU a objaví sa na dig. obraze);0-n

M MC

      <targetID> údaje o pôvode kalibračnej tabuľky0-n

M MC

         <targetManufacturer> výrobca / pôvodca kalibračnej tabuľky, napr. Eastman Kodak alebo SNK0-1

M MC

         <targetName> názov kalibračnej tabuľky, napr. ColorChecker, MicrofilmScanTarget a iné0-1

M MC

         <targetNo> číslo alebo verzia kalibračnej tabuľky0-1

M MC

         <targetMedia> údaj o tom, na akom médiu je kalibračná tabuľka, napr. film, paper a iné0-1

R MC

      <externalTarget> údaje o externej kalibračnej tabuľke; napr. link alebo názov a cesta ku konkrétnemu súboru0-npovinné v prípade, že bola použitá externá kalibračná tabuľka (targetType = 0)

MA MC

      <performaceData> odkaz na súbor obsahujúci charakteristiku výkonu systému vzhľadom k nastaveným hodnotám rozlíšení atď.;možné hodnoty plnenia - link URN alebo URL, alebo názov súboru0-n

R MC

<ChangeHistory> dokumentácie procesov uskutočnených na obrazovom súbore v jeho životnom cykle0-1

M MC

   <ImageProcessing> údaje o spracovaní obrazového súboru0-n

M MC

      <dateTimeProcessed> 2009-01-04T15: 12:06; zapísať v ISO 8601 na úrovni sekúnd0-1

M MC

      <sourceData> odkaz na pôvodné zdrojové dáta, z ktorých bol vytvorený finálny obrazový súbor; môže to byť napr. URL alebo cesta do zložky s pôvodným

M MC

Page 58: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

skenom vrátane názvu súboru;0-1

      <processingAgency> The National Library of the Slovak Republic0-n

R MC

  Príklad (MIX pre pôvodnú sken - tif):

 <mix:mix xmlns:mix="http://www.loc.gov/mix/v20">   <mix:BasicDigitalObjectInformation>      <mix:FormatDesignation>         <mix:formatName> image / tif </ mix: formatName>         <mix:formatVersion> 42 </ mix: formatVersion>      </ Mix: FormatDesignation>                <mix:byteOrder> little endian </ mix: byteOrder>      <mix:Compression>         <mix:compressionScheme> LZW </ mix: compressionScheme>      </ Mix: Compression>      </ Mix: BasicDigitalObjectInformation>         <mix:BasicImageInformation>            <mix:BasicImageCharacteristics>               <mix:imageWidth> 2504 </ mix: imagewidth>               <mix:imageHeight> 3301 </ mix: imageHeight>               <mix:PhotometricInterpretation>                  <mix:colorSpace> BGR </ mix: colorspace>               </ Mix: PhotometricInterpretation>            </ Mix: BasicImageCharacteristics>         </ Mix: BasicImageInformation>         <mix:ImageCaptureMetadata>            <mix:SourceInformation>               <mix:sourceType> Newspaper </ mix: sourceType>                      </ Mix: SourceInformation>            <mix:GeneralCaptureInformation>               <mix:dateTimeCreated> 2011-11-24T08: 36:21 </ mix: dateTimeCreated>               <mix:imageProducer> Elsyst Engineering </ mix: imageProducer>               <mix:captureDevice> reflection print scanner </ mix: captureDevice>            </ Mix: GeneralCaptureInformation>            <mix:ScannerCapture>               <mix:scannerManufacturer> Treventus </ mix: scannerManufacturer>               <mix:ScannerModel>                  <mix:scannerModelName> HD </ mix: scannerModelName>                  <mix:scannerModelNumber> 4250 </ mix: scannerModelNumber>

Page 59: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

                  <mix:scannerModelSerialNo> KE67E07001D </ mix: scannerModelSerialNo>               </ Mix: ScannerModel>               <mix:MaximumOpticalResolution>                  <mix:xOpticalResolution> 300 </ mix: xOpticalResolution>                  <mix:yOpticalResolution> 300 </ mix: yOpticalResolution>                  <mix:opticalResolutionUnit> in. </ mix: opticalResolutionUnit>               </ Mix: MaximumOpticalResolution>               <mix:ScanningSystemSoftware>                  <mix:scanningSoftwareName> NextImage </ mix: scanningSoftwareName>                  <mix:scanningSoftwareVersionNo> 1.6.9 </ mix: scanningSoftwareVersionNo>               </ Mix: ScanningSystemSoftware>            </ Mix: ScannerCapture>            <mix:orientation> normal * </ mix: orientation>         </ Mix: ImageCaptureMetadata>         <mix:ImageAssessmentMetadata>            <mix:SpatialMetrics>               <mix:samplingFrequencyUnit> in. </ mix: samplingFrequencyUnit>               <mix:xSamplingFrequency>                  <mix:numerator> 300 </ mix: numerator>                  <mix:denominator> 1 </ mix: denominator>               </ Mix: xSamplingFrequency>               <mix:ySamplingFrequency>                  <mix:numerator> 300 </ mix: numerator>                  <mix:denominator> 1 </ mix: denominator>               </ Mix: ySamplingFrequency>            </ Mix: SpatialMetrics>            <mix:ImageColorEncoding>                         <mix:BitsPerSample>                  <mix:bitsPerSampleValue> 8 </ mix: bitsPerSampleValue>                  <mix:bitsPerSampleValue> 8 </ mix: bitsPerSampleValue>                  <mix:bitsPerSampleValue> 8 </ mix: bitsPerSampleValue>               </ Mix: BitsPerSample>               <mix:samplesPerPixel> 3 </ mix: samplesperpixel>            </ Mix: ImageColorEncoding>      </ Mix: ImageAssessmentMetadata>   </ Mix: mix> 

 

Page 60: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

8.5 METS časť <fileSec>

8.5.1 <fileSec> hlavného záznamu METS file group

●        pre obrazy aj texty (ALTO XML / OCR.TXT) budú v hlavnom METS zázname použité elementy <fileGrp>, jeden element <fileGrp> bude existovať pre obrazy archívnych kópií, ďalšie pre ALTO XML, ďalšie pre OCR.TXT súbory a ďalšie pre METS záznamy s technickými metadátami (AMD_METS.xml)

 1          <fileGrp> pre obrazy archívnych kópií, bude mať tieto atribúty: ID = "MC_IMGGRP" USE = "Images"

○        každý súbor bude mať vlastný element <file> s nasledujúcimi atribútmi:

■        ID - identifikátor súboru JP2 ako je používaný v METS zázname■        Mimetype - hodnota image/jp2■        SIZE - veľkosť súboru JP2■        CHECKSUMTYPE - hodnota MD5■        CHECKSUM - hodnota kontrolného súčtu■        SEQ - poradie súboru■        CREATED - dátum vytvorenia, ISO8601 na úrovni sekúnd

○        subelementem pod <file> je element <Flocat>, ktorý obsahuje link (ideálne v podobe nejakého identifikátora) na obrazový súbor (xlink: href) a atribút LOCTYPE

         2. <fileGrp> pre obrazy používateľských kópií, bude mať tieto atribúty: ID = "UC_IMGGRP" USE = "Images"

○        každý súbor bude mať vlastný element <file> s nasledujúcimi atribútmi:

■        ID - identifikátor súboru JP2 ako je používaný v METS záznamu■        Mimetype - hodnota image/jp2■        SIZE - veľkosť súboru JP2■        CHECKSUMTYPE - hodnota MD5■        CHECKSUM - hodnota kontrolného súčtu■        SEQ - poradie súboru■        CREATED - dátum vytvorenia, ISO8601 na úrovni sekúnd

○        subelementem pod <file> je element <Flocat>, ktorý obsahuje link (ideálne v podobe nejakého identifikátora) na obrazový súbor (xlink: href) a atribút LOCTYPE

 

Page 61: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

3. <fileGrp> pre ALTO XML bude mať nasledovné atribúty: ID = "ALTOGRP" USE = "Layout"

○        každý ALTO XML súbor bude mať vlastný element <file> s nasledujúcimi atribútmi:

■        ID - identifikátor súboru ALTO XML ako je používaný v METS zázname■        Mimetype - text / xml■        SIZE - veľkosť súboru xml■        CHECKSUMTYPE - hodnota MD5■        CHECKSUM - hodnota kontrolného súčtu■        CREATED - dátum vytvorenia, ISO8601 na úrovni sekúnd sekundy

○        subelementem pod <file> je element <Flocat>, ktorý obsahuje link (ideálne v podobe nejakého identifikátora) na xml súbor obsahujúci ALTO (xlink: href) a atribút LOCTYPE

 4. <fileGrp> pre súbory METS s technickými metadátami AMD_METS.xml bude mať nasledovné atribúty:ID = "TECHMDGRP" USE = "Technical Metadata"

○        každý METS xml súbor bude mať vlastný element <file> s nasledujúcimi atribútmi:

■        ID - identifikátor súboru AMD_METS.xml ako je používaný v METS záznamu■        Mimetype - text / xml■        SIZE - veľkosť súboru xml■        CHECKSUMTYPE - hodnota MD5■        CHECKSUM - hodnota kontrolného súčtu■        SEQ - poradie súboru■        CREATED - dátum vytvorenia, ISO8601 na úrovni sekúnd

○        subelementem pod <file> je element <Flocat>, ktorý obsahuje link (ideálne v podobe nejakého identifikátora) na xml súbor AMD_METS.xml (xlink: href) a atribút LOCTYPE

 5. <fileGrp> pre súbory OCR.TXT bude mať nasledovné atribúty: ID = "TXTGRP" USE = "Text"

○        každý OCR.TXT súbor bude mať vlastný element <file> s nasledujúcimi atribútmi:

■        ID - identifikátor súboru OCR.TXT ako je používaný v METS zázname■        Mimetype - text / plain■        SIZE - veľkosť súboru■        CHECKSUMTYPE - hodnota MD5■        CHECKSUM - hodnota kontrolného súčtu■        CREATED - dátum vytvorenia, ISO8601 na úrovni sekúnd

Page 62: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

○        subelementem pod <file> je element <Flocat>, ktorý obsahuje link (ideálne v podobe nejakého identifikátora) na txt súbor (xlink: href) a atribút LOCTYPE

 

8.5.2 <fileSec> vedľajšieho záznamu AMD_METS.xml 

●        <fileSec> vo vedľajšom METS záznamu AMD_METS.xml bude obsahovať jeden elemen t <fileGrp> s vnorenými elementmi <file> pre každú reprezentáciu strany, t.j. MC, ALTO XML a OCR.TXT●        atribúty jednotlivých <file> elementov zodpovedajú atribútom pre jednotlivé typy dokumentov uvedených vyššie pre <fileSec> hlavného METS záznamu

 Príklad (pre hlavné i vedľajšie METS):

 <mets:fileSec>   <mets:fileGrp ID="MC_IMGGRP" USE="Images">      <Mets: file ID = "MC_anl001-000003_0001" mimetype = "image/jp2" SIZE = "9801586"       CHECKSUMTYPE = "MD5" CHECKSUM = "e5fba17c73bf736e5da06de847f2b9af" SEQ = "0"       CREATED = "2012-01-26T09: 32:40">         <Mets: FLocat xlink: href = "./masterCopy/MC_anl001-000003_0001.jp2"          LOCTYPE = "URL" />      </ Mets: file>   </ Mets: fileGrp>   <mets:fileGrp ID="UC_IMGGRP" USE="Images">      <Mets: file ID = "UC_anl001-000003_0001" mimetype = "image/jp2" SIZE = "5014649"       CHECKSUMTYPE = "MD5" CHECKSUM = "fe8e0172fb031cdc79a9f6002cb64f55" SEQ = "0"       CREATED = "2012-01-26T11: 35:03">        <Mets: FLocat xlink: href = "./userCopy/UC_anl001-000003_0001.jp2"         LOCTYPE = "URL" />      </ Mets: file>   </ Mets: fileGrp>   <mets:fileGrp ID="ALTOGRP" USE="Layout">      <Mets: file ID = "ALTO_anl001-000003_0001" mimetype = "text / xml" SIZE = "26328"       CHECKSUMTYPE = "MD5" CHECKSUM = "19e5a62e5283c274a2809a3c00ec13c4" SEQ = "0"       CREATED = "2012-01-26T09: 32:42">         <Mets: FLocat xlink: href = "./ ALTO/ALTO_anl001-000003_0001.xml "LOCTYPE =" URL "/>                </ Mets: file>

Page 63: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

   </ Mets: fileGrp>   <mets:fileGrp ID="TXTGRP" USE="Text">      <Mets: file ID = "TXT_anl001-000003_0001" mimetype = "text / plain" SIZE = "360" CHECKSUMTYPE = "MD5" CHECKSUM = "02ab00b4bf830fd8e6980d828998ec2a" SEQ = "0" CREATED = "2012-01-26T09: 32:42 ">         <mets:FLocat xlink:href="./txt/TXT_anl001-000003_0001.txt" LOCTYPE="URL" />      </ Mets: file>   </ Mets: fileGrp>   <mets:fileGrp ID="TECHMDGRP" USE="Technical Metadata">      <Mets: file ID = "AMD_METS_anl001-000003_0001" mimetype = "text / xml" SIZE = "50460"                 CHECKSUMTYPE = "MD5" CHECKSUM = "d6b86ff8547c3ef63cf7c33dcebf86bf" SEQ = "0"                 CREATED = "2012-01-26T14: 07:04">                   <Mets: FLocat xlink: href = "./amdSec/AMD_METS_anl001-000003_0001.xml"                    LOCTYPE = "URL" />      </ Mets: file>   </ Mets: fileGrp></ Mets: fileSec>

 

8.6 METS časť <structMap> - Štrukturálne metadáta

8.6.1 <structMap> hlavného záznamu METS 

●        štrukturálne mapy v METS zázname sú dvojakého typu, fyzické a logické; fyzické zaznamenávajú hierarchické informácie o dokumente, vrátane väzieb na fyzické súbory, z ktorých sa skladajú jednotlivé úrovne dokumentu●        1 logická štrukturálna mapa v hlavnom METS zázname opisuje 1 zväzok monografie a musí popisovať štruktúru až na úroveň vnútorných častí (napr. kapitol, alebo článkov) a pod.

○        súčasťou zväzku monografie môžu byť prílohy - ak sa skenujú spolu so zväzkom, opisuje štrukturálna mapa METS záznamu zväzok vrátane prílohy (berie sa ako jeden zväzok)

●        štrukturálna mapa logická aj fyzická vrátane linkov na ALTO XML bude v hlavnom zázname hlavny_METS.xml●        pre každú stranu zoskupuje METS logická štrukturálna mapa odkazy na textové bloky (alebo ilustrácie), ktoré sú súčasťou tejto strany. Informácie o blokoch textu, alebo ilustráciách na strane sú uložené v 1 ALTO XML súboru, ktorý strane zodpovedá. Každý blok a každá ilustrácia má unikátny identifikátor, ktorý je použitý ako odkaz v METS štrukturálnej mape.

 

Page 64: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

8.6.1.1 Definovaniefyzickej štrukturálnej mapy●        bude mať nasledujúce atribúty <structMap LABEL="Physical_Structure" TYPE="PHYSICAL">●        fyzická štrukturálna mapa obsahuje rodičovský <div>, ktorý obsahuje tieto atribúty:

○        LABEL - môže obsahovať titul zväzku monografie○        TYPE - napr. monograph○        ID - identifikátor div○        DMDID - identifikátor časti popisných metadát patriacich ku zväzku monografie

●        jednotlivé strany sú vnorenié do rodičovského elementu <div> ako dcérske <div> elementy

○        <div> pre súbory strany bude mať tieto atribúty:■        TYPE - bude sa plniť typom strany (pozri nové pravidlá popisu pre monografie)■        ID - identifikátor div■        ORDERLABEL - poradové číslo strany, tak ako je na nej vytlačené■        ORDER - poradie strany vo zväzku monografie

○        <div> pre súbory strany vždy obsahujú link <ftpr> na súbor obrazu archívnej kópie, používateľskej kópie, na ALTO XML, na OCR.TXT a na AMD_METS.xml

■        link na obrazový súbor archívnej kópie má v elemente <fptr> nasledovné atribúty: FILEID, ktorý obsahuje ID súboru archívne kópie■        link na obrazový súbor používateľskej kópie má v elemente <fptr> nasledovné atribúty: FILEID, ktorý obsahuje ID súboru používateľskej kópie■        link na ALTO XML má v elemente <fptr> nasledovné atribúty: FILEID, ktorý obsahuje ID ALTO XML súboru, ďalej BEGIN = "P1" kde P1 je ID elementu <fptr> z ALTO XML súboru, a atribút BETYPE = "IDREF"■        link na OCR.TXT súbor má v elemente <fptr> nasledovné atribúty: FILEID, ktorý obsahuje ID súboru OCR.TXT■        link na AMD_METS.xml súbor má v elemente <fptr> nasledovné atribúty: FILEID, ktorý obsahuje ID súboru AMD_METS.xml

 Príklad: 

<mets:structMap LABEL="Physical_Structure" TYPE="PHYSICAL">   <Mets: div LABEL = "Z poľovníckej kapsyMladý fotograf" ID = "DIV_P_0000" DMDID = "MODSMD_VOLUME_0001"    TYPE = "monograph">

Page 65: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

                <mets:div ID="DIV_P_PAGE_0000" ORDER="0" ORDERLABEL="[A1]" TYPE="titlePage">                 <mets:fptr FILEID="MC_tst001-000001_0001" />                  <mets:fptr FILEID="UC_tst001-000001_0001" />                  <mets:fptr FILEID="ALTO_tst001-000001_0001" />                  <mets:fptr FILEID="TXT_tst001-000001_0001" />                  <mets:fptr FILEID="AMD_METS_tst001-000001_0001" />                </ Mets: div>   </ Mets: div></ Mets: structMap>

 

8.6.1.2 Vyjadrenie logickej štrukturálnej mapy

8.6.1.2.1 Vyjadrenie logickej štruktúry pre kapitoly s väzbou na ALTO bloky●        bude mať nasledujúce atribúty <structMap LABEL="Logical_Structure "TYPE="LOGICAL">●        logická štruktúra na úrovni oddielov alebo napr. ilustrácií sa popisuje pomocou do seba vnorených elementov <div>●        ak strana obsahuje len obraz a žiadny text, potom je popísaná jedným elementom <div> s atribútom TYPE = "PAGE" a link do súboru ALTO XML vedie priamo na element <ComposedBlock>

○        <div TYPE="PAGE"> možno využiť ako kontajner na obrazy a ďalšie časti strany, ktoré nie sú zahrnuté v článku○        pre obraz je možné využiť atribúty a typy podriadených elementov <div> ako je špecifikované v tabuľke nižšie pre PICTURE, ktorý je súčasťou článku

●        strany obsahujúce viac logických oblastí sú popísané jedným <div> elementom, ktorý má vnorené <div> elementy pre každú logickú oblasť, ktorá zodpovedá napr. textovému oddielu (kapitola, článok) alebo obraz.

○        ak sa jedná o jednoduchý, celistvý text na jednej strane, tak je popísaný len jedným <div> elementom s atribútom TYPE = "chapter"

■        v tomto <div> sú ďalej ako ďalšie <div> elementy vnorené jednotlivé textové bloky (odseky, nadpisy, obrazy a pod.)

●        pri každom bloku je odkaz do ALTO XML súbory na príslušný textový blok <TextBlock> - pomocou tohto odkazu sa v ALTO XML súboru nájde ako text, tak aj informácie o jeho umiestnení na strane (súradnice), toto je realizované pomocou štruktúry <area> v elementu <ftpr>●        v bloku tvorenom obrazom je odkaz do ALTO XML na príslušný komponovaný blok <ComposedBlock>; realizuje sa pomocou štruktúry <area> v elemente <ftpr>●        v prípade použitia atribútu ORDER umožňuje tento princíp vyjadriť pri oddiele aj tzv. poradie čítania jeho častí, ako sú napr. nadpis, autor, obrázok a pod.

Page 66: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

○        výnimočne, ak nie je textový oddiel celistvý a je rozdelený na viac častí, ktoré sa vyskytujú na jednej alebo viacerých stranách, ktoré nemusia nasledovať za sebou, je možné určiť poradie čítania týchto častí, opäť pomocou atribútu ORDER

■        pre každú časť oddielu existuje vlastný <div> element, podriadený hlavnému <div> elementu oddielu■        element <div> každej časti má atribút TYPE hodnotu "chapter-part" a atribút ID musí vyjadrovať o ktorú z častí sa jedná, t.j. napr. ID = "chapter5-1" zodpovedá prvej časti oddielu číslo päť

 ●        POZOR -  pri monografiách sa delenie oddielov bežne nepredpokladá (kapitoly sú bežne na viacerých stranách, väčšinou nasledujúcich po sebe)

○        t.j. delenie oddielov nie je povinné a je možné využiť iba štruktúry odsekov ako je naznačené v prvej časti príkladu, t.j. pokiaľ kapitola / odsek pokračuje na ďalšej strane, logická mapa uvádza, že posledný odsek (NORMAL_TEXT) napr. na strane 5 odkazuje na ALTO patriace ku strane 5 a v ňom na posledný textový blok; nasledujúci odsek v logickej mape bude odkazovať na ALTO patriace k strane 6 a v ňom na prvý textový blok (pozri príklad)

●        do logickej štruktúry PSP balíčku môže byť v prípade jej existencie zakomponovaná aj príloha (Supplement), ktorá má vlastný <div> element s atribútom TYPE = "Supplement"

○        vnorené <div> elementy pre obraz a textové oddiely aj ich použitie je zhodné so spôsobom popisu logickej štruktúry elementu <div> s atribútom TYPE = "VOLUME"

●        zoznam strán k jednotlivým kapitolám je obsiahnutý v elemente <structLink> - popísanom v kapitole 8.7

 Význam pole "Povinnosť"

●        pole "Povinnosť" uvádza, či je plnenie jednotlivých elementov povinné, odporúčané alebo voliteľné●        môže nadobúdať nasledujúce hodnoty

○        M - mandatory (povinné vyplniť - element je súčasťou každého záznamu)○        MA - mandatory if available (povinne vyplniť pokiaľ je to možné, ak možno a pod.)○        R - recommended (plnenie hodnôt elementu je odporúčané, nie je však povinné)○        RA - recommended if available (odporúča sa pokiaľ možno plniť)○        O - optional (plnenie hodnôt elementu je voliteľné podľa konkrétnych potrieb)

  

Page 67: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

<div> type Atribúty Popis Povinnosť

MONOGRAPH LABELTYPEID

<div> obsahuje údaje nadradené zväzkuLABEL - názov celej monografieTYPE-hodnota MONOGRAPHID - identifikátor <div>, hodnota napr. MONOGRAPH_0001

M

VOLUME alebo Supplement

LABELTYPEIDDMDID

<div> obsahuje údaje o zväzku monografie alebo o jeho prílohe-----------------------------------LABEL - názov (titul) zväzku monografie, teda napr. "Rysavá jalovica"TYPE-hodnota VOLUME alebo SupplementID - identifikátor <div>, napr. hodnota "VOLUME_0001" alebo "SUPPL_0001"DMDID - obsahuje identifikátor DMD popisnej časti MODS zväzku / prílohy

M

CHAPTER LABELTYPEIDDMDIDORDER

<div> obsahujúci údaje o jednom textovom oddiele a jeho častiach------------------------------------LABEL - názov textového oddielu (napr. kapitola, článok v zborníku a pod.)TYPE - hodnota CHAPTER s poradovým číslom, napr. CHAPTER_0001ID - identifikátor <div> elementuDMDID - identifikátor popisných metadátORDER - poradie oddielu

M

    <div> TYPE = "CHAPTER" môže obsahovať ďalšie vnorenia <div> rôznych typov popisujúce rôzne časti textového oddielu, rozlišujeme tieto časti (typy):- TITLE- SUBTITLE- AUTHOR- TRANSLATOR- NORMAL_TEXT - bežný text bez ďalšieho spresnenia  - PICTURE- NOTE- CHAPTER_PART – pri oddieloch, ktoré sú rozdelené na viac miest na jednej strane alebo viacerých stranách (napr. v prípade článkov v zborníku)tento <div> pre jednu súčasť rozdeleného článku potom môže obsahovať rovnaké časti ako <div> pre oddiel, t.j. (TITLE, SUBTITLE, AUTHOR, TRANSLATOR, NORMAL_TEXT, PICTURE)

 

TITLE TYPEIDORDER

<div> obsahujúci link na textový blok s nadpisom oddielu (napr. kapitoly)-------------------------------------TYPE - hodnota "TITLE"ID - identifikátor <div> elementu, ktorý popisuje jednu časť oddielu (nadpis), napr. hodnota "CHAPTER_PART_0001"ORDER - poradie časti oddielu

MA

   <fptr>                <area>

FILEIDBEGIN

FILEID - ID ALTO XML súboru, napr. "ALTO_PAGE_0001"BEGIN - ID textového bloku v ALTO XML súboru

 

Page 68: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

BETYPE BETYPE - hodnota IDREF

SUBTITLE TYPEIDORDER

<div> obsahujúci link na textový blok s podnadpisom-------------------------------------TYPE - hodnota "SUBTITLE"ID - identifikátor <div> elementu, ktorý opisuje jednu časť oddielu (podnadpis), napr. hodnota "CHAPTER_PART_0002"ORDER - poradie časti oddielu

MA

   <fptr>                <area>

FILEIDBEGINBETYPE

FILEID - ID ALTO XML súboru, napr. "ALTO_PAGE_0001"BEGIN - ID textového bloku v ALTO XML súboruBETYPE - hodnota IDREF

 

AUTHOR TYPEIDORDER

<div> obsahujúci link na textový blok s menom autora-------------------------------------TYPE - hodnota "AUTHOR"ID - identifikátor <div> elementu, ktorý popisuje jednu časť oddielu (autor), napr. hodnota "CHAPTER_PART_0003"ORDER - poradie časti oddielu

MA

   <fptr>                <area>

FILEIDBEGINBETYPE

FILEID - ID ALTO XML súboru, napr. "ALTO_PAGE_0001"BEGIN - ID textového bloku v ALTO XML súboruBETYPE - hodnota IDREF

 

TRANSLATOR TYPEIDORDER 

<div> obsahujúce link na textový blok s menom prekladateľa-------------------------------------TYPE - hodnota "TRANSLATOR"ID - identifikátor <div> elementu, ktorý popisuje jednu časť oddielu (prekladateľ), napr. hodnota "CHAPTER_PART_0003"ORDER - poradie časti oddielu

MA

   <fptr>                <area>

FILEIDBEGINBETYPE

FILEID - ID ALTO XML súboru, napr. "ALTO_PAGE_0001"BEGIN - ID textového bloku v ALTO XML súboruBETYPE - hodnota IDREF

 

NORMAL_TEXT TYPEIDORDER

<div> obsahujúci link na textový blok (najčastejšie odsek) s bežným textom-------------------------------------TYPE - hodnota "NORMAL_TEXT"ID - identifikátor <div> elementu, ktorý popisuje jednu časť oddielu (bežný text), napr. hodnota "CHAPTER_PART_0004"ORDER - poradie časti oddielu

M

   <fptr>                <area>

FILEIDBEGINBETYPE

FILEID - ID ALTO XML súboru, napr. "ALTO_PAGE_0001"BEGIN - ID textového bloku v ALTO XML súboruBETYPE - hodnota IDREF

 

PICTURE LABELTYPEIDDMDIDORDER

<div> pre obraz patriaci k textovému oddielu;plní sa, ak sa obraz vyskytuje-------------------------------------LABEL - názov obrazu ak existujeTYPE - PICTUREID - identifikátor <div> elementu, ktorý popisuje jednu časť oddielu (bežný text), napr. hodnota "CHAPTER_PART_0003"DMDID - link na bibliografický popis obrazu

MA

Page 69: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

ORDER - poradie obrazu

     <div> element s typom PICTURE môže obsahovať ďalšie <div> elementy s typmi CAPTION, PICT_AUTHOR, PICT_TITLE a IMAGE;- CAPTION obsahuje text prípadného popisku k obrazu- PICT_AUTHOR obsahuje text s menom prípadného autora obrazu- PICT_TITLE obsahuje text názvu obrazu, ak nejaký názov existuje- IMAGE - obsahuje link do súboru ALTO XML na blok popisujúci vlastný obraz

 

   CAPTION TYPEID

<div> obsahujúci link na textový blok s popisom obrazu-------------------------------------TYPE - hodnota CAPTIONID - identifikátor <div> elementu, napr. "CHAPTER_PART_4"

MA

                <fptr>                  <area>

FILEIDBEGINBETYPE

FILEID - ID ALTO XML súboruBEGIN - ID textového bloku v ALTO XML súboruBETYPE - hodnota IDREF

 

   PICT_AUTHOR TYPEID 

<div> obsahujúci link na textový blok s autorom obrazu-------------------------------------TYPE - hodnota PIT_AUTHORID - identifikátor <div> elementu, napr. "CHAPTER_PART_5"

MA

                <fptr>                   <area>

FILEIDBEGINBETYPE

FILEID - ID ALTO XML súboruBEGIN - ID textového bloku v ALTO XML súboruBETYPE - hodnota IDREF

 

   PICT_TITLE TYPEID 

<div> obsahujúci link na textový blok s názvom obrazu-------------------------------------TYPE - hodnota PICT_TITLEID - identifikátor <div> elementu, napr. "CHAPTER_PART_6"

MA

                <fptr>                   <area>

FILEIDBEGINBETYPE

FILEID - ID ALTO XML súboruBEGIN - ID textového bloku v ALTO XML súboruBETYPE - hodnota IDREF

 

   IMAGE TYPEID 

<div> obsahujúce link na komponovaný blok ALTO XML obsahujúci súradnice vlastného obrazu-------------------------------------TYPE - hodnota IMAGEID - identifikátor <div> elementu, napr. "CHAPTER_PART_7"

MA

                <fptr>                   <area>

FILEIDBEGINBETYPE

FILEID - ID ALTO XML súboruBEGIN - ID komponovaný blok v ALTO XML súboruBETYPE - hodnota IDREF

 

NOTE ID <div> obsahujúce link na textový blok s poznámkami k textu--------------------------------------ID - identifikátor <div> elementu, napr. "CHAPTER_PART_9"

 

CHAPTER_PART TYPE <div> obsahujúce ďalšie vnorené <div> odkazujúce na jednotlivé MA

Page 70: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

IDORDER

časti konkrétnej časti rozdeleného textového oddielu;možno použiť pre delený oddiel (typu článok napr. v zborníku)Pozn: pod <div> TYPE = "CHAPTER_PART" možno vnoriť všetky typy <div> ako pod <div> TYPE = "CHAPTER"-------------------------------------TYPE - hodnota "CHAPTER_PART"ID - identifikátor <div> konkrétne časti, pre prvú časť deleného oddielu napr. "CHAPTER_2-1", t.j. prvý Ca st oddielu 2ORDER - poradie konkrétnej časti deleného oddielu

 

8.6.1.2.2 Vyjadrenie logickej štruktúry pre kapitoly bez väzby na ALTO bloky (iba s väzbami na strany)

●        bude mať nasledujúce atribúty <structMap LABEL="Logical_Structure "TYPE="LOGICAL">●        logická štruktúra na úrovni kapitol alebo napr. ilustrácií sa opisuje pomocou do seba vnorených elementov <div>, ale ďalej už neobsahuje elementy <fptr> a <area>●        existuje teda len zoznam popísaných kapitol a samostatných obrázkov (tých, ktoré nie sú súčasťou kapitoly) ako v prípade predchádzajúcej kapitoly (8.6.1.2.1), ale bez väzieb na ALTO bloky●        zoznam strán k jednotlivým článkom je obsiahnutý v elemente <structLink> - popísané v kapitole 8.7

 Príklad: <mets:structMap LABEL="Logical_Structure" TYPE="LOGICAL">   <mets:div LABEL="Mladý fotografMladý fotograf, 1987" TYPE="MONOGRAPH" ID="MONOGRAPH_0001">                <Mets: div LABEL = "Mladý fotografMladý fotograf, 1987" DMDID = "MODSMD_VOLUME_0001"                TYPE = "VOLUME" ID = "VOLUME_0001">         <Mets: div LABEL = "Základy" TYPE = "CHAPTER" ID = "CHAPTER_0001"          DMDID = "MODSMD_CHAPTER_0001" />         <Mets: div LABEL = "Orientácia" TYPE = "CHAPTER" ID = "CHAPTER_0002"          DMDID = "MODSMD_CHAPTER_0002" />                   <Mets: div LABEL = "Svetlo" TYPE = "CHAPTER" ID = "CHAPTER_0003"         DMDID = "MODSMD_CHAPTER_0003" />                </ Mets: div>                <Mets: div LABEL = "Príloha 1" DMDID = "MODSMD_SUPPLEMENT_0001"      TYPE = "Supplement" ID = "SUPLEMENT_0001">                   <mets:div TYPE="PAGE">                      <Mets: div LABEL = "Hra tieňov" TYPE = "PICTURE" ID = "PICTURE_0001"

Page 71: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

                       DMDID = "MODSMD_PICTURE_0001" />         </ Mets: div>      </ Mets: div>   </ Mets: div></ Mets: structMap> 

8.6.1.2.3 Vyjadrenie logickej štruktúry bez popisu kapitol●        bude mať nasledujúce atribúty <structMap LABEL="Logical_Structure "TYPE="LOGICAL">●        logická štruktúra na úrovni čísla a prípadné prílohy periodika sa vyjadruje pomocou vnorených elementov <div>●        zoznam strán k číslu a prílohe je obsiahnutý v elemente <structLink> - popísané v kapitole 8.7

 Príklad: <mets:structMap LABEL="Logical_Structure" TYPE="LOGICAL">   <mets:div LABEL="Mladý fotografMladý fotograf, 1987" TYPE="MONOGRAPH" ID="MONOGRAPH_0001">                <Mets: div LABEL = "Mladý fotografMladý fotograf, 1987" DMDID = "MODSMD_VOLUME_0001"      TYPE = "VOLUME" ID = "VOLUME_0001" />                <Mets: div LABEL = "Príloha 1" DMDID = "MODSMD_SUPPLEMENT_0001"      TYPE = "Supplement" ID = "SUPLEMENT_0001">         <mets:div TYPE="PAGE">            <Mets: div LABEL = "Hra tieňov" TYPE = "PICTURE" ID = "PICTURE_0001"             DMDID = "MODSMD_PICTURE_0001" />         </ Mets: div>      </ Mets: div>   </ Mets: div></ Mets: structMap> 

8.6.2 <structMap> vedľajšieho záznamu METS (AMD_METS.xml) 

●        bude obsahovať len fyzickú štrukturálnu mapu (TYPE = "Physical")●        tá bude obsahovať iba jeden <div> element s atribútom TYPE = "MONOGRAPH_PAGE"●        do <div> budú vnorené odkazy na jednotlivé reprezentácie strany zväzku (MC, ALTO XML a OCR.TXT) pomocou elementu <fptr> s atribútom FILEID

 <mets:structMap TYPE="PHYSICAL">   <mets:div TYPE="PERIODICAL_PAGE">      <mets:fptr FILEID="MC_anl001-000003_0001"/>

Page 72: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

      <mets:fptr FILEID="UC_anl001-000003_0001"/>      <mets:fptr FILEID="ALTO_anl001-000003_0001"/>      <mets:fptr FILEID="TXT_anl001-000003_0001"/>   </ Mets: div></ Mets: structMap> 

  

8.7 METS časť <structLink> - Výpočet strán●        element <structLink> obsahuje zoznam strán jednotlivých úrovní monografie na základe pridania väzieb medzi logickou a fyzickou štrukturálnou mapou●        element <structLink> obsahuje subelement <smLink>, ktorý obsahuje atribúty "xlink: from" a "xlink: to"

○        "Xlink: from" obsahuje ID divu z logickej štrukturálnej mapy○        "Xlink: to" obsahuje ID divu strany z fyzickej štrukturálnej mapy

8.7.1 Výpočet strán v prípade popisu vnútorných častí (s odkazmi na bloky ALTA i bez nich)

●        vzťahuje sa ku kapitolám 8.6.1.2.1 a 8.6.1.2.2●        element <structLink> obsahuje:

○        zoznam strán jednotlivých kapitol a prípadných samostatných obrázkov (obrázky, ktoré sú zahrnuté v článku, sa nepopisujú zvlášť) (ID divu z logické štrukturálnej mapy pre úroveň článkov a obrázkov)○        zoznam strán celého výtlačku a prípadné prílohy (ID divu z logickej štrukturálnej mapy pre úroveň čísla periodika a prílohy)

 Príklad (monografie, ktorá má popísané dve kapitoly a obsahuje prílohu, ktorá obsahuje jeden samostatný obrázok (nie je súčasťou kapitoly) - ukážka vrátane logickej štrukturálnej mapy): <mets:structMap LABEL="Logical_Structure" TYPE="LOGICAL">   <mets:div LABEL="Mladý fotograf, 1987" TYPE="MONOGRAPH" ID="MONOGRAPH_0001">                <Mets: div LABEL = "Mladý fotograf, 1987" DMDID = "MODSMD_VOLUME_0001"                TYPE = "VOLUME" ID = "VOLUME_0001">                  <Mets: div LABEL = "Základy" TYPE = "CHAPTER" ID = "CHAPTER_0001"                    DMDID = "MODSMD_CHAPTER_0001" />                   <Mets: div LABEL = "Svetlo" TYPE = "CHAPTER" ID = "CHAPTER_0002"                    DMDID = "MODSMD_CHAPTER_0002" />

Page 73: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

                   <Mets: div LABEL = "Manuálne ostrenie" TYPE = "CHAPTER" ID = "CHAPTER_0003"                    DMDID = "MODSMD_CHAPTER_0003" />                </ Mets: div>                <Mets: div LABEL = "Príloha 1" DMDID = "MODSMD_SUPPLEMENT_0001"                TYPE = "Supplement" ID = "SUPLEMENT_0001">                   <mets:div TYPE="PAGE">                      <Mets: div LABEL = "Hra tieňov" TYPE = "PICTURE" ID = "PICTURE_0001"             DMDID = "MODSMD_PICTURE_0001" />                   </ Mets: div>                </ Mets: div>   </ Mets: div></ Mets: structMap><mets:structLink>   <mets:smLink xlink:from="CHAPTER_0001" xlink:to="DIV_P_PAGE_0000"/>   <mets:smLink xlink:from="CHAPTER_0001" xlink:to="DIV_P_PAGE_0001"/>   <mets:smLink xlink:from="CHAPTER_0002" xlink:to="DIV_P_PAGE_0002"/>   <mets:smLink xlink:from="CHAPTER_0002" xlink:to="DIV_P_PAGE_0003"/>   <mets:smLink xlink:from="PICTURE_0001" xlink:to="DIV_P_PAGE_0004"/>   <mets:smLink xlink:from="PICTURE_0001" xlink:to="DIV_P_PAGE_0005"/>   <mets:smLink xlink:from="VOLUME_0001" xlink:to="DIV_P_PAGE_0000"/>   <mets:smLink xlink:from="VOLUME_0001" xlink:to="DIV_P_PAGE_0001"/>   <mets:smLink xlink:from="VOLUME_0001" xlink:to="DIV_P_PAGE_0002"/>   <mets:smLink xlink:from="VOLUME_0001" xlink:to="DIV_P_PAGE_0003"/>   <mets:smLink xlink:from="SUPPLEMENT_0001" xlink:to="DIV_P_PAGE_0004"/>   <mets:smLink xlink:from="SUPPLEMENT_0001" xlink:to="DIV_P_PAGE_0005"/></ Mets: structLink> 

8.7.2 Výpočet strán bez popisu vnútorných častí●        vzťahuje sa ku kapitole 8.6.1.2.3●        element <structLink> obsahuje:

○        zoznam strán monografie a prípadné prílohy (ID divu z logickej štrukturálnej mapy pre úroveň monografie a prílohy)

 Príklad (monografie obsahujúce prílohu - ukážka vrátane logickej štrukturálnej mapy): <mets:structMap LABEL="Logical_Structure" TYPE="LOGICAL">   <mets:div LABEL="Mladý fotograf, 1987" TYPE="MONOGRAPH" ID="MONOGRAPH_0001">                <Mets: div LABEL = "Mladý fotograf, 1972" DMDID = "MODSMD_VOLUME_0001"                TYPE = "VOLUME" ID = "VOLUME_0001" />

Page 74: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

                <Mets: div LABEL = "Príloha 1" DMDID = "MODSMD_SUPPLEMENT_0001"                TYPE = "Supplement" ID = "SUPLEMENT_0001" />   </ Mets: div></ Mets: structMap><mets:structLink><mets:smLink xlink:from="VOLUME_0001" xlink:to="DIV_P_PAGE_0000"/>   <mets:smLink xlink:from="VOLUME_0001" xlink:to="DIV_P_PAGE_0001"/>   <mets:smLink xlink:from="VOLUME_0001" xlink:to="DIV_P_PAGE_0002"/>   <mets:smLink xlink:from="VOLUME_0001" xlink:to="DIV_P_PAGE_0003"/>  <mets:smLink xlink:from="SUPPLEMENT_0001" xlink:to="DIV_P_PAGE_0004"/>   <mets:smLink xlink:from="SUPPLEMENT_0001" xlink:to="DIV_P_PAGE_0005"/></ Mets: structLink> 

8.8 OCR (ALTO XML a TXT OCR) 

●        bude použitá posledná verzia formátu ALTO XML aktuálna v čase implementácie, alebo predchádzajúca verzia (pozri http://www.loc.gov/standards/alto/ )●        nižšie uvedená špecifikácia neobsahuje všetky elementy a atribúty formátu ALTO XML, obsahuje len tie, ktoré sú pre túto konkrétnu špecifikáciu relevantné - každý uvedený element má vyjadrenú mieru relevancie výrazmi: povinné, odporúčané a nepovinné●        elementy a atribúty, ktoré v tejto špecifikácii nie sú uvedené, nepovažujeme pre účely špecifikácie za dôležité●        ALTO XML aj OCR TXT vzniknú pre všetky obrazové súbory patriace k jednej intelektuálnej entite (zväzku monografie) vrátane prázdnych strán, fotografií , predsádky a pod.●        ALTO XML aj OCR TXT budú vznikať na úrovni strany●        ALTO XML súbor pre úplne prázdne strany bude obsahovať element / alto / Layout / Page / PrintSpace, ten však nebude obsahovať podelementy / alto / Layout / Page / PrintSpace / TextBlock; / alto / Layout / Page / PrintSpace / TextBlock / Illustration; / alto / Layout / Page / PrintSpace / TextBlock / GraphicalElement ani / alto / Layout / Page / PrintSpace / TextBlock / ComposedBlock●        štruktúra ALTO XML bude generovaná na úrovni rozpoznania slov pomocou nástroja pre OCR●        kvalita rozpoznania znakov bude akceptovaná do určitej hranice, výstupy nebudú ručne opravované●        štruktúra ALTO umožní vyhľadávanie textu a jeho zvýraznenie na úrovni slova, ak bude použitý zodpovedajúci prehliadač

Page 75: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

●        obrazy reprezentujúce stranu, ktoré budú použité ako UC, musia zodpovedať rozmermi, orientáciou a natočením obrazu, ktorý bol použitý pre vytvorenie OCR●        OCR TXT bude vznikať z hotových ALTO XML počas procesu digitalizácie●        ALTO XML sa bude vytvárať iba pre novodobé dokumenty, alebo dokumenty s určitou hranicou kvality OCR●        meno OCR súboru musí zodpovedať menu obrazového súboru, ku ktorému patrí; napr. pr_0007.jp2 a al_0007.xml alebo napr. 123456_006_alto.xml a 123456_006_archiv.jp2●        kódovanie ALTO XML aj TXT OCR musí byť v UTF-8●        súradnice pozícií (HPOS, VPOS, WIDTH, HEIGHT) musia byť vyjadrené v pixeloch

 ●        v tejto špecifikácii ALTO XML sa počíta s OCR aj pre text mimo tzv. textové "zrkadlo", t.j. mimo hlavný text, ako sú napr. čísla strán, bežiace nadpisy ani iné časti vyskytujúce sa na okrajoch strany (top, left, top a bottom margin)

○        elementy topMargin, leftMargin, rightMargin, bottomMargin budú obsahovať elementy <TextBlock>, pre ktoré platia rovnaké pravidlá, ako pre element <textBlock> pre hlavný text strany○        pozor: údaje z OCR mimo hlavný text strany by nemali byť vyhľadateľné v aplikácii pre sprístupnenie, dochádzalo by k zmäteniu používateľa a výsledkov (napr. pri hľadaní titulu kapitoly by boli zobrazené výsledky pre každú stranu, ktorá obsahuje bežiaci nadpis a pod.)

 ●        ak je na konci vety deliace znamienko, ALTO XML aj OCR TXT musí obsahovať oba fragmenty slova a súčasne tiež kompletné slovo - je vysvetlené ďalej v tabuľke●        ilustrácie, reklamy a iné grafické časti strany nebudú vyjadrené v ťahoch / alto / Layout / Page / PrintSpace / Illustration ani Layout / Page / PrintSpace / GraphicalElement, tieto nie sú v popise / tabuľke nižšie vôbec uvedené●        ilustrácie, reklamy a iné grafické časti strany budú vyjadrené v tagu / alto / Layout / Page / PrintSpace / ComposedBlock / s vyjadrením atribútu TYPE, ktorý bude označovať typ bloku (illustration, advertisement ai)

○        napr. ilustrácie bude popísaná v elemente / alto / Layout / Page / PrintSpace / ComposedBlock / GraphicalElement, kde ComposedBlock TYPE je Illustration○        reklama s textom v rámčeku bude popísaná v elemente Layout / Page / PrintSpace / ComposedBlock / TextBlock, kde ComposedBlock TYPE je Advertisement○        tabuľky, grafy obdobne

●        elementy / alto / Layout / Page / PrintSpace / ComposedBlock / Illustration a Layout / Page / PrintSpace / ComposedBlock / ComposedBlock tiež nebudú využité

Page 76: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

●        / Alto / Layout / Page / PrintSpace / ComposedBlock / TextBlock a / alto / Layout / Page / PrintSpace / ComposedBlock / GraphicalElement nebudú obsahovať elementy <Shape>; tvar týchto blokov je vyjadrený v elemente <Shape> samotného elementu <ComposedBlock>; logicky potom súradnice tvaru <TextBlock> alebo <GraphicalElement> obsiahnutého v / alto / Layout / Page / PrintSpace / ComposedBlock sú väčšinou zhodné, ak nie je tvarov alebo blokov v rámci / alto / Layout / Page / PrintSpace / ComposedBlock viac●        všetky vyplnené hodnoty sú príklady plnenia, plnenie v konkrétnej inštitúcii je nutné špecifikovať vlastnými pravidlami a kontrolovanými slovníky●        ALTO XML bude využívané pre tzv. poradie čítania. Napríklad článok vyskytujúci sa na viacerých stranách alebo na viacerých rôznych miestach jednej strany bude možné zobraziť celý a v správnom poradí. K tomu je nutné poznať jeho štruktúru. Štruktúra bude vyjadrená v korešpondujúcom METS zázname v logickej štrukturálnej mape. Tá bude obsahovať odkazy na jednotlivé textové bloky článku, pomocou ID textových blokov použitých v ALTO XML.

  Obsah poľa "Popis":

●        vysvetlenie a príklad●        odporúčané plnenia tam, kde je to možné●        výskyt elementu (ako je definované formátom ALTO XML - podľa XSD)

○        0-1 element je voliteľný, neopakovateľný○        0-n element je voliteľný, opakovateľný

 Význam pole "Povinnosť"

●        poľa "Povinnosť" uvádza, či je plnenie jednotlivých elementov povinné, odporúčané alebo voliteľné●        môže nadobúdať nasledujúcich hodnôt

○        M - mandatory (povinne vyplniť - element je súčasťou každého záznamu)○        MA - mandatory if available (povinne vyplniť pokiaľ je to možné, ak možno a pod.)○        R - recommended (plnenie hodnôt elementu je odporúčané, nie je však povinné)○        RA - recommended if available (odporúča sa pokiaľ možno plniť)○        O - optional (plnenie hodnôt elementu je voliteľné podľa konkrétnych potrieb)

●        POZOR - pri elementoch, ktoré obsahujú atribúty, sú tieto atribúty rozpísané pod čiarou (vysvetlenie, povinnosť uvádzania a pod.)

  

Element Atribút Popis Povinnosť

Page 77: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

<Description>      

   <MeasurementUnit>   meracia jednotka pre súradnice v ALTO XML;možné hodnoty - dpi, pixel, inch1200 a MM10);inch1200 = 1/1200 inch;doporučené plnenie je "MM10" alebo "pixel";0-1

M

<sourceImageInformation>

  informácie o obrazovom súbore, z ktorého vzniklo ALTO XML;0-1

M

      <fileName> 

  meno obrazového súboru, z ktorého bolo ALTO XML vytvárané; ideálne s filesystem cestou jeho uloženia;napr. nlaImageSeq-33386-b.tif / / produkce/OCR/digibok_XY/XY_011.tiff0-1

M

                <fileIdentifier>   jedinečný identifikátor obrazového súboru;0-n

R

   <OCRProcessing> ID popis procesu vzniku OCR;0-n---------------------------------------------ID OCR procesu, napr. <OCRProcessing ID="OCRPROCES_1">;Povinné

M

      <preProcessingStep>

  procesy pred vznikom OCR, ktoré vykonáva SW pre OCR (napr. natočenie obrazu)0-n

M

                   <processingDateTime>

  určenie času procesu, ktorý predchádzal samotnému OCR;napr. 2008-03-29T19: 42:23 podľa ISO 8601 na úrovni sekúnd;0-1

O

                   <processingAgency>

  meno alebo kód inštitúcie, napr. SNK, názov externej firmy a pod;odporúčame použiť kontrolovaný slovník hodnôt;0-1

R

         <processingStepDescription>

  popis procesu (napr. zarovnanie, orez a pod.);0-n

O

Page 78: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

         <processingStepSettings>

  nastavenie kroku popísaného v <processingStepDescription>, napr. CCS OCR Processing Filter0-1

O

         <processingSoftware>

  popis SW, ktorý upravoval obrázok pred vznikom OCR;0-1

M

                      <softwareCreator>

  výrobcu softvéru - napr. CCS Content Conversion Specialists GmbH, Germany;0-1

M

                      <softwareName>

  meno softvéru - napr. CCS docWORKS;0-1

M

                      <softwareVersion>

  verzia SW, napr. 6.2-1.16;0-1

M

      <ocrProcessingStep>

  popis procesu vzniku OCR1-1 - povinné polia

M

                   <processingDateTime>

  okamih kedy bolo OCR vytvorené;nutné zapísať v ISO 8601 na úrovni sekúnd;0-1

M

                   <processingAgency>

  meno alebo kód inštitúcie, napr. NK CZodporúčame použiť kontrolovaný slovník hodnôt;0-1

M

         <processingSoftware>

  popis SW, ktorý robil vlastné OCR;0-1

M

                      <softwareCreator>

  výrobcu softvéru - napr. ABBYY, Russia;0-1

M

                      <softwareName>

  meno softvéru - napr. FineReader;0-1

M

                      <softwareVersion>

  napr. 8.0;0-1

M

<Styles>   štýly definujú vlastnosti jednotlivých grafických prvkov strany.štýl definovaný v elemente vrchnej úrovne je použitý ako predvolený pre podriadené elementy;0-1

M

   <TextStyle> IDFONTSTYLE

definuje font textu;0-n

M

Page 79: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

FONTFAMILYFONTSIZE 

-----------------------------------------ID pre každý text style použitý v OCR súbore - povinné FONTSTYLE - napr. bold, italics a pod.; odporúčame používať kontrolovaný slovník;odporúčané FONTFAMILY - napr. arial, Calibri a pod.; odporúčame používať kontrolovaný slovník;povinné FONTSIZE - veľkosť fontu, napríklad 10, 12 a pod.;povinné 

   <ParagraphStyle> IDALIGN

definuje formátovanie textových blokov;0-n---------------------------------------------ID pre každý odsek + zarovnanie;napr. PAR_01, PAR_02 a pod.povinné ALIGN - zarovnanie; povolené hodnoty: Left, Right, Center, Block ai;Povinné

M

<Layout>   layout - rozloženie štruktúr (slov, odsekov a pod) na jednej strane dokumentu;1-1 povinný výskytelement nie je udržiavací

M

   <Page> IDAccuracyPOSITIONQUALITYPHYSICAL_IMG_NRHEIGHTWIDTHPC 

element popisujúci jednu stranyu dokumentu;1-n---------------------------------------------ID - vygenerovaný identifikátor strany, napr. PAGE1, alebo P1 a pod.;povinné Accuracy - percentuálny odhad presnosti OCR (0-100);odporúčané POSITION - pozícia strany; hodnoty na plnenie: Left, Right, Foldout, Single, Cover;nepovinné QUALITY - krátky údaj o kvalite predlohy strany; hodnoty na plnenie:

M

Page 80: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

OK, Missing, Missing in original, Damaged, Retained, Target, As in original;nepovinné Phys CAL_IMG_NR - fyzické (poradové) číslo strany v dokumente vyjadrené číslom, napr. 1,2,3 a pod.;povinné WIDTH - šírka strany vyjadrená v pixeloch;povinné HEIGHT - výška strany vyjadrená v pixeloch;povinné PC = Confidence level OCR súboru - hodnota medzi 0 (neistá kvalita) a 1 (dobrá kvalita);nepovinné; ak nevyplníte Accuracy - tak je vyplnenie odporúčané 

      <TopMargin> IDHPOSVPOSWIDTHHEIGHT

horný okraj - priestor medzi vrchnou hranou listu a vrchnou linkou textu;0-1---------------------------------------------ID: unikátne ID pre element TopMargin, napr. P1_TM0001 (page 1, topMargin0001);povinné HPOS: horizontálna pozícia;povinné VPOS: vertikálna pozícia;povinné WIDTH - šírka vrchného okraja;povinné HEIGHT - výška vrchného okraja;Povinné

M

         <TextBlock> rovnaké plnenie a pravidlá ako pre element <TextBlock> vnorený do elementu <PrintSpace>

  MA

      <LeftMargin> IDHPOSVPOSWIDTH

ľavý okraj - priestor medzi ľavým okrajom strany a textom;0-1---------------------------------------------

M

Page 81: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

HEIGHT ID: unikátne ID pre element LeftMargin, napr. P1_LM0001 (page 1, leftMargin0001);povinné HPOS: horizontálna pozícia;povinné VPOS: vertikálna pozícia;povinné WIDTH - šírka ľavého okraja;povinné HEIGHT - výška ľavého okraja;Povinné

         <TextBlock> rovnaké plnenie a pravidlá ako pre element <TextBlock> vnorený do elementu <PrintSpace>

  MA

      <RightMargin> IDHPOSVPOSWIDTHHEIGHT

pravý okraj - priestor medzi pravým okrajom strany a textom;0-1---------------------------------------------ID: unikátne ID pre element RightMargin, napr. P1_RM0001 (page 1, rightMargin0001);povinné HPOS: horizontálna pozícia;povinné VPOS: vertikálna pozícia;povinné WIDTH - šírka pravého okraja;povinné HEIGHT - výška pravého okraja;povinné

M

         <TextBlock> rovnaké plnenie a pravidlá ako pre element <TextBlock> vnorený do elementu <PrintSpace>

  MA

                <BottomMargin>

IDHPOSVPOSWIDTHHEIGHT

pravý okraj - priestor medzi spodným okrajom strany a textom;0-1---------------------------------------------ID: unikátne ID pre element BottomMargin, napr. P1_BM0001 (page 1, bottomMargin0001);

M

Page 82: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

povinné HPOS: horizontálna pozícia;povinné VPOS: vertikálna pozícia;povinné WIDTH - šírka spodného okraja;povinné HEIGHT - výška spodného okraja;povinné

         <TextBlock> rovnaké plnenie a pravidlá ako pre element <TextBlock> vnorený do elementu <PrintSpace>

  MA

      <PrintSpace> IDHPOSVPOSWIDTHHEIGHT

popis tvaru pokrývajúceho textové pole strany;0-1---------------------------------------------ID: unikátne ID pre element <printSpace>, napr. P1_PS0001 (page 1, printSpace0001); - povinné HPOS: horizontálna pozícia;povinné VPOS: vertikálna pozícia;povinné WIDTH - šírka textového poľa;povinné HEIGHT - výška textového poľa;povinné

M

         <TextBlock> IDSTYLEREFSHPOSVPOSWIDTHHEIGHT

popisy textových blokov na konkrétnej strane;0-nak je strana prázdna, TextBlock nie je potrebné uvádzať;ak je na strane text tak áno--------------------------------------------ID obsahuje identifikátor textového bloku na strane, napr. "BLOCK1" alebo P1_TB0002 (strana 1, textový blok 2);povinné STYLEREFS: referencie na ID definície formátovanie textových blokov <ParagraphStyle>;povinné

MA

Page 83: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

 HPOS: horizontálna pozícia bloku;povinné VPOS: vertikálna pozícia bloku;povinné WIDTH - šírka textového bloku;povinné HEIGHT - výška textového bloku;povinné

                      <Shape>   tvar textového bloku;0-1 - pre jeden výskyt <TextBlock> jeden alebo žiadny výskyt <Shape>;plniť v prípade, že je tvar textového bloku neštandardný (viacuholníky)

RA

                         <Polygon>

POINTS opis (súradnice) tvaru viacuholníkov;0-1---------------------------------------------POINTS - vyjadrenie jednotlivých bodov viacuholníkov;Povinné

M

                      <TextLine>

IDSTYLEREFSHPOSVPOSWIDTHHEIGHT

popis jednéhoj riadku textu v rámci textového bloku;1-nnutný aspoň jeden výskyt v rámci textového bloku---------------------------------------------ID obsahuje identifikátor riadkov textu v textovom bloku, napr. "P1_TL0002 (strana 1, riadok 2);povinné STYLEREFS: referencie na ID definície formátovania textových blokov <ParagraphStyle>;nepovinné HPOS: horizontálna pozícia riadku;povinné VPOS: vertikálna pozícia riadku;povinné WIDTH - šírka riadku;povinné HEIGHT - výška riadku;Povinné

M

                         <String> ID reťazec znakov - vlastný obsah OCR; M

Page 84: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

CONTENTHEIGHTWIDTHHPOSVPOSCCWC V prípade delenia slov tiež:SUBS_TYPESUBS-CONTENT

znaky tvoria jednotlivé slová a viac tagov <String> vetu <TextLine>;1-nv rámci <TextLine>---------------------------------------------ID obsahuje unikátne sekvenčné číslo reťazca na strane, napr. "P3_ST0001" (strana 3, reťazec 1);povinné CONTENT - ukladá vlastný reťazec znakov (slovo);povinné HPOS: horizontálna pozícia reťazca;povinné VPOS: vertikálna pozícia reťazca;povinné WIDTH - šírka reťazca;povinné HEIGHT - výška reťazca;povinné CC - úroveň dôvery v presnosť OCR rozpoznania každého znaku v reťazci;ide o zoznam čísel, každé z nich medzi hodnotami 0 (istá) a 9 (neistá) pre každý znak;napr. CC = "0001" pre CONTENT = "TEXT";povinné WC - úroveň dôvery v presnosť OCR výstupu celého reťazca - slová (word confidence);hodnota medzi 0 (neistá) a 1 (istá);napr. WC = "0,99";povinné SUBS_CONTENT - obsah chýbajúcej časti reťazca v prípade, že je slovo na konci riadka rozdelené aj do druhého riadka;obsahuje celý reťazec - aby bol vyhľadateľný aj v prípade, že slovo sa na strane vyskytuje, ale je rozdelené;povinné SUBS_TYPE - označenie typu substitúcia;možné hodnoty: HypPart1; HypPart2; abbreviation;povinné - pri výskyte SUBS_CONTENT

Page 85: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

 HypPart1 sa vyskytuje pri rozdelení slova v jeho prvej OCR časti (v prvej časti tagu <CONTENT> vo vete (stringu) prvý;HypPart2 sa vyskytuje  v nasledujúcom tagu <CONTENT> v nasledujúcej vete (stringu), ktorý obsahuje druhú časť rozdeleného slova / reťazca;Abbreviation - typ substitúcie používaný pri rozčlenení skratiek v texte na ich plný text;pri delení slov v texte HypPart1 a HypPart2 povinné, abbreviation nepovinné

                               <ALTERNATIVE>

  alternatívna hodnota OCR reťazca pre jednotlivé slová;0-nmožno použiť v prípade neistoty rozpoznanie reťazca;

O

                         <HYP> CONTENTWIDTHHPOSVPOS

zápis znaku rozdeľovníka slov0-1 pre jeden výskyt <TextLine>; vždy pre posledný <String>;môže sa vyskytnúť iba na konci riadka (1x)---------------------------------------------CONTENT - obsahuje reťazec znakov, ktoré sú v texte použité na rozdelenie slova, najčastejšie"-";povinné WIDTH - šírka deliaceho znaku;odporúčané HPOS: horizontálna pozícia deliaceho znaku;odporúčané VPOS: vertikálna pozícia deliaceho znaku;odporúčané 

MA

                         <SP> IDWIDTHHPOSVPOS

prázdny priestor medzi riadkami;0-nv rámci jedného <TextLine>;vždy medzi riadkami, tj medzi tagy <String>;---------------------------------------------ID: unikátne ID pre prázdny priestor medzi riadkami, napr. P1_SP0001 (strana 1, prázdny priestor 0001);povinné

M

Page 86: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

 HPOS: horizontálna pozícia;povinné VPOS: vertikálna pozícia;povinné WIDTH - šírka prázdneho priestoru;povinné 

                   <ComposedBlock>

IDTYPEHPOSVPOSWIDTHHEIGHTSTYLEREFS

blok pozostávajúci z iných blokov;môže obsahovaťPrintSpace / ComposedBlock / TextBlock, PrintSpace / ComposedBlock / Illustration, PrintSpace / ComposedBlock / GraphicalElement, / PrintSpace / ComposedBlock / ComposedBlock, t.j. rovnaké elementy (bloky), ktoré obsahuje samotný element / alto / Layout / Page / PrintSpace;0-npovinné pre vyjadrenie blokov textu (napr. orámovaný text, reklamy), pre vyjadrenie ilustrácií, tabuliek a grafov---------------------------------------------ID: unikátne ID pre komponovaný blok, napr. P6_CB0001 (strana 6, komponovaný blok 0001);povinné TYPE - označenie typu komponovaného bloku; nutné používať kontrolovaný slovník (illustration, Advertisement, a pod.);povinné HPOS: horizontálna pozícia bloku;povinné VPOS: vertikálna pozícia bloku;povinné WIDTH - šírka komponovaného bloku;povinné HEIGHT - výška komponovaného bloku;povinné 

MA

                      <Shape>   tvar komponovaného bloku;0-1 - pre jeden výskyt / alto / Layout / Page / PrintSpace / ComposedBlock jeden alebo žiadny výskyt / alto / Layout

RA

Page 87: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

/ Page / PrintSpace / ComposedBlock / Shape;doporučené - v prípade, že je tvar komponovaného bloku neštandardný (viacuholníky)

               <Polygon> POINTS opis tvaru viacuholníkov;0-1---------------------------------------------POINTS - vyjadrenie jednotlivých bodov viacuholníkovpovinné 

M

                      <TextBlock>

IDSTYLEREFSHPOSVPOSWIDTHHEIGHT

v prípade, že komponovaný blok (napr. orámovaný tvar) obsahuje text;platia rovnaké pravidlá ako pre normálny element / alto / Layout / Page / PrintSpace / TextBlock;0-n (pre jeden výskyt <ComposedBlock> 0 alebo viac elementov / alto / Layout / Page / PrintSpace / ComposedBlock / TextBlock>;plniť ak je v komponovanom bloku text---------------------------------------------ID obsahuje identifikátor textového bloku v komponovanom bloku, napr. P1_CB0002_SUB (strana 1, textový blok 2, SUB značí komponovaný blok);povinné STYLEREFS: referencie na ID definície formátovania textových blokov / alto / Styles / ParagraphStyle;povinné HPOS: horizontálna pozícia bloku;povinné VPOS: vertikálna pozícia bloku;povinné WIDTH - šírka textového bloku;povinné HEIGHT - výška textového bloku;Povinné

MA

                            <TextLine>

/ Alto / Layout / Page / PrintSpace / ComposedBlock / TextBlock / TextLine a ostatné elementy v rámci / alto / Layout / Page /

   

Page 88: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

PrintSpace / ComposedBlock / TextBlock majú rovnaké pravidlá a výskyty ako vo vrchnom elemente / alto / Layout / Page / PrintSpace / TextBlock

                      <GraphicalElement>

IDHPOSVPOSWIDTHHEIGHT 

opis grafického tvaru;v prípade využitia v rámci / alto / Layout / Page / PrintSpace / ComposedBlock označuje rozmery tvaru v rámci ktorého je tabuľka, ilustrácie, reklama a pod;0-1 - pre jeden výskyt / alto / Layout / Page / PrintSpace / ComposedBlock 0 alebo max 1 výskyt <GraphicalElement>;plní sa pokiaľ sú na strane a teda v komponovanom bloku ilustrácie, tabuľky a pod.---------------------------------------------ID - identifikátor grafického tvaru;povinné HEIGHT - výška grafického tvaru;povinné WIDTH - šírka grafického tvaru;povinné HPOS - horizontálna pozícia grafického tvaru;povinné VPOS - vertikálna pozícia grafického tvaru;Povinné

MA

                

1

[1] toto poradie nevyjadruje logickú štruktúru dokumentu, tá je popísaná inde

Page 89: Definícia metadátových formátov pre digitalizáciu monografiídikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewUC vznikla z MC) s popisovaným objektom

[2] http://www.iana.org/assignments/media-types/index.html