141
Definícia metadátových formátov pre digitalizáciu periodík SNK verzia 1.0 2013

Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

       

Definícia metadátových formátov pre digitalizáciu periodík

     

SNKverzia 1.0

      

2013              

Page 2: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

 Autor: Jan HutařÚpravy: Pavla ŠvástováSNK úpravy: Dominik Kubík, Eva Sumková 

História verzií

Meno Dátum Verzia dokumentu Realizované zmeny

 

  

Page 3: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

1 Východiská●        UC = user copy = používateľská kópia●        MC = master copy = archívna kópia●        PS = pôvodný sken - obrazový súbor vzniknutý pri digitalizácii, ktorý sa po spracovaní (orez, vyrovnanie a pod.) vymaže a ďalej sa neukladá●        pri všetkých metadátových formátov budú použité verzie aktuálne v čase implementácie projektu DIKDA alebo verzie predchádzajúce v prípade, že nová verzia je nová min. 3 mesiace●        základná intelektuálna entita vo workflow digitalizácie a následne aj v LTP systémoch= číslo periodika●        PSP balíček - producer submission package

○        balíček dát a metadát, ktorý prichádza od producenta dát (teda napr. z workflow digitalizácie)○        PSP balíček bude obsahovať kompletnú intelektuálnu entitu t.j. číslo periodika○        z workflow digitalizácie je možné poslať viac PSP balíčkov v balíku napr.[. Tar] a pod.○        ak má dvojzväzkové dielo v katalógu knižnice bibliografický záznam pre každý zväzok, vznikne pre každý zväzok PSP balíček a každý zväzok bude chápaný ako jedna intelektuálna entita; to isté platí aj v prípade, že viaczväzkové dielo má iba jeden záznam

●        základné bibliografické metadáta budú preberané priamo z knižničných katalógov do systému pre riadenie procesov/workflow digitalizácie

●     všetky metadáta musia pre zápis používať kódovanie UTF-8 

2 Výstupy digitalizácie1          archívna kópia (1 MC pre každú stranu)2          používateľská kópia (1 UC pre každú vzniknutú MC, teda stranu)3          CR - ALTO XML súbor pre každú stranu4          OCR - TXT súbor - pre možnosť stiahnuť si len text dokumentu (tam, kde kvalita OCR je zodpovedajúca), vyhľadávanie / indexácia5          metadáta pre MC

a          bibliografické metadáta - MODS a DCb         štrukturálne metadáta - METSc          technické metadáta - MIX, premisd         administratívne metadáta - premis, METS

6          kontrolné metadátové súbory (s kontrolnými súčtami a údajmi o vzniku dát a pod.)

 

Page 4: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

Pozn.METS neobsahuje popisné ani technické metadáta pre UC. Obrazové súbory UC sú iba súčasťou štrukturálnej mapy <structMap> a <fileSec>. Súčasťou PSP balíčka sú obrazy UC v priečinku [userCopy].

3 Granularita metadátového záznamu Periodiká

●        základnou intelektuálnou entitou periodík je 1 číslo●        každé číslo periodika má svoj vlastný metadátový záznam (= METS)●        tento METS záznam obsahuje údaje o nadradených entitách čísla ako sú ročník, titul periodika, t.j. je pre používateľa aj pre systém možné spojiť jednotlivé čísla do ročníkov a titulov

 

4 Identifikátory Do workflow digitalizácie budú prichádzať bibliografické metadáta z knižničného katalógu, ktoré už budú obsahovať nasledujúce identifikátory vrchných úrovní intelektuálnych entít (úroveň titulu):

●        ISSN - len pre titul periodika, ISSN nie je pridelené vždy (chýba napr. pri starých tituloch z 19. a  prevažnej časti periodík 20. storočia)●        ISBN - len pre titul monografie (jednozväzkové), alebo pre súbor monografií, ktoré majú len jeden súborný záznam, ISBN nie je pridelené vždy●        čSNB - identifikátor entity tak ako zodpovedá katalogizačnému záznamu, t.j. každá entita podľa pravidiel na http://www.caslin.cz/spoluprace/sluzby/ccnb/ so záznamom v katalógu SNK má tento identifikátor●        ak nie je ani jeden z vyššie uvedených, možno použiť čiarový kód dokumentu, systémové číslo, signatúru, alebo systémové číslo kombinované s poľom 001 MARC záznamu a pod.

 Producent dát musí generovať do balíčka podľa tejto špecifikácie:

●        identifikátor UUID [1] ku každej úrovni bibliografických metadát vo formáte MODS (prvok <identifier> s atribútom type = "UUID" a DC (prvok <dc:identifier>)

○        pre úroveň celého titulu (nenachádza sa v bibliogr. zázname v knižničnom katalógu)○        pre úroveň ročníka○        pre úroveň čísla a prílohy○        pre úroveň článkov a obrázkov

Page 5: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

●        URN: NBN, ktoré bude možné prideliť nástrojom pre riadenie digitalizačného workflow, alebo nástrojom Resolver URN: NBN pre dané úrovne

syntax URN: NBN musí zodpovedať špecifikácii identifkátora URN: NBN pre Resolver SNK (napr. urn: nbn: sk: snk- acd000000001)

 Identifikátory pre úroveň titulu:

1          UUID (vygeneruje dodávateľ) - povinné2          čSNB - Číslo Slovenskej národnej bibliografie (povinné, ak ho je možné záznamu prideliť)3          ISSN (ak ho je možné záznamu prideliť)4          ISBN (ak ho je možné záznamu prideliť)5          Iný identifikátor - možno využiť rôzne identifikátory, ktoré nejakým spôsobom prepoja digitálny záznam s fyzickou jednotkou - napr. čiarový kód, systémové číslo alebo pole 001 (MARC21) z knižničného katalógu atď. Tieto čísla možno kombinovať napr. s poradím čísla v ročníku, číslom čísla a pod.

 Identifikátory pre úroveň ročníka:

1          UUID (vygeneruje dodávateľ) - povinné Identifikátory pre úroveň čísla:

1          UUID (vygeneruje dodávateľ) - povinné2          ISBN (ak bolo záznamu v minulosti pridelené)3          doi, handle a pod. (ak boli záznamu v minulosti pridelené)4          Iné identifikátory (čiarový kód, systémové číslo, pole 001 (MARC21) a pod.)

 Identifikátory pre úroveň článku alebo obrázku:

1          UUID (vygeneruje dodávateľ) - povinné2          doi, handle a pod.3          Iný identifikátor

 

5 Štruktúra PSP balíčkaV kapitole je návrh štruktúry pre balenie dát a metadát v jednom PSP balíčku na výstupe z workflow digitalizácie. 

ZLOŽKA> OBSAHUJE >> OBSAHUJE >>>

Číslo periodika info.xml  

  masterCopy (zložka) Obraz vo formáte JPEG 2000 Lossless

  usecCopy (zložka) Obraz vo formáte JPEG2000 - 100% quality (lossy mode)

Page 6: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

  ALTO (zložka) súbory ALTO.xml pre každú stranu

  TXT (zložka) súbory OCR.TXT pre každú stranu

  amdSec (zložka) AMD_METS.xml pre každú stranu

  hlavny_METS.xml  

  subor.md5  

 Jedná sa o variantu, kedy technické a administratívne metadáta nie sú obsiahnuté v hlavnom METS zázname, ale pre každú stranu v inom ďalšom METS zázname (AMD_METS.xml). Dôvod: ak by bolo všetko v hlavnom Mets, bol by neúmerne dlhý. Takto je z hlavného záznamu nalinkovaný. PSP balík = 1 zložka pre 1 číslo periodika. Hlavná zložka PSP balíčka obsahuje nasledujúce zložky a súbory:

5.1 súbor info.xmlVeľmi jednoducho tu budú zaznamenané údaje o vzniku celého PSP balíčka - kto, kedy ho vytvoril, akú mal veľkosť, odkiaľ a kam bol nakopírovaný a pod. Mal by tiež obsahovať informáciu o stave spracovania balíka. Zaznamenané môžu byť údaje o obsahu PSP balíčka - počet a názvy súborov a pod. Súbor obsahuje odkaz na súbor s MD5. Súbor info.xml by tiež mohol byť vedľa hlavného PSP balíka. Údaje a štruktúra info.xml súboru:

1          vznik balíčka - dátum podľa ISO8601 na úrovni sekúnd2          ID balíčka - použiť identifikátor čísla periodika (URN: NBN) - pozri Názvové konvencie v kap. 63          ID titulu - čSNB, ISBN alebo ISSN (opakovateľné)4          údaje o väčšom celku (projekte), do ktorého balík patrí - napr. digitalizácia pre ANL5          názov inštitúcie, ktorá je zadávateľom digitalizácie6          tvorca balíčka - kód inštitúcie (firmy), ktorá balíček vytvorila7          veľkosť balíčka - v kB8          obsah balíčka9          názvy súborov vrátane directory path a koncovky (mime type) (nepovinné)10      počet súborov v balíčku celkom11      odkaz na súbor s MD5 a jeho MD512      poznámka - napr. o tom, že balíček neobsahuje OCR a pod.

 <?xml version = "1.0" encoding = "UTF-8"?><info xmlns="http://www.snk.sk/schemas/DIKDA/info.xsd">                          <created> 2012-01-26T13: 53:11 </ created>                        <packageid> anl_123456 </ packageid>

Page 7: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

                 <titleid TYPE="issn"> ISSN0009-2770 </ titleid>                 <titleid TYPE="ccnb"> cnb123456789 </ titleid>                 <collection> ANL </ collection>                 <institution> SNK </ institution>                 <creator> Názov firmy </ creator>                 <size> 123456789 </ size>                 <itemlist ITEMTOTAL="35"/>                       <item>                       ...                       </ Item>                 <checksum TYPE="md5" CHECKSUM="fe8e0172fb031cdc79a9f6002cb64f55"> / MD5_anl001-                  000003.md5 </ checksum>                 <note /></ Info>

5.2 zložka [masterCopy]Zložka s master kópiami, obsahuje súbory JPEG2000 v nestratovej kompresii, 1 súbor = 1 strana, t.j. obsahuje všetky naskenované strany čísla periodika. 

5.3 zložka [userCopy]Priečinok s používateľskými kópiami, pre každú naskenovanú stranu čísla periodika obsahuje jeden JPEG2000 súbor sa stratovou kompresiou. 

5.4 zložka [ALTO]Obsahuje ku každej strane 1 ALTO XML súbor, t.j. toľko ALTO XML súborov koľko je strán čísla periodika. 

5.5 zložka [TXT]Obsahuje ku každej strane 1 OCR súbor ako čistý text. T.Tj. toľko OCR.TXT súborov koľko je strán čísla periodika. 

5.6 zložka [amdSec]Zložka s technickými metadátami - obsahuje pre každú naskenovanú stranu čísla časopisu 1 METS súbor (AMD_METS.xml). Tieto metadáta nie sú zámerne umiestnené v hlavnom METS zázname (hlavny_METS.xml), pretože ten by neúmerne narástol a bolo by ťažké s ním pracovať. Musí z neho byť však nalinkovaný (z časti

Page 8: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

fileSec). Každý METS súbor AMD_METS.xml obsahuje nasledujúce časti METS formáte:

●        amdSec - administratívne metadáta - obsahuje časti:○        technické metadáta techMD, ktoré:

■        vo formáte PREMISobject popisujú vlastnosti:●        archívnej kópie●        ALTO XML●        pôvodného TIFF súboru, z ktorého vznikli archívne kópie

■        vo formáte MIX popisujú vlastnosti:●        archívnej kópie●        pôvodného TIFF súboru

○        metadát o proveniencii digitálnych objektov digiprovMD - obsahuje časti

■        PREMISevent■        PREMISagent.

●        fileSec - sekcia s odkazmi na súbory - povinná časť METS záznamu - v prípade tohto METS záznamu pre jednu stranu, ktorý vzniká primárne na zachytenie technických a administratívnych metadát, bude odkazovať na súbory, ktoré sú s touto konkrétnou stranou spojené, t.j. archívne kópie, ALTO XML a OCR TXT.

●        structMap - iba fyzická štrukturálna mapa, povinná časť METS záznamu. Bude ukazovať štruktúru súborov na danej strane, t.j. opäť archívne kópie, ALTO XML a OCR TXT. Pre ďalšie mapovanie do LTP systému nebude potrebné.

 

5.7 súbor Hlavny_METS.xmlĎalšou časťou PSP balíčka je hlavný METS dokument. Hlavný METS záznam teda obsahuje:

●        dmdSec - bibliografické metadáta k položke periodiká vrátane popisu nadradených entít (napr. ročník, titul) alebo naopak častí (napr. článok, obrázok). Základ bude prevzatý z katalógu, prípadný ďalší popis častí bude vyrobený v procese digitalizácie prípadne ďalším generovaním. Hlavným formátom bude MODS, nutná je aj prítomnosť skráteného záznamu v Dublin Core.●        fileSec - hlavná časť s odkazmi na všetky digitálne objekty (archívne kópie, používateľské kópie, ALTO XML a OCR TXT), ktoré sa viažu k jednému číslu periodika. Obsahuje tiež linky na administratívne metadáta AMD_METS.xml do priečinka [amdSec].●        structMap - štrukturálna mapa pre celý dokument, t.j. pre jedno číslo periodika. Obsahuje:

Page 9: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

○        fyzickú časť - obsahuje informácie o všetkých reprezentáciách konkrétnej strany (archívne kópie, používateľská kópia, ALTO XML, OCR TXT a AMD_METS.xml○        logickú časť - vyjadruje logickú štruktúru čísla periodika s odkazmi na ALTO XML○        mapovanie na ALTO XML oblasti/areas

●        structLink - zoznam strán jednotlivých úrovní periodika na základe pridania väzieb medzi logickou a fyzickou štruktúrou

5.8 súbor MD5Poslednou časťou PSP balíčka je súbor s kontrolnými súčtami pre všetky súbory balíka (okrem info.xml a. Md5 súboru samotného). Súbor. Md5 je jeden pre 1 celý balíček SPS (balík s číslom periodika alebo zväzkom monografie). Tento súbor. Md5 obsahuje kontrolný súčet pre každý súbor obsiahnutý v PSP balíčku. Z tohto dôvodu nie sú samostatné kontrolné súčty súčasťou podpriečinkov balíčka. Kontrolné súčty sú tiež samozrejme v technických metadátach.  

6 Názvové konvencie zložiek a súborov Pomenovanie PSP balíčka:

●        každý PSP balíček prichádzajúci z digitalizácie musí obsahovať len jedinú intelektuálne entitu (číslo periodika). Potom musí názov balíčka vychádzať z identifikátora tejto entity, v najlepšom prípade URN: NBN, ďalej je možnosť využiť napr. číslo čiarového kódu použitého na fyzickej jednotke v kombinácii s poradových číslom čísla periodika a pod.●        každé číslo periodika musí mať svoj jednoznačný identifikátor, potom každý PSP balík a každý súbor v ňom má vlastný jednoznačný identifikátor●        názov nesmie obsahovať medzery a diakritiku, odporúčané oddeľovače sú podčiarkovník a pomlčka

 Pomenovanie zložiek:

●        pozri návrh štruktúry PSP balíčka (kap.5)●        názov nesmie obsahovať medzery a diakritiku, odporúčané oddeľovače sú podčiarkovník a pomlčka

 Pomenovanie súborov:

●        názvy akýchkoľvek súborov patriacich k jednej základnej entite (zväzok alebo číslo) musia byť založené na jednom type identifikátora

Page 10: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

●        pre číslo periodika by takýmto identifikátorom mohlo byť URN: NBN, čSNB, ISBN alebo ISSN titulu + ďalšie spresnenie (číslo výtlačku a pod.)●        podobne využiteľným identifikátorom by mohlo byť generované číslo UUID, ktoré by sa generovalo pre každý súbor. Tým by sa však stratila väzba (aj vizuálna) na vrchnú úroveň titulu aj väzba na súvisiace súbory (strana v J2K a k nej patriaci súbor ALTO XML a pod).●        názov nesmie obsahovať medzery a diakritiku, odporúčané oddeľovače sú podčiarkovník a pomlčka

 S využitím URN: NBN by to mohlo vyzerať nasledovne (POZOR: je použitý príklad pomenovania pre projekt SNK + - digitalizácia periodík): 

typ súboru názov súboru vysvetlenie

PSP balíček (číslo, zväzok)

SNK_123456 názov celej zložky PSP balíčka, u základných int. entít bude v názve využité vždy URN: NBN

archívne kópie MC_SNK_123456_0013.jp2 archívne JPEG2000 strany 13 čísla periodika s urn: NBN: sk: SNK-123456

používateľská kópia UC_SNK_123456_0013.jp2 používateľská kópia vo formáte JPEG2000 strany 13 čísla periodika s urn: NBN: sk: SNK-123456

ALTO XML ALTO_SNK_123456_0013.xml ALTO súbor patriaci ku 13tej strane z čísla periodika s urn: NBN: sk: SNK-123456

OCR TXT TXT_SNK_123456_0013.txt TXT súbor s OCR patriaci ku 13tej strane z čísla periodika s urn: NBN: sk: SNK-123456

info.xml INFO_SNK_123456.xml info xml k celému PSP balíčku čísla periodika

MD5 SNK_123456.md5 súbor s kontrolnými súčtami k celému PSP balíčku čísla periodika

Hlavny_METS.xml METS_SNK_123456.xml hlavný METS záznam k celému číslu periodika s urn: NBN: sk: SNK-123456

AMD_METS.xml AMD_METS_SNK_123456_0013.xml METS záznam s technickými metadátami pre stranu 13 z čísla periodika s urn: NBN: sk: SNK-123456

 Pre popis pomenovania zložiek pozri štruktúru balíčka vyššie v kapitole 5 Zložka jedného balíčka PSP, ktorý obsahuje len jeden obrazový súbor na prvej strane čísla periodika, môže potom vyzerať nasledovne (príklad balíka z digitalizácie v projekte SNK +): 

Page 11: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

  

7 Transportný balík pre jeden alebo viac PSP balíčkov Ak bude jeden PSP balík obsahujúci 1 základnú intelektuálnu entitu (číslo periodika) premiestňovaný napr. ako tar, mal by názov súboru tar zodpovedať názvu PSP balíčka (teda vychádzať z použitého identifikátora pre číslo). Výstupom systému pre riadenie procesov/workflow digitalizácie ale môže tiež byť balík (napr. tar), ktorý obsahuje viac PSP balíčkov - toto združovanie bude obmedzené len kapacitou HW. Takýto združený balík by mal byť pomenovaný na základe už používaného identifikátora.

●        v prípade, že balík obsahuje čísla titulu periodika, mal by názov balíka vychádzať z čSNB alebo z ISSN●        v prípade, že balík obsahuje zväzky viaczväzkového diela, mal by názov balíka vychádzať z čSNB alebo ISBN●        typ identifikátora musí byť vyjadrený v názve súboru - naprISSN_1234-5678.tar alebo CCNB_12345678910.tar a pod.●        možno počítať s tým, že bude dochádzať k tomu, že združený balík nebude obsahovať napr. všetky čísla určitého titulu periodika - táto skutočnosť musí byť zrejmá z názvu balíka (napr. ISSN_1234-5678_YYYY kde YYYY môže byť poradové číslo, dátum, čas vzniku jedného z viacerých balíkov obsahujúcich čísla určitého titulu s identifikátorom ISSN 1234-5678).

 Transportný balík by mal obsahovať nasledujúce časti:

●        balíčky PSP (zväzkov alebo čísel)●        informačný súbor, ktorý zodpovedá špecifikácii info.xml●        kontrolné súčty všetkých PSP balíčkov●        zoznam balíčkov v transportnom balíku

 Do úvahy prichádzajú baliace metódy ako BagIt, tar a pod.  

8 Metadáta●        všetky metadáta budú "zabalené" pomocou kontajnerového formátu METS●        formát METS bude v aktuálnej verzii v čase implementácie alebo verzii predchádzajúcej (http://www.loc.gov/standards/mets/mets-schemadocs.html )

Page 12: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

- Všetky metadáta vo všetkých formátoch musia byť zapísané pomocou XML za použitia kódovania UTF-8●        vloženie metadátových formátov do kontajnera METS bude vždy formou <mdWrap>, t.j. nie odkazovaním z METS záznamu von

 Význam poľa "Povinnosť"

●        pole "Povinnosť" uvádza, či je plnenie jednotlivých elementov povinné, odporúčané alebo voliteľné●        môže nadobúdať nasledujúce hodnoty

○        M - mandatory (povinne plniť - element je súčasťou každého záznamu)○        MA - mandatory if available (povinne plniť pokiaľ je to možné, ak možno existuje a pod.)○        R - recommended (plnenie hodnôt elementu je odporúčané, nie je však povinné)○        RA - recommended if available (odporúča sa, pokiaľ je možné ho plniť)○        O - optional (plnenie hodnôt elementu je voliteľné podľa konkrétnych potrieb)

  

8.1 Koreňový element hlavného METS záznamuKoreňový element hlavného METS záznamu k jednotlivému číslu periodika musí obsahovať linky na špecifikácie jednotlivých použitých metadátových schém (METS, MODS, Dublin Core). 

element atribúty popis_obrázka = Povinnosť

<mets>   koreňový element METS záznamu M

  LABEL LABEL - názov titulu periodika, vrátane čísla a dátumu vydania čísla, napr. Kamarát no. 5 29.06.1979

 

  TYPE TYPE - hodnota vždy "Periodical"  

 Príklad: <Mets: Metsxmlns: XSI = "http://www.w3.org/2001/XMLSchema-instance" xmlns: xlink = "http://www.w3.org/1999/xlink"xmlns: mods = "http://www.loc.gov/mods/v3" xmlns: oai_dc = "http://www.openarchives.org/OAI/2.0/oai_dc/" xmlns: dc = "http:// purl.org/dc/elements/1.1 / "XSI: schemaLocation =" http://www.w3.org/2001/XMLSchema-instance

Page 13: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

http://www.w3.org/2001/XMLSchema.xsd http:// www.loc.gov/METS/ http://www.loc.gov/standards/mets/mets.xsd http://www.loc.gov/mods/v3 http://www.loc.gov/standards/ mods / mods.xsd http://www.openarchives.org/OAI/2.0/oai_dc/ http://www.openarchives.org/OAI/2.0/oai_dc.xsd "LABEL = "Pravda no.6 1951"TYPE = "Periodical"xmlns: Mets = "http://www.loc.gov/METS/">

 

8.2 METS hlavička <metsHdr>-        dokumentuje vznik a úpravy METS záznamu 

element atribúty popis_obrázka = Povinnosť

<metsHdr>   hlavička METS záznamu M

  CREATEDATE CREATEDATE - dátum vytvorenia záznamu, musí byť v tvare ISO 8601 (na úrovni sekúnd)

 

  LASTMODDATE LASTMODDATE - dátum poslednej úpravy záznamu, musí byť v tvare ISO 8601 (na úrovni sekúnd)

 

       <agent>   údaje o tvorcovi záznamu METS M

  Rola ÚLOHA - hodnota "CREATOR"  

  TYPE TYPE - hodnota "Organization"  

              <name>

  meno jednotlivca alebo organizácie;-----------------------------------------------tvorca záznamu, buď dodávateľ (firma XY) alebo v prípade tvorby záznamu v knižnici bude využitá sigla knižníc, t.j. pre SNK hodnota "SNK001"

M

       <agent>   údaje o vlastníkovi METS M

  Rola ÚLOHA - hodnota "ARCHIVIST"  

  TYPE TYPE - hodnota "Organization"  

              <name>

  meno jednotlivca alebo organizácie;-----------------------------------------------vlastník záznamu, v prípade tvorby záznamu v knižnici bude využitá sigla knižníc, t.j. pre SNK hodnota "SNK001"

M

 

Príklad:

Page 14: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

<mets:metsHdr CREATEDATE="2012-01-26T13:49:12" LASTMODDATE="2012-01-26T13:49:12">                 <mets:agent ROLE="CREATOR" TYPE="ORGANIZATION">                       <mets:name> SNK </ Mets: name>                 </ Mets: agent>      <mets:agent ROLE="ARCHIVIST" TYPE="ORGANIZATION">             <mets:name> SNK001 </ Mets: name>                 </ Mets: agent></ Mets: metsHdr> 

8.3 METS časť <dmdSec> - Bibliografické metadáta●        na samotný bibliografický popis bude použitý formát MODS, aktuálna verzia v dobe implementácie, alebo verzia predchádzajúca (pozri http://www.loc.gov/standards/mods/) a formát Dublin Core (ďalej DC) kvalifikovaný ako ( http :/ / dublincore.org / documents / dcmi-terms / )●        DC je primárne určený na poskytnutie dát cez OAI-PMH, bude zodpovedať OAI XSD (pozri http://www.openarchives.org/OAI/2.0/oai_dc.xsd ) a bude sa jednať o nekvalifikovaný Dublin Core●        DC bude použitý, uložený v METS rovnakým spôsobom ako formát MODS - pozri štruktúru PSP balíčka vyššie●        pre vytvorenie DC z MODS formátu môže byť použité (a podľa potrieb knižnice upravené) oficiálne mapovanie Kongresovej knižnice (pozri http://www.loc.gov/standards/mods/mods-conversions.html ) ●        DC a MODS budú vložené v METS časti dmdSec - pozri štruktúru PSP balíčka v kap. 7.●        základným zdrojom pre popisné metadáta je katalóg SNK - pre prevod metadát k titulu periodika z MARCu 21 resp. MARCXML do MODS možno využiť a podľa potrieb knižnice upraviť oficiálne mapovanie a konverznú šablónu zo stránok http://www.loc.gov/standards/mods/mods-conversions.html●        pri digitalizovaných dokumentoch je bibliografický popis vytváraný primárne z aspektu popisu fyzickej predlohy, nejde o opis elektronického dokumentu

 Periodiká

●        základnou intelektuálnou entitou pre popis je číslo periodika, t.j. v jednom METS zázname, ktorý bude obsahovať metadáta a štruktúru jedného čísla periodika, budú MODS záznamy k tomuto číslu●        metadáta budú popisovať nasledujúce entity:

1          titul (Title)2          ročník (Volume)3          číslo (Issue)4         vnútorná časť (InternalPart) - typy článkov (Article) a obrazov (Picture)5          príloha (Supplement)

Page 15: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

 1          titul (Title) - MODS záznam pre titul periodika2          ročník (Volume)3          číslo (Issue) - typy čísla sú v elemente <genre> za použitia atribútu type4          vnútorná časť (InternalPart) - typy vnútornej časti článkov a obrazov by mali pokryť celú variabilitu možností, ktoré môžu texty a obrázky na tlačenej strane mať; bližšie určenie typov článku (novinky, správy, reklama a pod.) a obrazu (fotografie, tabuľky, ilustrácie , grafy a pod.) bude možné vyjadriť pomocou atribútov a výrazov kontrolovaného slovníka v elemente <genre>

a          pri popise vnútornej časti je aj element <recordInfo>. Dôvod: popis článkov bude vznikať manuálne a je žiaduce o vzniku záznamu článku držať kontrolné údaje; element je voliteľný

5          príloha (Supplement) - prílohu predstavuje voľne vložená entita do jednotlivého čísla, napr. mapa, obsah celého ročníka, CD / DVD a pod. Rozlišujeme 3 druhy príloh periodík:

a)          príloha, ktorá sa neskenuje, ale chceme o nej vytvoriť bibliografický záznam, dať najavo čitateľovi, že existuje - môže to byť napr. CD / DVD, pohľadnica, plagát a pod.

●        digitálna podoba prílohy (ak existuje) nie je súčasťou balíčka PSP čísla (Issue)●        popis je možné urobiť v rámci popisu prílohy (Supplement) v MODS - pozri špecifikácia nižšie●        takáto príloha nie je súčasťou logickej štrukturálnej mapy vo formáte METS

b)         príloha podobného typu, tvaru a veľkosti ako je popisované číslo periodika, ktorá sa spolu s číslom skenuje

●        digitálna podoba prílohy je spolu s číslom (Issue), súčasťou PSP balíčka čísla (Issue) a je súčasťou hlavného METS záznamu●        popis je možné urobiť v rámci popisu prílohy (Supplement) v MODS - pozri špecifikácia nižšie●        táto príloha môže mať vnútorné časti (InternalPart) rovnako ako číslo (Issue) a ich text je súčasťou ALTO XML, ktoré je spoločné pre číslo (Issue) aj s prílohu (Supplement)●        takáto príloha je súčasťou logickej štrukturálnej mapy vo formáte METS●       takáto príloha je súčasťou fyzickej štrukturálnej mapy vo formáte METS (linky medzi jednotlivými súbormi reprezentujúcimi strany a popisnými metadátami)

c)          príloha iného typu, tvaru a veľkosti ako je popisované číslo periodika, ktorá sa skenuje zvlášť na čísle nezávisle

●        takáto príloha sa spracováva z pohľadu katalogizácie ako "nezávislé" periodikum, z pohľadu digitalizácie potom ako "nezávislý" časopis

Page 16: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

●        môže sa jednať o prílohy časopisového typu vychádzajúce pri rôznych denníkoch (Víkend u SME, štvrtková príloha denníka Pravda a pod.)●        k týmto prílohám vznikajú metadáta podobne ako pre jednotlivé čísla denníkov alebo klasických časopisov, avšak nezávisle na pôvodnom čísle, ku ktorému príloha patrila, - t.j. pre "pôvodné" číslo, pri ktorom bola príloha, vznikne 1 opis (PSP balíček s jedným hlavným METS záznamom a ALTO XML súborom) a pre prílohu je vytvorený ďalší 1 opis (a PSP balíček s METS záznamom), ako by sa jednalo o bežný samostatný časopis●        príloha sa potom opisuje ako číslo (Issue)

 ●        jednotlivé MODS záznamy pre časti (titul, ročník, číslo, vnútorná časť a príloha) nie sú samopopisné, t.j. neobsahujú vždy údaje o vrchných entitách (článok neobsahuje informácie o titule a pod.)●        pre každú entitu vznikne jeden MODS záznam s vlastným ID, ktorý bude označovať aj typ časti (napr. článok, ilustrácie a pod.) v prípade opakovania častí sa bude opakovať zodpovedajúci počet MODS záznamov. Identifikátory budú začínať prefixami: MODSMD_TITLE, MODSMD_ISSUE, MODSMD_SUPPL, MODSMD_ART, MODSMD_PICT pre MODS, obdobne pre DC. Za tie sa ďalej pridá podčiarkovník a číslo, identifikujúce poradie identifikátora, zarovnané a doplnené o nuly na 4 miesta. Štvormiestne poradové čísla pri ID sú uvedené preto, aby bola v celom dokumente jednotné číslovanie. ID teda vyzerá nasledovne:

○        titul (vždy jeden)■        MODSMD_TITLE_0001■        DCMD_TITLE_0001

○        ročník (vždy jeden)■        MODSMD_VOLUME_0001■        DCMD_VOLUME_0001

○        číslo (vždy jedno)■        MODSMD_ISSUE_0001■        DCMD_ISSUE_0001

○        príloha (môže byť viac)■        MODSMD_SUPPL_XXXX, kde XXXX je poradové číslo prílohy, napr. MODSMD_SUPPL_0001 je prvá príloha atď.■        DCMD_SUPPL_XXXX, kde XXXX je poradové číslo prílohy, napr. DCMD_SUPPL_0001 je prvá príloha atď.

○        článok (môže byť viac)■        MODSMD_ART_XXXX, kde XXXX je poradové číslo článku, napr. MODSMD_ART_0001 je prvý článok atď.■        DCMD_ART_XXXX, kde XXXX je poradové číslo článku, napr. DCMD_ART_0001 je prvý článok atď.

Page 17: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

○        obrázok (môže byť viac)■        MODSMD_PICT_XXXX, kde XXXX je poradové číslo obrázku, napr. MODSMD_PICT_0001 je prvý obrázok atď.■        DCMD_PICT_XXXX, kde XXXX je poradové číslo obrázku, napr. DCMD_PICT_0001 je prvý obrázok atď.

●        každý MODS záznam bude uložený vo vlastnej METS časti <dmdSec> pomocou mdWrap

●        pri úrovniach, kde je to potrebné (vnútorná časť, príloha a pod.), sa budú opakovať <dmdSec> časti toľkokrát, koľko je konkrétnych častí t.j. v METS zázname vznikne 1 časť <dmdSec> pre bibliografický záznam titulu periodika, 1 časť <dmdSec> pre bibliografický záznam ročníka, 1 časť <dmdSec> pre bibliografický záznam čísla periodika, niekoľko <dmdSec> časti pre vnútorné časti (pre všetky články aj obrázky) a zodpovedajúci počet <dmdSec> častí pre prílohy, podľa počtu príloh

            bibliografický popis obrazov bude veľmi minimalistický 

●         v katatalógu SNK existuje záznam periodika iba pre titul periodika, neexistujú samostatné záznamy pre čísla, ročníky a pod. - t.j. vnútorné členenie a popis musí vzniknúť v procese digitalizácie, popis titulu periodika musí byť prevzatý z katalógu do systému pre riadenie workflow digitalizácie●        strana sa nebude popisovať, jej logické aj fyzické číslovanie aj typ strany je obsiahnutý v štruktúre METS dokumentu (časť structMap)●        typ strany bude zodpovedať novým pravidlám popisu periodík. Jedná sa o typy: advertisement, backCover, backEndSheet, blank, cover, Flyleaf, frontCover, frontEndSheet, frontJacket, index, listOfIllustrations, listOfMaps, listOfTables, máp, normalPage, spine, table, tableofcontents titlePage●        všetky top elementy MODS formátu sú opakovateľné, okrem <recordInfo>●        všetky elementy Dublin Core sú opakovateľné●        každá časť <dmdSec> musí mať ID a vnorený element <mdWrap> s atribútmi MDTYPE, mimetype

 

element atribúty popis_obrázka = povinnosť

<dmdSec>   identifikátor <dmdSec> časti METS záznamu M

  ID pre <dmdSec> s popisom titulu periodika hodnota "MODSMD_TITLE_0001" pre záznam v MODS alebo "DCMD_TITLE_0001" pre záznam v Dublin Core

 

    pre <dmdSec> s popisom ročníka periodika hodnota "MODSMD_VOLUME_0001" pre záznam v MODS alebo "DCMD_VOLUME_0001" pre záznam v Dublin Core

 

    pre <dmdSec> s popisom čísla periodika hodnota "MODSMD_ISSUE_0001" a "DCMD_ISSUE_0001"

 

Page 18: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

    pre <dmdSec> s popisom vnútornej časti periodika hodnota podľa typov vnútornej časti (článok, obraz) - hodnoty "MODSMD_ART_XXXX" a "DCMD_ART_XXXX" pre článok, kde XXXX je poradové číslo článku, napr. 0001 pre prvý článok atď. a hodnoty "MODSMD_PICT_XXXX "a" DCMD_PICT_XXXX "pre obraz, kde XXXX je poradové číslo obrázku napr. 0001 pre prvý obrázok atď.

 

    pre <dmdSec> s popisom prílohy periodika hodnota "MODSMD_SUPPL_XXXX" a "DCMD_SUPPL_XXXX", kde XXXX je poradové číslo prílohy, napr. 0001 pre prvú prílohu a pod.

 

        <mdWrap>

  element obsahujúci vložené záznamy MODS M

  MDTYPE MDTYPE - hodnota "MODS" pre záznamy v MODS, hodnota "DC" pre záznam v Dublin Core

 

  Mimetype Mimetype - hodnota "text / xml"  

 Príklad: <mets:dmdSec ID="MODSMD_TITLE_0001">    <mets:mdWrap MDTYPE="MODS" MIMETYPE="text/xml">       ...    </ Mets: mdWrap></ Mets: dmdSec> 

8.3.1 Pole MODS a Dublin Core pre jednotlivé časti periodika●        ID pri elemente <mods>: Identifikátory budú začínať prefixami: MODS_TITLE, MODS_ISSUE, MODS_SUPPL, MODS_ART, MODS_PICT pre MODS, obdobne pre DC. Za tie sa ďalej pridá podčiarkovník a číslo, identifikujúce poradie identifikátora, zarovnané a doplnené o nuly na 4 miesta. Štvormiestne poradové čísla u ID sú uvedené preto, aby bolo v celom dokumente jednotné číslovanie a jednota. ID teda vyzerá nasledovne:

○        titul (vždy jeden)■        MODS_TITLE_0001■        DC_TITLE_0001

○        ročník (vždy jeden)■        MODS_VOLUME_0001■        DC_VOLUME_0001

○        číslo (vždy jedno)■        MODS_ISSUE_0001■        DC_ISSUE_0001

○        príloha (môže byť viac)■        MODS_SUPPL_XXXX, kde XXXX je poradové číslo prílohy, napr. MODS_SUPPL_0001 je prvá príloha atď.

Page 19: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

■        DC_SUPPL_XXXX, kde XXXX je poradové číslo prílohy, napr. DC_SUPPL_0001 je prvá príloha atď.

○        článok (môže byť viac)■        M ODS_ART_XXXX, kde XXXX je poradové číslo článku, naprMODS_ART_0001 je prvý článok atď.■        DC_ART_XXXX, kde XXXX je poradové číslo článku, napr. DC_ART_0001 je prvý článok atď.

○        obrázok (môže byť viac)■        MODS_PICT_XXXX, kde XXXX je poradové číslo obrázku, napr.MODS_PICT_0001 je prvý obrázok atď.■        DC_PICT_XXXX, kde XXXX je poradové číslo obrázku, napr. DC_PICT_0001 je prvý obrázok atď.

  Obsah poľa "Popis":

●        vysvetlenie a príklad●        odporúčané plnenia tam, kde je to možné to uviesť●        povinnosť platí ako pre elementy MODS tak aj pre elementy Dublin Core rovnako●        ak je rodičovský element napr. odporúčaný, a dcérsky element povinný, znamená to, že dcérsky element je povinný len vtedy, ak je použitý element rodičovský

 Význam poľa "Povinnosť"

●        pole "Povinnosť" uvádza, či je plnenie jednotlivých elementov povinné, odporúčané alebo voliteľné●        môže nadobúdať nasledujúce hodnoty

○        M - mandatory (povinne plniť - element je súčasťou každého záznamu)○        MA - mandatory if available (povinne plniť pokiaľ je to možné, ak možno existuje a pod.)○        R - recommended (plnenie hodnôt elementu je odporúčané, nie je však povinné)○        RA - recommended if available (odporúča sa plniť ak je dostupné)○        O - optional (plnenie hodnôt elementu je voliteľné podľa konkrétnych potrieb)

 

8.3.1.1 Pole MODS a DC pre titul periodika

Element MODS Atribúty Popis povinnosť Element DC

<mods> ID ID musí vyjadrovať názov úrovne, t.j. "MODS_TITLE_0001"Koreňový element <mods> je v skutočnosti

M  

Page 20: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

o úroveň vyššie, než titleInfo, ale kvôli vzhľadu tabuľky je uvedený takto, platí aj ďalej

<titleInfo>   názov titulu periodikapre plnenie použiť katalogizačný záznam

M  

       <title>   názvové informácie - názov periodikahodnoty prevziať z katalógu

M <dc.title> 

       <subTitle>   podnázov periodika MA <dc.title>

       <partNumber>   číslo časti, napr. určitého radu / edície (časť 1, rad B), na použitie pri ročenkách a pod.

R <dc:description>

       <partName>   meno edície alebo špeciálne edičnej rady, napr. Hygiena.na použitie pri ročenkách a špecializovaných periodikách

R <dc:description>

<typeOfResource>   opis charakteristiky typu alebo obsahu zdroja; pre periodiká a monografie hodnota text;malo by sa získať z MARCu21 katalogizačného záznamu z pozície 06 návestia

R <dc:type>

<genre>   bližšie údaje o type dokumentuhodnota "title"

M <dc:type>

<originInfo>   informácie o pôvode predlohy M  

       <place>   údaje o mieste spojenom s vydaním, výrobou alebo pôvodom popisovaného dokumentu

MA <dc:coverage>

              <placeTerm>   konkrétne určenie miesta, napr. Martinzodpovedá hodnote z katalogizačného záznamu, pole 260, podpole "a" (MARC21)

MA <dc:coverage> 

  type type - bude vždy "text"    

       <publisher>   meno entity, ktorá dokument vydala, vytlačila alebo inak vyprodukovalazodpovedá polu 260 podpole "b" katalogizačného záznamu (MARC21);v prípade, že existovalo viac vydavateľov, sú uvedení v poznámke v poli 500

MA <dc:publisher> 

Page 21: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

(MARC21) a mali by sa objaviť v elemente top elementu <note>

       <dateIssued>   dátum vydania predlohy, nutné zaznamenať v prípade titulu roky v ktorých časopis vychádzal (napr. 1900-1939), preberať vo forme, ako je zapísané v hodnote poľa v katalóguzodpovedá hodnote z katalogizačného záznamu, pole 260, podpole "c" (MARC21)

M <dc:date> 

       <issuance>   údaje o vydávaní hodnota "continuing"zodpovedá hodnote uvedenej na pozícii 07 v návestí záznamu (MARC21)

M  

       <frequency>   údaje o pravidelnosti vydávaniazodpovedá údajom v poli 310 alebo pozícii 18 v poli 008 (MARC21)

R  

<language>   údaje o jazyku dokumentu M  

       <languageTerm>   presné určenie jazyka - kódomnutné použiť kontrolovaný slovník ISO 639-2, http://www.loc.gov/standards/iso639-2/php/code_list.php

M <dc:language> 

  type type: použiť hodnotu code M  

  authority authority: použiť hodnotu "iso639-2b" M  

<physicalDescription>   obsahuje údaje o fyzickom popise zdroje / predlohy

M  

       <form>   údaje o fyzickej podobe dokumentu, napr. print, electronic a pod.pre periodiká hodnota "print"zodpovedá hodnotám pozície 23 a 29 v poli 008 (MARC21)

M <dc:format> 

  authority authority: hodnota "marcform" M  

       <extent>   údaje o rozsahu (strán, zväzkov alebo rozmerov); použitie skôr pri ročenkách a pod.zodpovedá hodnotám v poli 300 podpole "a" a "c" (MARC21), ak sú vyplnené obe polia, bude sa element <extent> opakovať

RA <dc:format> 

Page 22: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

       <note>   poznámka o fyzickom stave dokumentu;pre každú poznámku je nutné vytvoriť nový <note> elementtu sa zapíšu defekty zistené pri digitalizácii pre úroveň periodika (napr. chýbajúce ročníky a pod.)

RA  

<abstract>   zhrnutie obsahu periodika ako celkuzodpovedá poľu 520 (MARC21)

R <dc:description>

<note>   všeobecná poznámka k periodiku ako celkuzodpovedá poľu 500 (MARC21)

RA <dc:description>

<subject>   údaje o vecnom triedenípredpokladá sa preberanie z katalogizačného záznamu

R  

  authority authority: vyplniť hodnotu "sksna" R  

       <topic> 

  ľubovoľný výraz špecifikujúci alebocharakterizujúci obsah periodika;použiť kontrolovaný slovník - napríklad z bázy autorít SNK (vecné témy) alebo obsah poľa 650 záznamu (MARC21)

M <dc:subject> 

       <geographic>   geografické vecné triedeniepoužiť kontrolovaný slovník - napríklad z bázy autorít SNK (geografický termín) alebo obsah poľa 651 záznamu (MARC21)

R <dc:subject> 

       <temporal>   chronologické vecné triedeniepoužiť kontrolovaný slovník - napríklad z bázy autorít SNK (chronologický údaj) alebo obsah poľa 648 záznamu (MARC21)

R <dc:subject> 

       <name>   meno použité ako vecné záhlaviepoužiť kontrolovaný slovník - napríklad z bázy autorít SNK (meno osobné) alebo obsah poľa 600 záznamu (MARC21)

R   

              <namePart>   celé meno sa zapíše do tohto elementu R <dc:subject>

<classification>   klasifikačné údaje vecného triedenia podľa Medzinárodného desatinného triedeniazodpovedá poľu 080 (MARC21)

R <dc:subject> 

  authority authority: vyplniť hodnotu "UDC"    

Page 23: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

<relatedItem>   informácie o ďalších dokumentoch / častiach / zdrojoch, ktoré sú vo vzťahu k popisovanému dokumentu;použitie pre vyjadrenie edície, v ktorej je dokument vydaný, údaj o edícii musí obsahovať minimálne element <title> s jej názvomelement <relatedItem> môže obsahovať akýkoľvek iný element MODS - ich použitie sa riadi pravidlami popísanými pre tieto elementy;

RA  

  type type: hodnota "series"    

<identifier>   údaje o identifikátoroch, obsahujú unikátne identifikátory medzinárodné alebo lokálne, ktoré titul periodika má - pozri prehľad typov atribútov nižšie

M <dc:identifier> 

  type type: budú sa povinne vypĺňať nasledovné hodnoty, ak existujú:- UUID - nutné vygenerovať, POVINNÉ!- doi- HDL - handle- Issn - prevziať z katalogizačného záznamu SNK - isbn - prevziať z katalogizačného záznamu SNK - ccnb - čSNB - prevziať z katalogizačného záznamu SNK- url - permalink záznamu z katalógu SNK, napr. - iný interný identifikátor, hodnota atribútu "local", možno použiť napríklad na vyjadrenie čiarového kódu

   

<location>   údaje o uložení popisovaného dokumentu, napr. signatúra, miesto uloženia a pod.

MA  

       <URL>   pre uvedenie lokácie elektronického dokumentu

O <dc:source>

  note note: pre poznámku o type URL (na plný text, abstrakt a pod.)

   

       <physicalLocation>   údaje o inštitúcii, kde je fyzicky uložený popisovaný dokument, napr. SNK nutné použiť kontrolovaný slovník - Siglo knižníc (SNK001 atď.)

M <dc:source> 

Page 24: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

zodpovedá poľu 040 ( MARC21)pozn. pri dokumentoch v digitálnej podobe nie je možné vyplniť

  authority authority: hodnota "siglaADR" M  

       <shelfLocator>   signatúra alebo lokačné údaje o dokumente

M <dc:source>

<recordInfo>   údaje o metadátovom zázname - jeho vzniku, zmenách a pod.

M  

     <recordContentSource>

  kód alebo názov inštitúcie, ktorá záznam vytvorila alebo zmenila; nutné vytvoriť kontrolovaný slovník

R  

      <recordCreationDate>

  dátum prvého vytvorenie záznamu, na úrovni minút

M  

  encoding encoding: záznam bude podľa normy ISO 8601 na úrovni minút, hodnota atribútu teda iso8601

R  

       <recordChangeDate>

  dátum zmeny záznamu R  

  encoding encoding: záznam bude podľa normy ISO 8601 na úrovni minút, hodnota atribútu teda iso8601

   

       <recordOrigin>   údaje o vzniku záznamuhodnoty: machine generated alebo human prepared

R  

 Príklad: <mets:dmdSec ID="MODSMD_TITLE_0001">   <mets:mdWrap MDTYPE="MODS" MIMETYPE="text/xml">      <mets:xmlData xmlns:mods="http://www.loc.gov/mods/v3">                  <mods:mods ID="MODS_TITLE_0001">                      <mods:titleInfo>                         <mods:title> Pravda </ mods: title>                      </ Mods: titleInfo>                      <mods:genre> title </ mods: genre>                      <mods:originInfo>                         <mods:place>                           <mods:placeTerm type="text"> Bratislava </ mods: placeTerm>                         </ Mods: place>

Page 25: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

                         <mods:publisher> Priemyselné vydavateľstvo </ mods: publisher>                         <mods:dateIssued> 1951 </ mods: dateIssued>                         <mods:issuance> continuing </ mods: issuance>                      </ Mods: originInfo>                      <mods:language>                         <mods:languageTerm type="code" authority="iso639-2b"> cze                         </ Mods: languageTerm>                      </ Mods: language>                      <mods:physicalDescription>                         <mods:form authority="marcform"> print </ mods: form>                      </ Mods: physicalDescription>                      <mods:classification authority="udc"> 54 </ mods: classification>                      <mods:classification authority="udc"> 050 </ mods: classification>                      <mods:identifier type="ccnb"> cnb000356352 </ mods: identifier>                      <mods:identifier type="uuid"> b6edddb3-51b6-4703-9585-fb9b9bfa858a                      </ Mods: identifier>                      <mods:location>                         <mods:physicalLocation authority="siglaADR"> ABA001                         </ Mods: physicalLocation>                         <mods:shelfLocator> 54 C 000412 </ mods: shelfLocator>                         <mods:shelfLocator> Nd 000329 </ mods: shelfLocator>                      </ Mods: location>                      <mods:recordInfo>                         <mods:recordCreationDate encoding="iso8601"> 2011-12-12T00: 00:00                         </ Mods: recordCreationDate>                      </ Mods: recordInfo>                  </ Mods: mods>      </ Mets: xmlData>   </ Mets: mdWrap></ Mets: dmdSec> 

8.3.1.2 Pole MODS a DC pre ročník periodika

Element MODS Atribúty Popis povinnosť

<mods> ID ID musí vyjadrovať názov úrovne, t.j. "MODS_VOLUME_0001"

M

<titleInfo>   Informácie o čísle M

Page 26: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

ročníka

       <partNumber>   poradové číslo vydania ročníka, napr. 40 (v prípade, že nie je ročník číslovaný, vyplní sa rok vydania)

MA

<genre>   Hodnota "volume" M

<originInfo>   Informácie o pôvode predlohy

M

                          <dateIssued>

  dátum vydania predlohy, v prípade ročníka rok, prípadne rozsah rokov, kedy vyšiel- RRRR - ak vieme rok- RRRR-RRRR - rozsah rokov

M

  Qualifier Qualifier - možnosť ďalšieho spresnenia, hodnota"Approximate" pre dáta, ak nevieme presný údaj

O

<identifier>   údaje o identifikátoroch čísla, obsahuje unikátne identifikátory medzinárodné alebo lokálne

M

  type type: budú sa povinne vypĺňať nasledovné hodnoty, ak existujú:- UUID - musí sa vygenerovať - POVINNÉ

- Urnnbn - pre URN: NBN, napr. zápis v tvare urn: NBN: sk: DIKDA-123456 pre projekt DIKDA +; pozor, musí zodpovedať URN: NBN, podľa ktorého je pomenovaný PSP balíček a jeho jednotlivé súbory- Iný interný identifikátor, hodnota atribútu "local", možno použiť napríklad na vyjadrenie čiarového kódu

M

<physicalDescription>   obsahuje údaje o fyzickom popise predlohy

O

       <note>   poznámka o fyzickom stave dokumentu;

O

Page 27: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

- Pre každú poznámku je nutné vytvoriť nový <note> element - Tu sa zapíšu defekty zistené pri digitalizácii pre úroveň ročníka (napr. chýbajúce čísla a pod.)

   Príklad: <mets:dmdSec ID="MODSMD_VOLUME_0001>    <mets:mdWrap MDTYPE="MODS" MIMETYPE="text/xml">      <mets:xmlData xmlns:mods="http://www.loc.gov/mods/v3">        <mods:mods ID="MODS_VOLUME_0001">         <mods:titleInfo>     <mods:partNumber> 45 </ mods: partNumber>          </ Mods: titleInfo>          <mods:genre> volume </ mods: genre>                   <mods:originInfo>            <mods:dateIssued> 1951 </ mods: dateIssued>          </ Mods: originInfo>   <mods:identifier type="uuid"> b6edddb3-51b6-4703-9585-fb9b9bfa858a   </ Mods: identifier>        </ Mods: mods>      </ Mets: xmlData>    </ Mets: mdWrap></ Mets: dmdSec>  

 

8.3.1.3 Pole MODS a DC pre číslo periodika

Element MODS Atribúty Popis povinnosť Element DC

<mods> ID ID musí vyjadrovať názov úrovne, t.j. napr. "MODS_ISSUE_0001"

M  

<titleInfo>   názov titulu periodika, ktorého je číslo súčasťou, prevziať z katalogizačného záznamu titulu periodikapoužiť názvové autority alebo katalogizačný záznam

M  

       <title>   názvové informácie - titul periodikaprevziať z katalógu

M <dc:title>

       <subTitle>   podnázov periodika RA <dc:title>

Page 28: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

       <partNumber>   poradové číslo vydania (čísla), napr. 40;alebo pri ročenkách číslo určitej série / edície (časť 1, rad B)

MA <dc:description> 

       <partName>   meno edície alebo špeciálnej edičnej rady, napr. Hygiena; možno uviesť aj názov tematického čísla alebo špeciálneho vydania;na použitie pri ročenkách a špecializovaných periodikách alebo pri tematických číslach alebo osobitných vydaniach

R <dc:description> 

<name>   údaje o zodpovednosti za číslo periodika;nepočíta sa s vypĺňaním pri denníkoch, ale napr. pri ročenkách, špeciálnych vydaniach čísel periodika a pod, ktoré majú vlastného autora / editora

MA  

  type type: použiť jeden z typov- personal- corporate- conference- family

   

       <namePart>   údaje o krstnom mene a priezvisku a pod.nutné vyjadriť pre krstné meno aj priezvisko;ak nemožno rozlíšiť krstné meno a priezvisko, neuplatňuje sa type a meno sa zaznamená v podobe akej je do jedného elementu <namePart>

MA <dc:creator> nutné spojiť do jedného poľa DC meno aj priezvisko

  type type: použiť jednu z hodnôt:- Date - odporúčané pokiaľ možno uviesť- Family - povinné pokiaľ možno uviesť- Given - povinné pokiaľ možno uviesť- termsOfAddress - odporúčané pokiaľ možno uviesť

   

       Rola   špecifikácia roly osoby alebo organizácie uvedenej v elemente <name>

MA  

              <roleTerm>   popis rolynutné použiť kontrol. slovník napr. z MARC21

MA  

  type 

type: code - kód roly z kontrolovaného slovníka rolí http://www.loc.gov/marc/relators/relaterm.html

M

Page 29: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

authority authority - údaje o kontrolovanom slovníku využitom pri popise roly, k popisu vyššie uvedeného MARC zoznamu nutné uviesť authority = "marcrelator"

M  

<genre>   bližšie údaje o type dokumentuhodnota "issue"

M <dc:type> 

  type type: pre spresnenie typu čísla a jednotlivých vydanípovinnéhodnota môže byť:- normal - bežné vydanie- morning - ranné vydanie- afternoon - popoludňajšie vydanie- evening - večerné vydanie- sequence_X - poradie vydania (sequence_1 = prvé vydanie toho dňa; sequence_2 = druhé vydanie atď)- Corrected - opravené vydanie- special - mimoriadne vydanie (napr. k nejakej udalosti)- supplement - v prípade, že sa príloha časopiseckého typu popisuje ako číslo

M  

<originInfo>   informácie o pôvode predlohyodporúčané kde možno vyplniť (napr. pri ročenkách, kde sa vydavateľ menil)

MA  

       <place>   údaje o mieste spojenom s vydaním, výrobou alebo pôvodom popisovaného dokumentu

MA <dc:coverage>

              <placeTerm>   konkrétne určenie miesta, napr. Martinzodpovedá hodnote z katalogizačného záznamu, pole 260, podpole "a" (MARC21)

MA <dc:coverage>

  type type - bude vždy text    

       <publisher>   nepovinné pre denníky a bežné čísla periodíkmeno entity, ktorá dokument vydala, vytlačila alebo inak vyprodukovalazodpovedá poľu 260 podpoľu "b" katalogizačného záznamu (MARC21)

MA <dc:publisher> 

       <dateIssued>   dátum vydania predlohy, v prípade čísla dátum dňa, kedy vyšlo; musí vyjadriť deň, mesiac a rok, podľa toho aké údaje sú k dispozícii;

MA <dc:date>  

Page 30: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

nutné zapísať v nasledujúcich podobách:- DD.MM.RRRR - ak vieme deň, mesiac aj rok vydania- MM.RRRR - ak vieme len mesiac a rok vydania- RRRR - ak vieme iba rok- DD.-DD.MM.RRRR - vydanie pre viac dní- MM.-MM.RRRR - vydanie pre viac mesiacov- MM.RRRR-MM.RRRR - vydanie pre mesiace december-január a pod., ktoré sa týkajú vydania na proleme dvoch rokov

  Qualifier Qualifier - možnosť ďalšieho spresnenia, hodnota "approximate" pre dáta, kde nevieme presný údaj

O  

<language>   údaje o jazyku dokumentu M  

       <languageTerm>   presné určenie jazyka – kódom,nutné použiť kontrolovaný slovník ISO 639-2, http://www.loc.gov/standards/iso639-2/php/code_list.php

M <dc:language> 

  type type: použiť hodnotu code    

  authority authority: použiť hodnotu "iso639-2b"    

<physicalDescription>   obsahuje údaje o fyzickom popise zdroja / predlohy

R  

       <extent>   údaje o rozsahu (strán, zväzkov alebo rozmerov); použitie skôr pri ročenkách a pod.zodpovedá hodnotám v poli 300 podpole "a" a "c" (MARC21), ak sú vyplnené obe polia, bude sa element <extent> opakovať;počet strán bude vyjadrený vo fyzickej štrukturálnej mape a bude tak viditeľný v aplikácii sprístupnenie aj bez vyplnenia tohto poľa

RA <dc:format>  

       <note>   poznámka o fyzickom stave dokumentu;pre každú poznámku je nutné vytvoriť nový <note> elementtu sa zapíšu poznámky o defektoch zistených pri digitalizácii pre úroveň čísla (chýbajúce a poškodené strany a pod.)

MA  

<abstract>   zhrnutie obsahu dokumentu, zvlášť pre RA <dc:description>

Page 31: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

ročenky, špeciálne vydania a tematické číslaplniť len v prípadoch, že sa líšia od abstraktu na úrovni tituluzodpovedá poľu 520 MARC21

 

<note>   všeobecná poznámka k dokumentuzodpovedá poľu 500 (MARC21)

RA  

<subject> authority údaje o vecnom triedeníplniť iba pre tematické čísla, špeciálne vydanie a ročenky - iba ak sa líšia od údajov v elemente <subject> na úrovni titulu

RA  

  authority authority: vyplniť hodnotu "sksnk"    

       <topic>   ľubovoľný výraz špecifikujúci alebocharakterizujúci obsah čísla;použiť kontrolovaný slovník - napríklad z bázy autorít SNK (vecná téma)

M <dc:subject> 

       <geographic>   geografické vecné triedeniepoužiť kontrolovaný slovník - napríklad z bázy autorít SNK (geografický termín)

R <dc:subject> 

       <temporal>   chronologické vecné triedeniepoužiť kontrolovaný slovník - napríklad z bázy autorít SNK (chronologický údaj)

R <dc:subject> 

       <name>   meno použité ako vecné záhlaviepoužiť kontrolovaný slovník - napríklad z bázy autorít SNK (osobné meno)

R  

       <namePart>   celé meno sa zapíše do elementu <namePart>, pozri top element <name>

  <dc:subject> 

<identifier>   údaje o identifikátoroch čísla, obsahuje unikátne identifikátory medzinárodné alebo lokálne

M <dc:identifier> 

  type type: budú sa povinne vypĺňať nasledovné hodnoty, ak existujú:- UUID - vygenerovať - POVINNÉ- urnnbn - pre URN: NBN, napr. zápis v tvare urn: NBN: sk: SNK-123456 pre projekt SNK +; pozor, musí zodpovedať URN: NBN, podľa ktorého je pomenovaný PSP balíček a jeho jednotlivé súbory- HDL - handle- iný interný identifikátor, hodnota atribútu

M  

Page 32: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

"local", možno použiť napríklad na vyjadrenie čiarového kódu

<location>   údaje o uložení popisovaného dokumentu, napr. signatúra, miesto uloženia a pod.odporúčané napr. pre ročenky a pod., kde sa signatúry jednotlivých čísel líšia

R  

       <URL>   pre uvedenie lokácie elektronického dokumentu

O <dc:source> 

  note note: pre poznámku o typu URL (na plný text, abstrakt a pod.)

   

       <physicalLocation>   údaje o inštitúcii, v ktorej je fyzicky uložený popisovaný dokument, napr. SNK nutné použiť kontrolovaný slovník - Siglo knižníc (ABA001 atď.)zodpovedá poľu 040 (MARC21)

MA <dc:source>  

  authority authority: hodnota "siglaADR" M  

       <shelfLocator>   signatúra alebo lokačné údaje o dokumente MA <dc:source>

<part>   popis častí dokumentu, bude využitý len na zaznamenanie <caption>

O  

  type type: hodnota bude vždy "issue"    

       <detail>        

              <caption>   text pred označením čísla, napríklad "č", "číslo", "No." a pod.

RA  

  Príklad: <mets:dmdSec ID="MODSMD_ISSUE_0001">    <mets:mdWrap MDTYPE="MODS" MIMETYPE="text/xml">                <mets:xmlData xmlns:mods="http://www.loc.gov/mods/v3">                    <mods:mods ID="MODS_ISSUE_0001">                       <mods:titleInfo>                          <mods:title> Pravda </ mods: title>                          <mods:partNumber> 6 </ mods: partNumber>                       </ Mods: titleInfo>                       <mods:genre type="normal"> issue </ mods: genre>                       <mods:originInfo>                <mods:dateIssued> 1.1.1956 </ mods: dateIssued>                       </ Mods: originInfo>

Page 33: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

                       <mods:language>                          <mods:languageTerm type="code" authority="iso639-2b"> cze                          </ Mods: languageTerm>                       </ Mods: language>                       <mods:identifier type="uuid"> fdee51ab-1547-4b9c-bf0e-cb0fdad7e40e                       </ Mods: identifier>             <mods:identifier type="urnnbn"> urn: NBN: boa001123456 </ mods: identifier>                    </ Mods: mods>                </ Mets: xmlData>   </ Mets: mdWrap></ Mets: dmdSec> 

8.3.1.4 Pole MODS a DC pre vnútornú časť periodiká (článok a obraz)

Element MODS

Atribúty

Popis Povinnosť

Element DC

<mods> ID ID musí vyjadrovať názov úrovne, t.j. napr. "MODS_PICT_0001" pre obrázok v texte, "MODS_ART_0001" pre článok a pod.

M  

<titleInfo>   názvové informácie vnútornej časti

M  

       <title>   vlastný názov vnútornej časti (článku, obrazu);pri obraze brať prípadne z popisu obrazu;pokiaľ nie je titul, nutné vyplniť hodnotu "untitled"

M <dc:title> 

       <subTitle>

  podnázov vnútornej časti (článku);za podnázov možno považovať aj krátky text, ktorý sa pred článkom objavuje tučným písmom (zhrnutie obsahu článku)

MA <dc:title> 

       <partNumber>

  číslo vnútornej častinapríklad článok na pokračovanie

RA <dc:title> 

       <partName>

  názov pokračovania vnútornej časti (článku)

RA <dc:title>

Page 34: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

<name>   údaje o zodpovednosti za vnútornú časť (článok i obraz)

MA  

  type 

type: použiť jeden z typov- Personal- Corporate- Conference- Family

M  

       <namePart>

  údaje o krstnom mene a priezvisku a pod.nutné vyjadriť pre krstné meno aj priezvisko;

ak nemožno rozlíšiť krstné meno a priezvisko, neuplatňuje sa type a meno sa zaznamená v podobe v akej je do jedného elementu <namePart>

MA <dc:creator>nutné spojiť do jedného poľa DC meno aj priezvisko

  type

type: použiť jednu z hodnôt:- Date - odporúčané pokiaľ možno uviesť- Family - povinné pokiaľ možno uviesť- Given - povinné pokiaľ možno uviesť- TermsOfAddress - odporúčané pokiaľ možno uviesť

MA  

       Rola   špecifikácia roly osoby alebo organizácie uvedenej v elementu <name>

RA  

              <roleTerm>

  popis rolynutné použiť kontrol. slovník napr. z MARC21

MA  

  type 

type: code - kód roly z kontrolovaného slovníka rolí http://www.loc.gov/marc/relators/relaterm.html

authority

authority - údaje o kontrolovanom slovníku využitom pri popise roly, pri popise vyššie uvedeného MARC zoznamu nutné uviesť authority = "marcrelator"

   

<genre>   bližšie údaje o type vnútornej častipovinnéhodnota: article alebo picturetype: odporúčané

M <dc:type> 

Page 35: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

  type

hodnota pre article - možnosť vyplniť bližšie určenie typu článku (možnosť použiť DTD periodika, Article Types)- News- Table of content- Advertisement- Abstract- Introduction- Review- Dedication- Bibliography- EditorsNote- Prefácie- Main article- Index (použije sa pre všetky typy zoznamov okrem hlavného obsahu; napr. zoznam obrazov, tabuliek a pod.)- Unspecified - ak nepatrí ani do jednej z vyššie uvedených kategórií- Ai hodnota pre picture - možnosť vyplniť ďalšie určenie typu obrazu- Table- Illustration- Chart- Photograph- Graphic- Map-  Advertisement-  Cover-  Unspecified - ak nepatrí ani do jednej z vyššie uvedených kategórií

   

<language>   údaje o jazyku vnútornej častinemožno plniť pri obraze

MA  

       <languageTerm>

  presné určenie jazyka - kódomnutné použiť kontrolovaný slovník ISO 639-2, http://www.loc.gov/standards/iso639-2/php/code_list.phpnemožno plniť pri obraze

M <dc:language> 

  type type: použiť hodnotu code M  

  authority authority: použiť hodnotu "iso639-2b" M  

<physicalDescription>

  obsahuje údaje o fyzickom popise zdroja / predlohy;

R  

Page 36: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

určené skôr pre články ako pre obrazy

       <form>   údaje o fyzickej podobe vnútornej časti, napr. print, electronic a pod.zodpovedá hodnotám pozície 23 a 29 v poli 008 (MARC21)

R <dc:format> 

  type type: použiť hodnotu code R  

<abstract>   zhrnutie obsahu vnútornej časti R <dc:description>

<note>   všeobecná poznámka k vnútornej častido poznámky by sa mala dávať šifra autora vnútornej časti, ktorá sa vyskytuje pod vnútornou časťouzodpovedá poľu 500 (MARC21)

RA <dc:description> 

<subject>   údaje o vecnom triedení R  

       <topic>   ľubovoľný výraz špecifikujúci alebocharakterizujúci obsah vnútornej časti;možné (nie je však nutné) použiť kontrolovaný slovník - napríklad z bázy autorít SNK (vecná téma)

M <dc:subject> 

  authority (voliteľné)

pri použití autoritatívnych záznamov použiť bázu autorít SNK a atribút authority: vyplniť hodnotu "sksnk";pri použití voľných kľúčových slov atribút authority nepoužívať

R  

       <geographic>   geografické vecné triedeniepoužiť kontrolovaný slovník - napríklad z bázy autorít SNK (geografický termín)

R <dc:subject>

  authority authority: vyplniť hodnotu "sksna"    

       <temporal>   chronologické vecné triedeniepoužiť kontrolovaný slovník - napríklad z bázy autorít SNK (chronologický údaj)

R <dc:subject> 

  authority authority: vyplniť hodnotu "sksna" R  

       <name>   meno použité ako vecné záhlavie R  

Page 37: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

použiť kontrolovaný slovník - napríklad z bázy autorít SNK (osobné meno)

  authority authority: vyplniť hodnotu "sksna" R  

              <namePart>

  vyplní sa obdobne ako top element <name> - celé meno autora do tohto elementu

R <dc:subject>

<classification>   klasifikačné údaje vecného triedenia podľa Medzinárodného desatinného triedeniaplniť iba pre článokzodpovedá poľu 080 (MARC21)

RA <dc:subject> 

  authority authority: vyplniť hodnotu "UDC"    

<identifier>   údaje o identifikátoroch, obsahuje unikátne identifikátory medzinárodné alebo lokálne, ktoré vnútorná časť má - pozri prehľad typov atribútov nižšie

M <dc:identifier>povinné

  type type: budú sa povinne vypĺňať nasledovné hodnoty, ak existujú pre článok alebo obraz:- UUID - generuje sa - POVINNÉ- urnnbn - pre URN: NBN- HDL - handle- doi- iný interný identifikátor, hodnota atribútu "local", možno použiť napríklad na vyjadrenie čiarového kódu

M  

<part>   popis častí vnútornej časti, bude využité na záznam rozsahunemožno využiť pri obraze

RA  

       <extent>   spresnenie popisu časti - rozsah na stranách

MA <dc:format>

             <Start>   prvá strana, na ktorej vnútornú časť začína

MA <dc:coverage>

Page 38: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

             <end>   posledná strana, na ktorej vnútornú časť končí

MA <dc:coverage>

<recordInfo>   údaje o metadátovom zázname vnútornej časti - jeho vzniku, zmenách a pod.

M  

                          <recordContentSou

rce>

  kód alebo názov inštitúcie, ktorá záznam vytvorila alebo zmenila;

nutné vytvoriť kontrolovaný slovník

R  

                          <recordCreationDat

e>

  dátum prvého vytvorenia záznamu vnútornej časti

M  

  encoding encoding: záznam bude podľa normy ISO 8601 na úrovni minút, hodnota

atribútu teda iso8601

MA  

                          <recordChangeDat

e>

  dátum zmeny záznamu vnútornej časti

R  

  encoding encoding: záznam bude podľa normy ISO 8601 na úrovni minút, hodnota

atribútu teda iso8601

R  

                          <recordOrigin>

  údaje o vzniku záznamu vnútornej časti

hodnoty: machine generated alebo human prepared

R  

     Príklad: <mods:mods ID="MODS_ARTICLE_0001">   <mods:titleInfo>      <mods:title> Autori a redaktori (slovo do vlastných radov) </ mods: title>   </ Mods: titleInfo>   <mods:name type="personal">      <mods:namePart type="given"> Bohumil </ mods: namePart>      <mods:namePart type="family"> Kratochvíl </ mods: namePart>

Page 39: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

      <mods:role>         <mods:roleTerm type="code" authority="marcrelator"> áut </ mods: roleTerm>      </ Mods: role>   </ Mods: name>   <mods:genre> article </ mods: genre>   <mods:language>      <mods:languageTerm type="code" authority="iso639-2b"> cze </ mods: languageTerm>   </ Mods: language>   <mods:identifier type="uuid"> 53779de4-1c10-40e5-a6ee-581796cb9a8c   </ Mods: identifier>   <mods:part>      <mods:extent>         <mods:start> 437 </ mods: start>         <mods:end> 437 </ mods: end>      </ Mods: Extent>   </ Mods: part>   <mods:recordInfo>      <mods:recordContentSource> Elsyst Engineering </ mods: recordContentSource>      <mods:recordCreationDate encoding="iso8601"> 2012-01-13T06: 28                </ Mods: recordCreationDate>      <mods:recordOrigin> human prepared </ mods: recordOrigin>   </ Mods: recordInfo></ Mods: mods>   

8.3.1.5 Pole MODS a DC pre prílohu 

Element MODS Atribúty Popis   Element DC

<mods> ID ID musí vyjadrovať názov úrovne, t.j. MODS_SUPPL_0001

M  

<titleInfo>   názvové informácie prílohypoužiť názvové autority alebo katalogizačný záznam

M  

       <title>   názvové informácie - názov periodika, ktorého súčasťou príloha je,prevziať z katalógu

M <dc:title> 

Page 40: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

       <partNumber>   číslo prílohy, ak nejaké máodporúčané pokiaľ možno vyplniť

MA

<dc:description>

       <partName>   názov prílohy MA

<dc:title>

<name>   údaje o zodpovednosti za prílohu MA

 

  type type: použiť jeden z typov:- Personal- Corporate- Conference- Family

   

       <namePart>   údaje o krstnom mene a priezvisku a pod.nutné vyjadriť pre krstné meno aj priezvisko

ak nemožno rozlíšiť krstné meno a priezvisko, neuplatňuje sa type a meno sa zaznamená v podobe v akej je do jedného elementu <namePart>

MA

<dc:creator>

nutné do jedného poľa DC spojiť meno aj priezvisko

  type type: použiť jednu z hodnôt:- Date - odporúčané pokiaľ možno uviesť- Family - povinné pokiaľ možno uviesť- Given - povinné pokiaľ je možné uviesť

   

Page 41: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

- TermsOfAddress - odporúčané pokiaľ je možné uviesť

       Rola   špecifikácia roly osoby alebo organizácie uvedenej v elemente <name>

MA

 

              <roleTerm>   popis rolynutné použiť kontrol. slovník napr. z MARC21

MA

 

  type 

type: code - kód roly z kontrolovaného slovníka rolí http://www.loc.gov/marc/relators/relaterm.html

M

  authority authority - údaje o kontrolovanom slovníku využitom k popisu roly, k popisu vyššie uvedeného MARC zoznamu nutné uviesťauthority = "marcrelator"

 

<typeOfResource>

  popis charakteristiky typu alebo obsahu prílohyjedna z hodnôt:- Text - napr. pre prílohu typu časopis, kniha, brožúra a pod.- Cartographic - pre mapy- Notated music- Sound recording-musical - pre hudobné CD / DVD- Sound recording-nonmusical- Sound recording- Still image - fotografie, plagáty a pod- Moving image - pre filmové DVD- Three dimensional object – pre 3D objekty- Software, multimedia - pre CD / DVD so SW- Mixed material pre zmiešané objekty

R <dc:type> 

<genre>   bližšie údaje o type dokumentuhodnota:

- Volume_supplement (príloha k ročníku, napr. obsah celého ročníka)- Issue_supplement (príloha k číslu)

M <dc:type> 

<originInfo>   informácie o pôvode prílohyplniť ak sa líši od údajov v popise čísla (platí aj pre jednotlivé sub-elementy)

MA

 

       <place>   údaje o mieste spojenom s vydaním, výrobou alebo pôvodom prílohy

MA

<dc:coverag

Page 42: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

e>

              <placeTerm>   konkrétne určenie miesta, napr. Martinzodpovedá hodnote katalogizačného záznamu, pole 260, podpole "a" (MARC21)

MA

<dc:coverage>

  type 

type - bude vždy text    

       <publisher>   meno entity, ktorá prílohu vydala, vytlačila alebo inak vyprodukovalazodpovedá poľu 260 podpole "b" katalogizačného záznamu (MARC21)

MA

<dc:publisher>

       <dateIssued>   dátum vydania prílohy, musí vyjadriť deň, mesiac a rok, podľa toho, aké údaje sú k dispozíciinutné zapísať v nasledujúcich podobách:- DD.MM.RRRR - ak vieme deň, mesiac aj rok vydania- MM.RRRR - ak vieme len mesiac a rok vydania- RRRR - ak vieme iba rok- DD.-DD.MM.RRRR - vydanie pre viac dní- MM.-MM.RRRR - vydanie pre viac mesiacov- MM.RRRR-MM.RRRR

M <dc:date>

 

  Qualifier Qualifier - možnosť ďalšieho spresnenia, hodnota "approximate" pre dáta, kde nevieme presný údaj

R  

       <frequency>   údaje o pravidelnosti vydávania zodpovedá údajom v poli 310 alebo pozícii 18 v poli 008 (MARC21)

RA

 

<language>   údaje o jazyku dokumentu M  

       <languageTerm>   

presné určenie jazyka - kódomnutné použiť kontrolovaný slovník ISO 639-2, http://www.loc.gov/standards/iso639-2/php/code_list.php

M <dc:language> 

  type type: použiť hodnotu code    

Page 43: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

  authority authority: použiť hodnotu "iso639-2b"    

<physicalDescription>

  obsahuje údaje o fyzickom popise zdroja / predlohy

M  

       <form>   údaje o fyzickej podobe dokumentu, napr. print, electronic a pod.povinnépre tlačené predlohy hodnota "print", pre elektronické prílohy "electronic"zodpovedá hodnotám pozícií 23 a 29 v poli 008 (MARC21)

M <dc:format> 

  authority authority: hodnota "marcform"    

       <extent>   údaje o rozsahu (strán, zväzkov alebo rozmerov)zodpovedá hodnotám v poli 300 podpole "a" a "c" (MARC21), ak sú vyplnené obe polia, bude sa element <extent> opakovať

RA

<dc:format> 

       <note>   poznámka o fyzickom stave dokumentu;pre každú poznámku je nutné vytvoriť nový <note> elementtu sa zapíšu poznámky o defektoch zistených pri digitalizácii pre úroveň prílohy ako samostatného čísla (chýbajúce a poškodené strany a pod)

RA

 

<abstract>   zhrnutie obsahu dokumentuzodpovedá poľu 520 (MARC21)

RA

<dc:description>

<note>   všeobecná poznámka k dokumentuzodpovedá poľu 500 (MARC21)

RA

<dc:description>

<subject>   údaje o vecnom triedenie R  

  authority authority: vyplniť hodnotu "sksnk"    

       <topic>   ľubovoľný výraz špecifikujúci alebo M <dc:

Page 44: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

charakterizujúce obsah prílohy;použiť kontrolovaný slovník - napríklad z bázy autorít SNK (vecná téma)

subject> 

       <geographic>

  geografické vecné triedeniepoužiť kontrolovaný slovník - napríklad z bázy autorít SNK (geografický termín)

R <dc:subject> 

       <temporal>   chronologické vecné triedeniepoužiť kontrolovaný slovník - napríklad z bázy autorít SNK (chronologický údaj)

R <dc:subject> 

       <name>   meno použité ako vecné záhlaviepoužiť kontrolovaný slovník - napríklad z bázy autorít SNK (osobné meno)

R <dc:subject>

Page 45: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

              <namePart>   celé meno sa zapíše do elementu <namePart>, pozri top element <name>

   

<classification>   klasifikačné údaje vecného triedenia podľa Medzinárodného desatinného triedeniazodpovedá poľu 080 (MARC21)

R <dc:subject>

  authority authority: vyplniť hodnotu "UDC"    

<identifier>   údaje o identifikátoroch, obsahuje unikátne identifikátory medzinárodné alebo lokálne, ktoré príloha má - pozri prehľad typov atribútov nižšie

MA

<dc:identifier>

Page 46: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

  type type: budú sa povinne vypĺňať nasledovné hodnoty, ak existujú:- UUID - POVINNÉ- Urnnbn - pre URN: NBN- Ccnb - čSNB - prevziať z katalogizačného záznam SNK- ISBN - prevziať z katalogizačného záznam SNK- ISSN - prevziať z katalogizačného záznam SNK- HDL - handle- Doi- Permalink záznamu z katalógu SNK, - Iný interný identifikátor, hodnota atribútu "local", možno použiť napríklad na vyjadrenie čiarového kódu

   

 

  

Page 47: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

8.4 METS časť <amdSec> - Technické a administratívne metadáta - formáty MIX a premis

 ●        pre všetky digitalizované dáta sa bude využívať formát premis (jeho časti

object, event a agent), pre obrazové dáta ďalej aj formát MIX●        technické a administratívna metadáta budú zabalené v časti <amdSec>

formáte METS vo vlastných formátoch (MIX, premis - časti object; events; agent)●        technické a administratívne metadáta budú vznikať aj pre prvotné skeny

(väčšinou TIFF), ktoré sa po potrebných úpravách mažú a ďalej neuchovávajú○        technické metadáta sú určené primárne pre zachytenie technických informácií o formátoch súborov, o výsledkoch validácie a kontrol○        administratívne metadáta zachytávajú všetky zmeny, procesy a pod, ktoré boli na dátach i metadátach vykonané

●        technické metadáta prichádzajúce z digitalizácie sú ďalej v maximálnej miere ukladané v LTP systéme (po namapovaní do interného formátu LTP systému)

●        všetky premis záznamy budú vo vedľajšom METS zázname (AMD_METS.xml), ktorý je určený pre administratívne a technické metadáta (spolu s MIX záznamy).

●        celý METS záznam (AMD_METS.xml) je linkovaný z hlavného METS záznamu dokumentu

●        ●        <amdSec> časť bude existovať vždy jedna pre všetky reprezentácie jednej strany dokumentu (MC, ALTO XML, OCR.TXT) a bude obsahovať metadáta v <techMD> a <digiprovMD> podcastov

●        časť <amdSec> musí mať ID a vnorený element <techMD> alebo <digiprovMD>, oba s ID a vnoreným elementom <mdWrap> s atribútom MDTYPE

  

element atribúty popis_obrázka = Povinnosť

<amdSec>

  element obsahujúci technické metadáta vo formáte premis alebo MIX

M

  ID ID - identifikátor konkrétnej časti <amdSec>, napr. pre stranu 1 by hodnota mohla byť "PAGE0001"

M

                          <techMD>

  elementy rozlišujúce typy jednotlivých administratívnych

M

Page 48: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

                          alebo                          <digiprovMD>

metadát

  ID pre časť <techMD>: M

    - Pre časti obsahujúce premis-object hodnota "OBJ_001" - objekt 1 (premis object pre zmazaný TIFF, OBJ_002 by bolo pre MC, OBJ_003 pre ALTO XML

M

    - Pre časti obsahujúce MIX hodnota "MIX_001" = MIX metadáta pre pôvodné TIFF, "MIX_002" pre MC

M

    pre časť <digiprovMD>:

M

    - Pre časti obsahujúce premis-event hodnota "EVT_001" a pod.

M

    - Pre časti obsahujúce premis-agent hodnota "AGENT_001" a pod.

M

                                                              <mdWrap>

  element obsahujúci vložené záznamy premis, MIX

M

  MDTYPE 

MDTYPE- Pre záznamy premis object, event aj agent vždy hodnota "premis"- Pre záznamy MIX hodnota "NISOIMG"

M

  Príklad: <mets:amdSec ID="PAGE0001">

Page 49: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

    <mets:techMD ID="OBJ_001">      <mets:mdWrap MDTYPE="PREMIS" MIMETYPE="text/xml">                   <mets:xmlData>                    ...        </ Mets: xmlData>      </ Mets: mdWrap>    </ Mets: techMD>    <mets:techMD ID="MIX_001">      <mets:mdWrap MDTYPE="NISOIMG" MIMETYPE="text/xml">        <mets:xmlData>                   ...        </ Mets: xmlData>      </ Mets: mdWrap>    </ Mets: techMD>    <mets:digiprovMD ID="EVT_001">      <mets:mdWrap MDTYPE="PREMIS" MIMETYPE="text/xml">        <mets:xmlData>                  ...        </ Mets: xmlData>      </ Mets: mdWrap>    </ Mets: digiprovMD>    <mets:digiprovMD ID="AGENT_001">      <mets:mdWrap MDTYPE="PREMIS" MIMETYPE="text/xml">        <mets:xmlData>                   ...        </ Mets: xmlData>      </ Mets: mdWrap>              </ Mets: digiprovMD>  </ Mets: amdSec>  ●        pre všetky digitalizované dáta sa bude využívať formát premis (jeho časti object, event a agent), pre obrazové dáta ďalej aj formát MIX●        technické a administratívne metadáta budú vznikať aj pre prvotné skeny (väčšinou TIFF), ktoré sa po potrebných úpravách zmažú a ďalej neuchovávajú - pozri špecifikácia●        technické metadáta sú určené primárne pre zachytenie technických informácií o formátoch súborov, o výsledkoch validácií a kontrol●        administratívne metadáta zachytávajú všetky zmeny, procesy a pod., ktoré boli na dátach i metadátach vykonané●        všetky premis a MIX záznamy budú obsiahnuté v tzv. vedľajšom METS zázname (AMD_METS.xml), ktorý je určený pre administratívne a technické metadáta

○        celý METS záznam (AMD_METS.xml) je linkovaný z hlavného METS záznamu dokumentu

●        plnenie technických metadát sa predpokladá z výstupov vzniknutých využitím služieb tretích strán ako sú JHOVE2, PRONOM ai.

Page 50: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

  

8.4.1 premis Object 

●        bude v zmysle štandardov poslednej aktuálnej verzie v dobe implementácie (marec 2012 - premis data dictionary v2.1), alebo verzie predchádzajúcej●        popisovať sa budú pomocou premis object súbory, t.j. podľa špecifikácie premis vždy úroveň tzv. File (nie reprezentácie ani bitstream)●        záznam v premis Object sa bude vytvárať pre každý súbor

1) vzniknutý v procese digitalizácie (pôvodný sken, ktorý sa ďalej maže);2) archívne obrazové kópie,3) ALTO XML

●        Premis Object sa nebude vytvárať pre OCR.TXT súbory ani pre UC●        pre každý záznam premis Object bude existovať vlastná podčasť <techMD>●        záznam premis Object pre jeden súbor bude obsahovať linky na udalosti, ktoré sú popísané v premis Events v rovnakom METS metadátovom zázname konkrétneho dokumentu (číslo, zväzok) v časti <digiprovMD>; cez <premis:relatedEventIdentification>, to isté platí pre objekty, ktoré budú nalinkované v prípade vzťahu (napr. UC vznikla z MC) s popisovaným objektom cez <premis:relatedObjectIdentification>.

○        napr. Premis Object popisujúci archívne súbor JPEG2000 je týmto spôsobom nalinkovaný na pôvodný sken vo formáte TIFF (resp. na jeho premis Object záznam) - pomocou tagu <relatedObjectIdentification>, ktorý obsahuje ID pôvodného objektu (napr. TIFF)○        zároveň pomocou tagu <relatedEventIdentification> je záznam premis Object archívneho súboru JPEG2000 nalinkovaný na udalosť, počas ktorej vznikol

●        POZOR - premis Object bude vznikať a uchovávať sa aj pre neexistujúce dáta (pôvodný a neskôr zmazaný TIFF) Pole záznamu premis Object Obsah poľa "Popis":●        vysvetlenie a príklad●        odporúčané plnenia tam, kde je to možné●        výskyt elementu (ako je definované formátom premis - podľa XSD)

○        0-1 element je voliteľný, neopakovateľný○        0-n element je voliteľný, opakovateľný○        1-n element je povinný a opakovateľný○        element je povinný a neopakovateľný 

význam poľa "Povinnosť"

Page 51: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

●        pole "Povinnosť" uvádza, či je plnenie jednotlivých elementov povinné, odporúčané alebo voliteľné●        môže nadobúdať nasledujúce hodnoty

○        M - mandatory (povinne plniť - element je súčasťou každého záznamu)○        MA - mandatory if available (povinne plniť pokiaľ je to možné, ak možnosť existuje a pod.)○        R - recommended (plnenie hodnôt elementu je odporúčané, nie je však povinné)○        RA - recommended if available (odporúča sa pokiaľ možno plniť)○        O - optional (plnenie hodnôt elementu je voliteľné podľa konkrétnych potrieb)

 Obsah poľa "Použitie pre"- Použitie jednotlivých elementov pre popis MC, PS (pôvodné skeny), XML (ALTO) 

Element Popis Použitie pre Povinnosť

<objectIdentifier> identifikátor k jednoznačnému odlíšeniu objektu v určitom kontexte;1-n

MC, XML, PS M

  <objectIdentifierType> opis kontextu, v ktorom je identifikátor unikátny, napr. DIKDA, ANL alebo názov repozitára; nutné použiť kontrolovaný slovník;1-1

MC, XML, PS M

  <objectIdentifierValue> vlastná hodnota identifikátora, napr. img0001-master, urn.nbn.cz-123465 a pod.;1-1

MC, XML, PS M

<objectCategory> typ objektu, ku ktorému sa metadáta (premis Object) vzťahuje, napr. file pre súbor, representation pre dig. reprezentáciu, bitstream pre bitstream;1-1

MC, XML, PS M

<preservationLevel> údaje o úrovni ochrany súboru, ktorá sa naň vzťahuje; niektoré súbory nie sú tak dôležité ako iné, majú menšiu úroveň ochrany;0-n

MC, XML, PS M

  <preservationLevelValue>

hodnota úrovne ochrany, ktorá je pre súbor relevantná, pre pôvodný sken PS hodnota deleted, pre MC a XML hodnota preservation;1-1

MC, XML, PS M

Page 52: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

  <preservationLevelDateAssigned>

dátum, kedy bola priradená hodnota úrovne ochrany, zápis v ISO 8601, na úrovni dňa (DD-MM-RRRR)0-1

MC, XML, PS R

<objectCharacteristics>

technické údaje o súbore1-n

MC, XML, PS M

  <compositionLevel> údaj o tom, či je potrebné digitálny objekt rozbaliť alebo dekódovať; napr. 0 (defaultne na žiadne zabalenie alebo kódovanie); 1 pre jedno zabalenie a kodovanie, podobne potom hodnota 2;1-1

MC, XML, PS M

  <fixity> údaje o kontrolnom súčte0-n

MC, XML, PS M

     <messageDigestAlgorithm>

použitý algoritmus kontrolného súčtu, napr. MD5 a.i.1-1

MC, XML, PS M

     <messageDigest> hodnota kontrolného súčtu1-1

MC, XML, PS M

     <messageDigestOriginator>

agent (osoba, inštitúcia, stroj, SW), ktorý kontrolný súčet vytvoril (napr. JHOVE a pod.)0-1

MC, XML, PS M

  <size> údaje o veľkosti súboru v bytoch0-1

MC, XML, PS M

  <format> údaje o formáte súboru1-n

MC, XML, PS M

     <formatDesignation> identifikácia formátu súboru, výstup z JHOVE, PRONOM služieb a pod.0-1

MC, XML, PS M

        <formatName> meno formátu, napr. image / tiff alebo Adobe PDF1-1

MC, XML, PS M

        <formatVersion> verzia formátu, napr. 6.00-1

MC, XML, PS M

     <formatRegistry> identifikácia formátu – dodatočné informácie o zázname formátov v registroch formátov (napr. PRONOM ai)0-1

MC, XML, PS M

        meno použitého registra formátov, napr. UDFR, MC, XML, PS M

Page 53: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

<formatRegistryName> PRONOM a.i.1-1

        <formatRegistryKey>

unikátny identifikátor (označenie) formátu v registri, napr. fmt/155 z PRONOM1-1

MC, XML, PS M

  <creatingApplication> údaje o aplikácii, v ktorej bol popisovaný súbor vytvorený; nutné popísať skener, Software kde vzniklo ALTO XML / TXT, SW / kodek pre vytvorenie JPEG2000 MC0-n

MC, XML, PS M

        <creatingApplicationName>

názov aplikácie, napr. ImageGear, Kakadu a pod.;0-1

MC, XML, PS M

        <creatingApplicationVersion>

verzia aplikácie, napr. 15.03.0000-1

MC, XML, PS M

        <dateCreatedByApplication>

dátum a čas vytvorenia, napr. 2012-11-10T12: 37:46; musí byť v tvare ISO 8601 (na úrovni sekúnd);0-1

MC, XML, PS M

<originalName> pôvodné meno súboru, napr. scan2page_2012081301091_0011.jp20-1

MC, XML, PS M

<relationship> vyjadrenie vzťahu popisovaného súboru k iným súborom a udalostiam (events)0-n

MC, XML M

  <relationshipType> typ vzťahu, odporúčané hodnoty: derivation = vzťah kde objekt je výsledkom zmeny iného objektu; structural = vzťah medzi časťami objektu;t.j. napr. ALTO vytvorené z TIFF bude mať vzťah derivation, podobne ako JPEG2000 z tiff vytvorený;1-1

MC, XML; M

  <relationshipSubType> spresnenie vzťahu, odporúčané hodnoty: created from; has source; is source of; has Sibling; has part; is part of; has root; includes; is included in; a pod.;t.j. napr. ALTO alebo JPEG2000 vytvorený z pôvodného TIFF budú mať vzťah "created from"1-1

MC, XML; M

Page 54: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

  <relatedObjectIdentification>

identifikácia súvisiaceho súboru1-npre MC, XML pre vyjadrenie vzťahu k pôvodnému objektu (skenu)

MC, XML M

     <relatedObjectIdentifierType>

špecifikácia kontextu, v ktorom je identifikátor súboru jedinečný, napr. URN; temporary filepath; objectID1-1

MC, XML M

     <relatedObjectIdentifierValue>

vlastný reťazec identifikátora, napr. URN: NBN: sk-1301091_011 # 0001 alebo názov súboru, cesta k súboru a pod.1-1

MC, XML M

  <relatedEventIdentification>

identifikácia s popisovaným súborom súvisiacej udalosti (eventu); zoznam udalostí pozri premis event0-n

MC, XML M

     <relatedEventIdentifierType>

typ udalosti, napr. interný číslovací systém udalostí ako no.nb.evt; NK repository event ID, UUID a pod.1-1

MC, XML M

     <relatedEventIdentifierValue>

hodnota identifikátora udalosti, napr. NK_EVT_005 alebo hodnota UUID ai1-1

MC, XML M

     <relatedEventSequence>

poradie udalosti, napr. 003; na určenie poradia je možné určiť dátum udalosti0-1

MC, XML R

<linkingEventIdentifier> identifikátor udalosti týkajúci sa pôvodného skenu PS; typy udalostí môžu byť napr. vytvorenie, zmazanie0-npre PS nutný link na udalosti vytvorenie (digitalizácia) a jeho vymazanie

PS M

  <linkingEventIdentifierType>

typ identifikátora udalosti, napr. UUID, NK_eventID, vlastné číslovacie systémy a pod.1-1

PS M

  <linkingEventIdentifierV

hodnota identifikátora, napr. event_01; img0001-master-event001 a pod.

PS M

Page 55: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

alue> 1-1

   

 Príklad (premis pre zmazaný pôvodný sken): <premis:object xsi:type="premis:file" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:premis="info:lc/xmlns/premis-v2">   <premis:objectIdentifier>                <premis:objectIdentifierType> EE_Sirius_DIKDA_FileID </ premis: objectIdentifierType>                <premis:objectIdentifierValue> 614 </ premis: objectIdentifierValue>   </ premis: objectIdentifier>   <premis:objectCategory> file </ premis: objectCategory>   <premis:preservationLevel>                <premis:preservationLevelValue> deleted </ premis: preservationLevelValue>      <premis:preservationLevelDateAssigned> 2012-01-26T13: 49:25 </ premis: preservationLevelDateAssigned>   </ premis: preservationLevel>   <premis:objectCharacteristics>                <premis:compositionLevel> 0 </ premis: compositionLevel>                <premis:fixity>                   <premis:messageDigestAlgorithm> MD5 </ premis: messageDigestAlgorithm>                   <premis:messageDigest> 437d2c0462dfe2fb276bf0e4f86eeea1 </ premis: messageDigest>                   <premis:messageDigestOriginator> Elsyst Engineering </ premis: messageDigestOriginator>                </ premis: fixity>      <premis:size> 19535558 </ premis: size>                <premis:format>                   <premis:formatDesignation>            <premis:formatName> image / tiff </ premis: formatName>                      <premis:formatVersion> 42 </ premis: formatVersion>                   </ premis: formatDesignation>                   <premis:formatRegistry>            <premis:formatRegistryName> PRONOM </ premis: formatRegistryName>            <premis:formatRegistryKey> x-cmp/12 </ premis: formatRegistryKey>                   </ premis: formatRegistry>

Page 56: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

                </ premis: format>                <premis:creatingApplication>                   <premis:creatingApplicationName> INSERTDOCUMENTSTOSIRIUS                   </ premis: creatingApplicationName>                   <premis:creatingApplicationVersion> 1.0.0.0                   </ premis: creatingApplicationVersion>                   <premis:dateCreatedByApplication> 2011-11-30T07: 22:00                   </ premis: dateCreatedByApplication>      </ premis: creatingApplication>   </ premis: objectCharacteristics>   <premis:originalName> D: \ Test-Virtual \ Vystúp \ ivo_import \ náhľadu \ B300C__161289.tif   </ premis: originalName>   <premis:linkingEventIdentifier>      <premis:linkingEventIdentifierType> EE_Sirius_DIKDA_ANLs_LoggingID                </ premis: linkingEventIdentifierType>                <premis:linkingEventIdentifierValue> 1700 </ premis: linkingEventIdentifierValue>   </ premis: linkingEventIdentifier></ premis: object>  

8.4.2 premis Event●        bude zodpovedať poslednej aktuálnej verzii v dobe implementácie (marec 2012 - premis data dictionary v2.1), alebo verzii predchádzajúcej●        Premis Event záznamy zhromažďujú informácie o procesoch a udalostiach, ktoré sa týkajú jedného alebo viacerých objektov, v našom prípade súborov. Primárne použitie je na zaznamenanie udalostí, ktoré popisovaný súbor menia alebo upravujú.●        budú vznikať na udalosti, ktoré sa robili na obrazových dátach

○        digitalizácia - vytvorenie prvého skenu (napr. do TIFF)○        vytvorenie ALTO XML○        vygenerovanie MC○        vygenerovanie UC○        vymazanie PS

●        opis udalostí bude zachytávať informácie o ich výsledku / výstupe●        záznamy premis Event budú uložené v METS zázname určenom pre administratívne a technické metadáta (AMD_METS.xml) v jeho časti <amdSec>, podčasť <digiprovMD>

○        AMD_METS.xml je linkovaný z hlavného METS záznamu dokumentu●        pre každú udalosť bude vytvorená jedna <digiprovMD> časť

Page 57: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

●        každý záznam premis Event je linkovaný na pôvodcu aktivity - t.j. na premis agent záznam Obsah poľa "Popis":●        vysvetlenie a príklad●        odporúčané plnenie tam, kde je to možné●        výskyt elementu (ako je definované formátom premis - podľa XSD)

○        0-1 element je voliteľný, neopakovateľný○        0-n element je voliteľný, opakovateľný○        1-n element je povinný a opakovateľný○        element je povinný a neopakovateľný

 význam poľa "Povinnosť"●        - Pole "Povinnosť" uvádza, či je plnenie jednotlivých elementov povinné, odporúčané alebo voliteľné●        - Môže nadobúdať nasledujúcich hodnôt

○        M - mandatory (povinne plniť - element je súčasťou každého záznamu)○        MA - mandatory if available (povinne plniť pokiaľ je to možné, ak možnosť existuej a pod.)○        R - recommended (plnenie hodnôt elementu je odporúčané, nie je však povinné)○        RA - recommended if available (odporúča sa, pokiaľ možno plniť)○        O - optional (plnenie hodnôt elementu je voliteľné podľa konkrétnych potrieb)

 Pole záznamu premis Event

Element Popis Povinnosť

<eventIdentifier> údaje o identifikátore udalosti v kontexte digitalizácie alebo repozitára1-1

M

  <eventIdentifierType> typ identifikátora, napr. no.nb.evt; NK_eventID, UUID a pod.1-1

M

  <eventIdentifierValue> hodnota identifikátora, napr. EVT_001; event_019 a pod.1-1

M

<eventType> kategorizácie udalosti, nutné použiť kontrolovaný slovník; typy udalostí, ktoré musia byť zaznamenané: capture, migration, derivation, deletion1-1

M

<eventDateTime> dátum a čas kedy bola udalosť vykonaná; nutné zapísať v ISO 8601 na úrovni sekúnd

M

Page 58: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

1-1

<eventDetail> ďalšie údaje o udalosti, odporúčané hodnoty pre vyššie uvedené <eventType> nasledujú za /:- Capture / digitization - vznik prvého skenu- Capture / XML_creation- Capture / TXT_creation- Migration / MC_creation- Derivation / UC_creation- Deletion / PS_deletion0-1

M

<eventOutcomeInformation> informácie o výsledku udalosti0-n

R

  <eventOutcome> kategorizácie výsledku udalosti, napr. slovami ako successful alebo failure, možné použiť kódy - nutné používať kontrolovaný slovník alebo zoznam kódov0-1

M

<linkingAgentIdentifier> identifikácia jedného alebo viacerých agentov spojených s udalosťou0-n

M

  <linkingAgentIdentifierType> označenie typu identifikátora, napr. NK_AgentID, UUID a pod.1-1

M

  <linkingAgentIdentifierValue> hodnota identifikátora, napr. agent_softwareName_5.2; agent_novakJ a pod.1-1

M

  <linkingAgentRole> rola agenta vo vzťahu k udalosti, napr. softvér; SW component; operator; nutné používať kontrolovaný slovník0-n

R

<linkingObjectIdentifier> informácie o objekte / súbore spojenom s udalosťou, odkaz/link na tento objekt/súbor0-n

M

  <linkingObjectIdentifierType> označenie typu identifikátora, napr. PhysUnitID; URN, NK_OBJ, OBJ_001 a pod.; hodnoty by sa mali preberať z kontrolovaného slovníka1-1

M

  <linkingObjectIdentifierValue>

hodnota identifikátora, napr. URN: NBN: sk-_0011 # 0001 a.i.1-1

M

  Príklad (Udalosť - nadobudnutie pôvodného skenu):

Page 59: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

 <premis:event xmlns:premis="info:lc/xmlns/premis-v2">   <premis:eventIdentifier>      <premis:eventIdentifierType> EE_Sirius_DIKDA_ LoggingID      </ premis: eventIdentifierType>      <premis:eventIdentifierValue> 1700 </ premis: eventIdentifierValue>   </ premis: eventIdentifier>   <premis:eventType> creation </ premis: eventType>   <premis:eventDateTime> 2011-11-30T08: 24:34 </ premis: eventDateTime>   <premis:eventDetail> capture / digitization </ premis: eventDetail>   <premis:eventOutcomeInformation>      <premis:eventOutcome> succeessful </ premis: eventOutcome>   </ premis: eventOutcomeInformation>   <premis:linkingAgentIdentifier>      <premis:linkingAgentIdentifierType> EE_Sirius_DIKDA_UserID                </ premis: linkingAgentIdentifierType>      <premis:linkingAgentIdentifierValue> 1 </ premis: linkingAgentIdentifierValue>      <premis:linkingAgentRole> operator </ premis: linkingAgentRole>   </ premis: linkingAgentIdentifier>   <premis:linkingObjectIdentifier>      <premis:linkingObjectIdentifierType> EE_Sirius_DIKDA_ FileID                </ premis: linkingObjectIdentifierType>                <premis:linkingObjectIdentifierValue> 614 </ premis: linkingObjectIdentifierValue>   </ premis: linkingObjectIdentifier></ premis: event>

  

8.4.3 premis Agent●        bude zodpovedať poslednej aktuálnej verzii v dobe implementácie (marec 2012 - premis data dictionary v2.1), alebo verzia predchádzajúca●        využitie premis Agent je skôr myslené pre tzv. ochranné aktivity, ktoré prebiehajú na archívnych dátach (AIP balíček) a je nutné pre každú udalosť na týchto dátach mať presnejšie informácie o tom, kto ju vykonal (osoba administrátora alebo oprávnenej osoby)

○        informácie v premis Event a premis Object prichádzajúce z procesu digitalizácie v PSP balíčku sú dostačujúce a dajú nám dostatočné informácie o udalosti, kedy bola vykonaná, na akom SW bola vykonaná (premis object "creatingApplication" + premis event "eventDetail" - t.j. ďalšie upresnenie v premis agent nie je nutné

Page 60: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

●        záznam premis Agent obsahuje charakteristiku tzv. agenta, ktorý je spojený s vykonanou a zaznamenanou udalosťou (premis event)

○        agent môže byť osoba, organizácia alebo softvér●        z premis Event je linkovanie na agenta, ktorý určitú akciu vykonal, typ ID agenta a jeho hodnota sú uvedené v premis Events (<premis:linkingAgentIdentifier>), plný popis agenta je potom v premis Agent●        záznamy premis Agent budú uložené v METS zázname určenom pre administratívne a technické metadáta (AMD_METS.xml) v jeho časti <amdSec>, podčasť <digiprovMD>

○        AMD_METS.xml je linkovaný z hlavného METS záznamu dokumentu●        pre každého agenta, t.j. jeden premis agent záznam, bude vytvorená jedna <digiprovMD> časť Navrhované pole záznamu premis Agent Obsah poľa "Popis":- Vysvetlenie a príklad- Odporúčané plnenia tam, kde je to možné- Výskyt elementu (ako je definované formátom premis - podľa XSD)

○        0-1 element je voliteľný, neopakovateľný○        0-n element je voliteľný, opakovateľný○        1-n element je povinný a opakovateľný○        element je povinný a neopakovateľný

 význam poľa "Povinnosť"- Pole "Povinnosť" uvádza, či je plnenie jednotlivých elementov povinné, odporúčané alebo voliteľné- Môže nadobúdať nasledujúce hodnoty

○        M - mandatory (povinné plnenie - element je súčasťou každého záznamu)○        MA - mandatory if available (povinne plniť, pokiaľ je to možné, ak možno a pod.)○        R - recommended (plnenie hodnôt elementu je odporúčané, nie je však povinné)○        RA - recommended if available (odporúča sa pokiaľ možno plniť)○        O - optional (plnenie hodnôt elementu je voliteľné podľa konkrétnych potrieb)

  

 

Element Popis Povinnosť

<agentIdentifier> popis identifikátora, ktorý jednoznačne označuje agenta v rámci jedného kontextu (napr. repozitár)

M

Page 61: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

1-n

  <agentIdentifierType> označenie typu identifikátora, napr. NK_AgentID, UUID a pod.1-1

M

  <agentIdentifierValue>

hodnota identifikátora, napr. agent_softwareName_5.2; agent_novakJ a pod.1-1

M

<agentName> textové upresnenie agenta, napr. presný názov SW, plné meno osoby a pod. - FixImage1.3; Ján Ďurech; CCS docWorks 6.x.1y;0-n

R

<agentType> všeobecné označenie agenta - pre osoby napr. osoba, pre SW napr. softvér a pod.hodnoty: organization; person; software0-1

M

<agentNote> použitie len ak je <agentType> Software a pôjde o agenta súvisiaceho s migráciou TIFF na JPEG2000 (creation / migration Event);bude obsahovať príkaz k výrobe JPEG2000 súboru v programe Kakadu0-n

MA

    Príklad: <premis:agent xmlns:premis="info:lc/xmlns/premis-v2">   <premis:agentIdentifier>      <premis:agentIdentifierType> EE_App_Name </ premis: agentIdentifierType>      <premis:agentIdentifierValue> agent_Sirius </ premis: agentIdentifierValue>   </ premis: agentIdentifier>   <premis:agentName> BATCHPROCESSOR </ premis: agentName>   <premis:agentType> softvér </ premis: agentType>   <premis:agentNote> C: \ Program Files \ Elsyst Engineering \ BatchProcessor \ Utilities \ image_to_j2k.exe-i "C: \ SiriusBatchProcessor \ skenserver_Treventus_DIKDA_ \ B300C__161289.tif"-o "C: \ TreventusBatchProcessor \ skenserver_Treventus_DIKDA_ \ B300C__161289.jp2" - c [256,256], [256,256], [128,128], [128,128], [128,128], [128,128]-p RPCL-n 6-t 4096,4096-b 64,64-SOP-EPH </ premis: agentNote></ premis: agent>  

Page 62: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

8.4.4 Technické metadáta MIX●        Bude využitý formát MIX, najaktuálnejšia verzia v čase implementácie projektu, alebo verzia predchádzajúca (pozri http://www.loc.gov/standards/mix// )●        MIX záznam vzniká iba pre obrazové súbory,

○        t.j. bude vznikať1. pre archívnu kópiu,2. pre pôvodný súbor vzniknutý prvotnom skenovaním (najčastejšie JPG/TIFF) a to aj napriek tomu, že tento JPEG/TIFF sa v priebehu výroby maže a nie je archivovaný

○        tieto dva MIX záznamy budú súčasťou jedného METS záznamu AMD_METS.xml (v časti <amdSec>, podčasť <techMD>) pre administratívne a technické metadáta, ktorý vznikne ku každému obrazovému súboru a ktorý je linkovaný z hlavného METS záznamu čísla periodika

●        MIX záznamy jednotlivých obrazových súborov sa budú líšiť - MIX záznam pôvodného skenu nebude obsahovať napr. element ImageProcessing, MIX záznam archívneho súboru MC nebude naproti tomu obsahovať informácie o procese skenovania, ktoré sa viažu k pôvodnému skenu a budú v elemente ImageCaptureMetadata a pod. - podrobnosti pozri tabuľka nižšie, stĺpec "použitie pre MC a PS"●        pre každý záznam MIX bude vytvorená vlastná časť <techMD>●        externé služby, ako napr. JHOVE a PRONOM, sa budú využívať na plnenie polí formátu MIX●        vo formáte MIX nebude uvedená informácia o kontrolných súčtoch (fixity), ktorá je obsiahnutá v premis Object a nie je nutné ju opakovať (pozri MIX profily Holandsko, Fínsko a Nórsko)●        <fileSize> je len odporúčaný údaj o veľkosti súboru a je súčasťou popisu premis Object Pole formátu MIX pre popis archívnej kópie a pôvodného skenu Obsah poľa "Popis":- Vysvetlenie a príklad- Odporúčané plnenia tam, kde je to možné- Výskyt elementu (ako je definované formátom MIX - podľa XSD)

○        0-1 element je voliteľný, neopakovateľný○        0-n element je voliteľný, opakovateľný

 Význam poľa "Povinnosť"- Pole "Povinnosť" uvádza, či je plnenie jednotlivých elementov povinné, odporúčané alebo voliteľné- Môže nadobúdať nasledujúce hodnoty

Page 63: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

○        M - mandatory (povinné vyplniť - element je súčasťou každého záznamu)○        MA - mandatory if available (povinné vyplniť, pokiaľ je to možné, ak možno a pod.)○        R - recommended (plnenie hodnôt elementu je odporúčané, nie je však povinné)○        RA - recommended if available (odporúča sa pokiaľ možno plniť)○        O - optional (plnenie hodnôt elementu je voliteľné podľa konkrétnych potrieb)

 Obsah poľa "Použitie pre"- Použitie jednotlivých elementov pre MC, PS (pôvodný sken) - určuje, ktorý element je a ktorý nie je súčasťou MIX záznamu MC, alebo MIX záznamu popisujúceho pôvodné obrazový dokument zo skenera 

Element Popis Povinnosť Použitie pre

<BasicDigitalObjectInformation>      

  <ObjectIdentifier> údaje o identifikátore obrazového dokumentu, ktorý je formátom MIX popísaný;0-n

R MC, PS

              <objectIdentifierType> napr. meno súboru, alebo iný identifikátor;0-1

M MC, PS

              <objectIdentifierValue> hodnota identifikátora, napr. 20110306_001.jp2 alebo urn: NBN: 123456;0-1

M MC, PS

  <fileSize> veľkosť súboru0-1

R MC + PS

  <FormatDesignation> údaje o formáte obrazového súboru0-1

M MC, PS

              <formatName> názov formátu, napr. možno použiť MIME types # (Image/jp2 a pod.)0-1

M MC, PS

              <formatVersion> verzia formátu, napr. 1.00-1

M MC, PS

  <byteOrder> endianita, možnosti sú little endian, middle (mix) endian a big endian0-1

M MC + PS

Page 64: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

  <Compression> údaje o kompresii obrazového súboru (ak je použitá)0-n

M MC, PS

              <compressionScheme> informácie o kompresnej schéme, vyjadrené číslom (napr. 34712 je kompresia JPEG2000) alebo slovami (napr. JP2 Lossless)0-1

M MC, PS

<BasicImageInformation> základné technické údaje o obrazovom dokumente0-1

M MC, PS

  <BasicImageCharacteristics> 0-1 M MC, PS

     <imageWidth> šírka obrazu v pixeloch, napr. 39870-1

M MC, PS

     <imageHeight> výška obrazu v pixeloch, napr. 23450-1

M MC, PS

     <PhotometricInterpretation> Fotometrická interpretácia0-1

M MC, PS

        <colorSpace> farebný priestor, napr. RGB0-1

M MC, PS

        <ColorProfile> údaje o farebnom profile0-1povinné pre dokumenty, kde je nutné uchovať presnú reprezentáciu farby pôvodného dokumentu a používajú sa ICC profily)

MA MC + PS

           <IccProfile> ICC profil0-1

M MC + PS

              <iccProfileName> meno profilu, napr. sRGB, Adobe RGB a.i.0-1

M MC + PS

                          <iccProfileVersion>

verzia profilu, napr. sRGB IEC61966-2.10-1

M MC + PS

                          <iccProfileURL> odkaz na profil, napr. www.dikda.sk/profily/sRGB_v4_ICC_pref.icc ;0-1

R MC + PS

<SpecialFormatCharacteristics> špeciálne technické údaje o obrazovom dokumente, použitie pre formát JPEG20000-1povinný pre JPEG2000

MA MC

Page 65: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

  <JPEG2000> 0-1 M MC

     <CodecCompliance> údaje o kodeku0-1

M MC

        <codec> názov kodeku, napr. Kakadu, LuraWave ai0-1

M MC

           <codecVersion> verzia kodeku, napr. 3.10-1

M MC

           <CodestreamProfile> popis Codestream profilu JPEG2000, napr. P0 a P1 (pozri ISO / IEC 15444-4);0-1

M MC

           <ComplianceClass> špecifikácia najvyššej výšky, šírky a počtu komponentov, ktoré dekodér dokáže dekódovať, možno použiť hodnoty C0, C1 a C2;0-1

M MC

     <EncodingOptions> obsahuje informácie o kódovaní JPEG20000-1

M MC

       <Tiles> popis pixelovej veľkosti dlaždíc formátu JPEG20000-1

M MC

           <TileWidth> šírka dlaždice, napr. 1280-1

M MC

           <TileHeight> výška dlaždice, napr. 1280-1

M MC

           <QualityLayers> číselná hodnota počtu vrstiev, do ktorých bol JPEG2000 rozdelený, napr. 12.0-1

M MC

           <ResolutionLevels> opis počtu nižších rozlíšení, ktoré je možné z obrazu získať, napr. 60-1

M MC

<ImageCaptureMetadata> popis procesu skenovania, je dôležité vyplniť, pretože tieto údaje nemožno zistiť z finálneho master súboru / archívneho súboru0-1

M PS

  <SourceInformation> informácie o predlohe0-1

R PS

     <sourceType> Book, Newspaper a.i.; nutné používať M PS

Page 66: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

kontrolovaný slovník0-1

      <SourceID> identifikátor predlohy0-n

R PS

          <sourceIDType> typ identifikátora, napr. čSNB, URN: NBN0-1

M PS

          <sourceIDValue> vlastná hodnota identifikátora0-1Povinné

M PS

  <GeneralCaptureInformation> základné údaje o skenovaní0-1

M PS

     <dateTimeCreated> údaj o dátume a čase skenovania, napr. 2009-01-03T08: 25:28; zapísať v ISO 8601 na úrovni sekúnd0-1

M PS

     <imageProducer> entita vykonávajúca skenovanie, napr. Slovak National Library, osoba a pod.0-1

M PS

     <captureDevice> typ skenovacieho zariadenia, napr. reflection print scanner; odporúčané využívanie hodnôt z kontrolovaného slovníka0-1

M PS

  <ScannerCapture> údaje o skeneri0-1

M PS

     <scannerManufacturer> výrobcu skenera, napr. 4DigitalBooks, Treventus, Zeutschel0-1

M PS

     <scannerModel> údaje o konkrétnom type skenera0-1

M PS

        <scannerModelName> meno modelového radu skenera, napr. DL0-1

M PS

        <scannerModelNumber> číslo / označenie modelu, napr. 30000-1

M PS

        <scannerModelSerialNo> výrobné číslo skenera, napr. E4R00036490-1

M PS

     <MaximumOpticalResolution> údaje o maximálnom optickom rozlíšení skenera M PS

Page 67: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

0-1

        <xOpticalResolution> optické rozlíšenie na osi x, napr. 3000-1

M PS

        <yOpticalResolution> optické rozlíšenie na osi y, napr. 3000-1

M PS

        <opticalResolutionUnit> jednotka optického rozlíšenie, napr. inch, cm (in.)0-1

M PS

    <scannerSensor> popis typu snímacieho senzora skenovacieho zariadenia, napr. matrix, linear, undefined a.i.0-1

M PS

     <ScanningSystemSoftware> údaje o softvéré skenovacieho zariadenia0-1

M PS

        <scanningSoftwareName> názov softvéru, napr. Copinet0-1

M PS

        <scanningSoftwareVersionNo>

číslo verzie softvéru, napr. 3.70-1

M PS

  <DigitalCameraCapture> údaje o snímacom zariadení (fotoaparát)0-1povinné, ak je používaný fotoaparát a nie je používaný skener

MA PS

     <digitalCameraManufacturer> výrobcu fotoaparátu, napr. Canon0-1

M PS

     <DigitalCameraModel> popis modelu fotoaparátu0-1

M PS

        <digitalCameraModelName> názov modelovej rady, napr. EOS0-1

M PS

       <digitalCameraModelNumber>

označenie modelu fotoaparátu, napr. 1000D0-1

M PS

        <DigitalCameraModelSerialNo>

výrobné číslo prístroja, napr. E123450-1

M PS

     <camerarSensor> typ senzora fotoaparátu, napr. matrix a.i.0-1

M PS

     <CameraCaptureSettings> údaje o nastavení fotoaparátu použitého na snímanie predlôh

M PS

Page 68: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

0-1

        <ImageData> v rámci tohto kontajnerového elementu budú použité nasledovné sub-elementy:fNumberexposuretimeisoSpeedRatingsshutterSpeedValueaperturevaluebrightnessValueexposureBiasValuemaxaperturevaluesubjectDistancemeteringmodelightsourceflashfocalLengthBacklightexposureIndexsensingmethodcfaPatternAutofocusPrintAspectRatiovšetky hodnoty budú prebrané v prípade použitia fotoaparátu z údajov Exif

M PS

  <orientation> popis orientácia obrazu tak, ako je uložený vzhľadom k jeho riadkom a stĺpcom, napr. normal *; normal, image flipper; normal, rotated 180 °; unknown a pod.0-1

M PS

<ImageAssessmentMetadata> informácie o digitálnom obraze pre jeho hodnotenie a využitie z hľadiska dlhodobej ochrany a pod.0-1

M MC, PS

  <SpatialMetrics> rozmery obrázku, 2 rozmerná projekcia objektov tak ako ju "vidí" snímacie zariadenia0-1

M MC, PS

     <samplingFrequencyPlane> popis základnej roviny, napr. object plane (pre priamo z predlohy digitalizované dokumenty), source object plane (pre digitalizáciu mikrofilmov), camera / scanner focal plane (indikácia sampl. frekvencie fyzického senzora);0-1

R MC + PS

Page 69: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

     <samplingFrequencyUnit> jednotka merania sampl. frekvencie, napr. hodnota 1 = žiadna pevná jednotka; 2 = inch, 3 = centimeter;0-1

M MC, PS

        <xSamplingFrequency> údaje o počte pixelov na jednotku samplovacej frekvencie pre šírku obrázku0-1povinné, ak hodnota samplingFrequencyUnit je 2 alebo 3

MA MC, PS

           <numerator> čitateľ, číselné vyjadrenie, napr. 3000-1

M MC, PS

           <denominator> menovateľ, číselné vyjadrenie napr. 10-1

M MC, PS

       <ySamplingFrequency> údaje o počte pixelov na jednotku samplovacej frekvencie pre výšku obrázku0-1povinné, ak hodnota samplingFrequencyUnit je 2 alebo 3

MA MC, PS

           <numerator> čitateľ, číselné vyjadrenie, napr. 3000-1

M MC, PS

           <denominator> menovateľ, číselné vyjadrenie napr. 10-1

M MC, PS

  <ImageColorEncoding> doplňujúce údaje o farbe obrazu0-1

M MC, PS

     <bitsPerSample> počet bitov na kanál0-1

M MC, PS

        <bitsPerSampleValue> hodnota počtu bitov, napr. 8, 1, 4 alebo 8,8,8 a pod.0-nPOZOR - pre každú hodnotu je nutné element opakovať, t.j. napr. 3x element <bitsPerSampleValue> s hodnotou 8<mix:BitsPerSample>  <mix:bitsPerSampleValue> 8 </ mix: bitsPerSampleValue>  <mix:bitsPerSampleValue> 8 </ mix: bitsPerSampleValue>  <mix:bitsPerSampleValue> 8 </ mix: bitsPerSampleValue></ Mix: BitsPerSample>

M MC, PS

Page 70: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

        <bitsPerSampleUnit> špecifikácia jednotky, napr. integer alebo floating point0-1

R MC, PS

     <samplesPerPixel> počet farebných komponentov na pixel, napr. 1, 3, 40-1

M MC, PS

  <TargetData> informácie o kalibračných tabuľkách0-1povinné pre obrazy, kde sa robí kontrola oproti kalibračnej tabuľke

MA MC

     <targetType> typ kalibračnej tabuľky; 0 = external (kalibračná tabuľka sa neobjaví na dig. obraze, je to oddelený dig. súbor); 1 = internal (tabuľka je naskenovaná spolu s prílohoua objaví sa na dig. obraze);0-n

M MC

     <targetID> údaje o pôvode kalibračnej tabuľky0-n

M MC

        <targetManufacturer> výrobca / pôvodca kalibračnej tabuľky, napr. Eastman Kodak alebo SNK , Digitalizačné centrum a pod.0-1

M MC

        <targetName> názov kalibračnej tabuľky, napr. ColorChecker, MicrofilmScanTarget a.i.0-1

M MC

        <targetNo> číslo alebo verzia kalibračnej tabuľky0-1

M MC

        <targetMedia> údaj o tom, na akom médiu je kalibračná tabuľka, napr. film, paper a.i.0-1

R MC

     <externalTarget> údaje o externej kalibračnej tabuľke; napr. link na http://www.snk.sk/skenovanie /target-00000001 alebo názov a cesta ku konkrétnemu súboru0-npovinné v prípade, že bola použitá externá kalibračná tabuľka (targetType = 0)

MA MC

     <performaceData> odkaz na súbor obsahujúci charakteristiku výkonu systému vzhľadom k nastaveným

R MC

Page 71: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

hodnotám rozlíšenie atď.;možné hodnoty plnenia - link URN alebo URL, alebo názov súboru0-n

<ChangeHistory> dokumentácie procesov uskutočnených na obrazovom súbore v jeho životnom cykle0-1

M MC

  <ImageProcessing> údaje o spracovaní obrazového súboru0-n

M MC

     <dateTimeProcessed> Údaj o čase spracovania napr. 2009-01-04T15: 12:06; zapísať v ISO 8601 na úrovni sekúnd0-1

M MC

     <sourceData> odkaz na pôvodné zdrojové dáta, z ktorých bol vytvorený finálny obrazový súbor; môže to byť napr. URL alebo cesta do zložky s pôvodným skenom vrátane názvu súboru;0-1

M MC

     <processingAgency> Slovak National Library0-n

R MC

  Príklad: 

<mix:mix xmlns:mix="http://www.loc.gov/mix/v20">   <mix:BasicDigitalObjectInformation>      <mix:FormatDesignation>         <mix:formatName> image / tif </ mix: formatName>         <mix:formatVersion> 42 </ mix: formatVersion>      </ Mix: FormatDesignation>      <mix:byteOrder> little endian </ mix: byteOrder>      <mix:Compression>         <mix:compressionScheme> LZW </ mix: compressionScheme>      </ Mix: Compression>      </ Mix: BasicDigitalObjectInformation>         <mix:BasicImageInformation>            <mix:BasicImageCharacteristics>               <mix:imageWidth> 2504 </ mix: imagewidth>               <mix:imageHeight> 3301 </ mix: imageHeight>               <mix:PhotometricInterpretation>                  <mix:colorSpace> BGR </ mix: colorspace>               </ Mix: PhotometricInterpretation>            </ Mix: BasicImageCharacteristics>         </ Mix: BasicImageInformation>

Page 72: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

                  <mix:ImageCaptureMetadata>            <mix:SourceInformation>               <mix:sourceType> Newspaper </ mix: sourceType>            </ Mix: SourceInformation>            <mix:GeneralCaptureInformation>               <mix:dateTimeCreated> 2011-11-24T08: 36:21 </ mix: dateTimeCreated>               <mix:imageProducer> Elsyst Engineering </ mix: imageProducer>               <mix:captureDevice> reflection print scanner </ mix: captureDevice>            </ Mix: GeneralCaptureInformation>            <mix:ScannerCapture>               <mix:scannerManufacturer> Contex </ mix: scannerManufacturer>               <mix:ScannerModel>                  <mix:scannerModelName> HD </ mix: scannerModelName>                  <mix:scannerModelNumber> 4250 </ mix: scannerModelNumber>                            <mix:scannerModelSerialNo> KE67E07001D </ mix: scannerModelSerialNo>               </ Mix: ScannerModel>               <mix:MaximumOpticalResolution>                  <mix:xOpticalResolution> 300 </ mix: xOpticalResolution>                  <mix:yOpticalResolution> 300 </ mix: yOpticalResolution>                  <mix:opticalResolutionUnit> in. </ mix: opticalResolutionUnit>               </ Mix: MaximumOpticalResolution>               <mix:ScanningSystemSoftware>                  <mix:scanningSoftwareName> NextImage </ mix: scanningSoftwareName>                  <mix:scanningSoftwareVersionNo> 1.6.9 </ mix: scanningSoftwareVersionNo>               </ Mix: ScanningSystemSoftware>            </ Mix: ScannerCapture>            <mix:orientation> normal * </ mix: orientation>                   </ Mix: ImageCaptureMetadata>         <mix:ImageAssessmentMetadata>            <mix:SpatialMetrics>                         <mix:samplingFrequencyUnit> in. </ mix: samplingFrequencyUnit>               <mix:xSamplingFrequency>                  <mix:numerator> 300 </ mix: numerator>                  <mix:denominator> 1 </ mix: denominator>               </ Mix: xSamplingFrequency>               <mix:ySamplingFrequency>                  <mix:numerator> 300 </ mix: numerator>

Page 73: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

                  <mix:denominator> 1 </ mix: denominator>                         </ Mix: ySamplingFrequency>            </ Mix: SpatialMetrics>            <mix:ImageColorEncoding>               <mix:BitsPerSample>                  <mix:bitsPerSampleValue> 8 </ mix: bitsPerSampleValue>                  <mix:bitsPerSampleValue> 8 </ mix: bitsPerSampleValue>                  <mix:bitsPerSampleValue> 8 </ mix: bitsPerSampleValue>               </ Mix: BitsPerSample>               <mix:samplesPerPixel> 3 </ mix: samplesperpixel>            </ Mix: ImageColorEncoding>                </ Mix: ImageAssessmentMetadata>   </ Mix: mix>

  

8.5 METS časť <fileSec>

8.5.1 <fileSec> hlavného záznamu METS 

file group●        pre obrazy aj texty (ALTO XML / OCR.TXT) budú v hlavnom METS záznamu použité elementy <fileGrp>●        jeden element <fileGrp> bude existovať pre obrazy archívnych kópií, ďalší pre user kópie, ďalší pre ALTO XML, ďalší pre OCR.TXT súbory a ďalší pre METS záznamy s technickými metadátami (AMD_METS.xml)

 1          <fileGrp> pre obrazy archívnych kópií, bude mať tieto atribúty: ID = "MC_IMGGRP" USE = "Images"

○        každý súbor bude mať vlastný element <file> s nasledujúcimi atribútmi:■        ID - identifikátor súboru JP2 ako je používaný v METS záznamu■        Mimetype - hodnota image/jp2■        SIZE - veľkosť súboru JP2■        CHECKSUMTYPE - hodnota MD5■        CHECKSUM - hodnota kontrolného súčtu■        SEQ - poradie súboru■        CREATED - dátum vytvorenia, ISO8601 na úrovni sekúnd

○        subelementem pod <file> je element <Flocat>, ktorý obsahuje link (ideálne v podobe nejakého identifikátora) na obrazový súbor (xlink: href) a atribút LOCTYPE

 2. <fileGrp> pre obrazy používateľských kópií, bude mať tieto atribúty: ID = "UC_IMGGRP" USE = "Images"

Page 74: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

○        každý súbor bude mať vlastný element <file> s nasledujúcimi atribútmi:■        ID - identifikátor súboru JP2 ako je používaný v METS záznamu■        Mimetype - hodnota image/jp2■        SIZE - veľkosť súboru JP2■        CHECKSUMTYPE - hodnota MD5■        CHECKSUM - hodnota kontrolného súčtu■        SEQ - poradie súboru■        CREATED - dátum vytvorenia, ISO8601 na úrovni sekundy

○        subelementem pod <file> je element <Flocat>, ktorý obsahuje link (ideálne v podobe nejakého identifikátora) na obrazový súbor (xlink: href) a atribút LOCTYPE

 3. <fileGrp> pre ALTO XML bude mať nasledovné atribúty: ID = "ALTOGRP" USE = "Layout"

○        každý ALTO XML súbor bude mať vlastný element <file> s nasledujúcimi atribútmi:

■        ID - identifikátor súboru ALTO XML ako je používaný v METS záznamu■        Mimetype - text / xml■        SIZE - veľkosť súboru xml■        CHECKSUMTYPE - hodnota MD5■        CHECKSUM - hodnota kontrolného súčtu■        CREATED - dátum vytvorenia, ISO8601 na úrovni sekúnd

○        subelementem pod <file> je element <Flocat>, ktorý obsahuje link (ideálne v podobe nejakého identifikátora) na xml súbor obsahujúci ALTO (xlink: href) a atribút LOCTYPE

 4. <fileGrp> pre súbory METS s technickými metadátami AMD_METS.xml bude mať nasledovné atribúty: ID = "TECHMDGRP" USE = "Technical Metadata"

○        každý METS xml súbor bude mať vlastný element <file> s nasledujúcimi atribútmi:

■        ID - identifikátor súboru AMD_METS.xml ako je používaný v METS zázname■        Mimetype - text / xml■        SIZE - veľkosť súboru xml■        CHECKSUMTYPE - hodnota MD5■        CHECKSUM - hodnota kontrolného súčtu■        SEQ - poradie súboru■        CREATED - dátum vytvorenia, ISO8601 na úrovni sekúnd

○        subelementem pod <file> je element <Flocat>, ktorý obsahuje link (ideálne v podobe nejakého identifikátora) na xml súbor AMD_METS.xml (xlink: href) a atribút LOCTYPE

Page 75: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

 5. <fileGrp> pre súbory OCR.TXT bude mať nasledovné atribúty: ID = "TXTGRP" USE = "Text"

○        každý OCR.TXT súbor bude mať vlastný element <file> s nasledujúcimi atribútmi:

■        ID - identifikátor súboru OCR.TXT ako je používaný v METS zázname■        Mimetype - text / plain■        SIZE - veľkosť súboru■        CHECKSUMTYPE - hodnota MD5■        CHECKSUM - hodnota kontrolného súčtu■        CREATED - dátum vytvorenia, ISO8601 na úrovni sekúnd

○        subelementem pod <file> je element <Flocat>, ktorý obsahuje link (ideálne v podobe nejakého identifikátora) na txt súbor (xlink: href) a atribút LOCTYPE

 Príklad nižšie - spoločný s nasledujúce kapitolou.  

8.5.2 <fileSec> vedľajšieho záznamu METS (AMD_METS.xml) 

●        <fileSec> vo vedľajšom METS zázname AMD_METS.xml bude obsahovať jeden element <fileGrp> s vnorenými elementami <file> pre každú reprezentáciu strany, t.j. MC, ALTO XML a OCR.TXT●        atribúty jednotlivých <file> elementov zodpovedajú atribútom pre jednotlivé typy dokumentov uvedených vyššie pre <fileSec> hlavného METS záznamu

 Príklad:<mets:fileSec>   <mets:fileGrp ID="MC_IMGGRP" USE="Images">      <Mets: file ID = "MC_anl001-000003_0001" mimetype = "image/jp2" SIZE = "9801586"       CHECKSUMTYPE = "MD5" CHECKSUM = "e5fba17c73bf736e5da06de847f2b9af" SEQ = "0"       CREATED = "2012-01-26T09: 32:40">         <Mets: FLocat xlink: href = "./masterCopy/MC_anl001-000003_0001.jp2"          LOCTYPE = "URL" />      </ Mets: file>   </ Mets: fileGrp>   <mets:fileGrp ID="UC_IMGGRP" USE="Images">      <Mets: file ID = "UC_anl001-000003_0001" mimetype = "image/jp2" SIZE = "5014649"       CHECKSUMTYPE = "MD5" CHECKSUM = "fe8e0172fb031cdc79a9f6002cb64f55" SEQ = "0"

Page 76: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

       CREATED = "2012-01-26T11: 35:03">        <Mets: FLocat xlink: href = "./userCopy/UC_anl001-000003_0001.jp2"         LOCTYPE = "URL" />      </ Mets: file>   </ Mets: fileGrp>   <mets:fileGrp ID="ALTOGRP" USE="Layout">      <Mets: file ID = "ALTO_anl001-000003_0001" mimetype = "text / xml" SIZE = "26328"       CHECKSUMTYPE = "MD5" CHECKSUM = "19e5a62e5283c274a2809a3c00ec13c4" SEQ = "0"       CREATED = "2012-01-26T09: 32:42">                   <Mets: FLocat xlink: href = "./ ALTO/ALTO_anl001-000003_0001.xml "LOCTYPE =" URL "/>      </ Mets: file>   </ Mets: fileGrp>   <mets:fileGrp ID="TXTGRP" USE="Text">      <Mets: file ID = "TXT_anl001-000003_0001" mimetype = "text / plain" SIZE = "360" CHECKSUMTYPE = "MD5" CHECKSUM = "02ab00b4bf830fd8e6980d828998ec2a" SEQ = "0" CREATED = "2012-01-26T09: 32:42 ">         <mets:FLocat xlink:href="./txt/TXT_anl001-000003_0001.txt" LOCTYPE="URL" />      </ Mets: file>   </ Mets: fileGrp>   <mets:fileGrp ID="TECHMDGRP" USE="Technical Metadata">      <Mets: file ID = "AMD_METS_anl001-000003_0001" mimetype = "text / xml" SIZE = "50460"                 CHECKSUMTYPE = "MD5" CHECKSUM = "d6b86ff8547c3ef63cf7c33dcebf86bf" SEQ = "0"                 CREATED = "2012-01-26T14: 07:04">                   <Mets: FLocat xlink: href = "./amdSec/AMD_METS_anl001-000003_0001.xml"                    LOCTYPE = "URL" />      </ Mets: file>   </ Mets: fileGrp></ Mets: fileSec>  

8.6 METS časť <structMap> - Štrukturálne metadáta

8.6.1 <structMap> hlavného záznamu METS 

●        štrukturálne mapy v METS zázname - dvojakého typu - fyzické a logické

Page 77: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

○        fyzická mapa zaznamenáva hierarchické informácie o dokumente, vrátane väzieb na fyzické súbory, z ktorých sa skladajú jednotlivé úrovne dokumentu○        logická mapa zaznamenáva logickú štruktúru dokumentu, prepája fyzické strany a ich opis z dmdSec

●        štrukturálna mapa logická aj fyzická vrátane linkov na ALTO XML bude v hlavnom METS záznamu hlavny_METS.xml●        pre každú stranu zoskupuje METS logická štrukturálna mapa odkazy na textové bloky (alebo ilustrácie), ktoré sú súčasťou tejto strany. Informácie o blokoch textu, alebo ilustráciách na strane sú uložené v 1 ALTO XML súbore, ktorý strane zodpovedá. Každý blok a každá ilustrácia má unikátny identifikátor, ktorý je použitý ako odkaz v METS štrukturálnej mape. 

 

8.6.1.1 Vyjadrenie fyzickej štrukturálnej mapy●        bude mať nasledujúce atribúty <structMap LABEL="Physical_Structure" TYPE="PHYSICAL">●        fyzická štrukturálna mapa obsahuje rodičovský <div>, ktorý obsahuje tieto atribúty:

○        LABEL-obsahuje názov titulu periodika vrátane čísla a roku vydania○        TYPE - napr. newspaper○        ID - identifikátor div○        DMDID - identifikátor časti popisných metadát na úrovni čísla

●        jednotlivé strany sú vnorené do rodičovského elementu <div> ako dcérske <div> elementy

○        <div> pre súbory strany bude mať tieto atribúty:■        TYPE - bude sa plniť typom strany (pozri typy strán v pravidlách popisu periodík [4] )■        ID - identifikátor div■        ORDERLABEL - poradové číslo strany, ako je na nej vytlačené■        ORDER - poradie strany v čísle periodika

○        <div> pre súbory strany vždy obsahujú link <fptr> na súbor obrazu archívnej kópie, na súbor obrazu používateľskej kópie, na ALTO XML, na OCR.TXT a na AMD_METS.xml

■        link na obrazový súbor archívnej kópie má v elemente <fptr> nasledovné atribúty: FILEID, ktorý obsahuje ID súboru archívne kópie■        link na obrazový súbor používateľskej kópie má v elemente <fptr> nasledovné atribúty: FILEID, ktorý obsahuje ID súboru používateľskej kópie■        link na ALTO XML má v elemente <fptr> nasledovné atribúty: FILEID, ktorý obsahuje ID ALTO XML súboru

Page 78: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

■        link na OCR.TXT súbor má v elemente <fptr> nasledovné atribúty: FILEID, ktorý obsahuje ID súboru OCR.TXT■        link na AMD_METS.xml súbor má v elemente <fptr> nasledovné atribúty: FILEID, ktorý obsahuje ID súboru AMD_METS.xml

Príklad:  <mets:structMap LABEL="Physical_Structure" TYPE="PHYSICAL">   <Mets: div LABEL = "Pravda no.6 1951" TYPE = "newspaper" ID = "DIV_P_0000"    DMDID = "MODSMD_ISSUE_0001">                <Mets: div ID = "DIV_P_PAGE_0000" ORDER = "0" ORDERLABEL = "[437a]"                 TYPE = "titlePage">                   <mets:fptr FILEID="MC_anl001-000003_0001"/>         <mets:fptr FILEID="UC_anl001-000003_0001"/>         <mets:fptr FILEID="ALTO_anl001-000003_0001"/>         <mets:fptr FILEID="TXT_anl001-000003_0001"/>         <mets:fptr FILEID="AMD_METS_anl001-000003_0001"/>      </ Mets: div>                 ... ďalšie strany ...   </ Mets: div></ Mets: structMap> 

8.6.1.2 Vyjadrenie logickej štrukturálnej mapy

8.6.1.2.1 Vyjadrenie logickej štruktúry pre články s väzbou na ALTO bloky●        bude mať nasledujúce atribúty <structMap LABEL="Logical_Structure "TYPE="LOGICAL">●        logická štruktúra na úrovni článkov, alebo napr. ilustrácií sa opisuje pomocou do seba zanorených elementov <div>●        ak strana obsahuje len obraz a žiadny text, potom je popísaná jedným elementom <div> s atribútom TYPE = "PAGE" a link do súboru ALTO XML vedie priamo na element <ComposedBlock>

○        <div TYPE="PAGE"> možno využiť ako kontajner na obrazy a ďalšie časti strany, ktoré nie sú zahrnuté v článku○        pre obraz je možné využiť atribúty a typy podriadených elementov <div> ako je špecifikované v tabuľke nižšie pre PICTURE, ktorý je súčasťou článku

●        strany obsahujúce viac logických oblastí sú popísané jedným <div> elementom, ktorý má vnorené <div> elementy pre každú logickú oblasť, ktorá zodpovedá napr. článku, ilustrácii.

a.)          ak sa jedná o jednoduchý, celistvý článok na jednej strane, tak je popísaný len jedným <div> elementom s atribútom TYPE = "article"

Page 79: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

○        v tomto <div> sú ďalej ako ďalšie <div> elementy vnorené jednotlivé textové bloky (odseky, nadpisy, obrazy a pod)

■        pri každom bloku je odkaz do ALTO XML súboru na príslušný textový blok <TextBlock> - pomocou tohto odkazu sa v ALTO XML súbore nájde ako text, tak aj informácie o jeho umiestnení na strane (súradnice), toto je realizované pomocou štruktúry <area> v elemente <fptr>■        pri bloku tvoreného obrazom je odkaz do ALTO XML na príslušný komponovaný blok <ComposedBlock>; je realizovaný pomocou štruktúry <area> v elemente <fptr>■        v prípade použitia atribútu ORDER umožňuje tento princíp pri článkoch vyjadriť aj tzv. poradie čítania jeho častí, ako sú napr. nadpis, autor, obrázok a pod.

b.) ak článok nie je celistvý a je rozdelený na viac častí, ktoré sa vyskytujú na jednej alebo viacerých stranách, je potrebné určiť poradie čítania týchto častí, opäť pomocou atribútu ORDER

○        pre každú časť článku existuje vlastný <div> element, podriadený hlavnému <div> elementu článku○        element <div> každej časti má atribút TYPE hodnotu "article-part" a atribút ID musí vyjadrovať o akú z častí sa jedná, t.j. napr. ID = "article5-1" zodpovedá prvej časti článku číslo päť

●        do logickej štruktúry PSP balíčka môže byť v prípade jej existencie zakomponovaná aj príloha (Supplement), ktorá má vlastné <div> element s atribútom TYPE = "Supplement"

○        vnorené <div> elementy pre obraz a články aj ich použitie je zhodné so spôsobom popisu logickej štruktúry u elementu <div> s atribútom TYPE = "ISSUE"

●        zoznam strán k jednotlivým článkom a obrázkom (popisujú sa iba tie, ktoré nie sú zahrnuté v článku) je obsiahnutý v elemente <structLink> - popísanom v kapitole 8.7 

Príklad: <mets:structMap LABEL="Logical_Structure" TYPE="LOGICAL">   <Mets: div LABEL = "Medzinárodné vzťahy no. 1 1987 "DMDID =" MODSMD_TITLE_0001 "    TYPE = "PERIODICAL_TITLE" ID = "TITLE_0001">      <Mets: div DMDID = "MODSMD_VOLUME_0001" TYPE = "PERIODICAL_VOLUME"                ID = "VOLUME_0001">              <Mets: div LABEL = "Medzinárodné vzťahy no.1 1987 "TYPE =" ISSUE "ID =" ISSUE_01 "          DMDID = "MODSMD_ISSUE_0001">                      <Mets: div ID = "ART_0001" TYPE = "ARTICLE" ORDER = "0" LABEL = "LÚČE SMRTI                       prezidenta Beneša "DMDID =" MODSMD_ART_0001 ">

Page 80: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

                         <mets:div ID="ART_0001_0001" TYPE="TITLE" ORDER="0">                            <mets:fptr>                               <Mets: area FILEID = "ALTO_anl001-000001" BETYPE = "IDREF"                                BEGIN = "TextBlock1" />                            </ Mets: fptr>                         </ Mets: div>                         <mets:div ID="ART_0001_0002" TYPE="NORMAL_TEXT" ORDER="1">                            <mets:fptr>                               <Mets: area FILEID = "ALTO_anl001-000007_0005" BETYPE = "IDREF"                                BEGIN = "TextBlock4" />                            </ Mets: fptr>                         </ Mets: div>                         <Mets: div LABEL = "Lúč" ID = "ART_0001_0003" TYPE = "PICTURE"                          ORDER = "2" DMDID = "MODSMD_PIC_0001">                            <mets:div TYPE="IMAGE" ID="ART_0001_0008">                               <mets:fptr>                                  <Mets: area FILEID = "ALTO_anl001-000007_0006" BETYPE = "IDREF"                                   BEGIN = "GraphicalElement0" />                               </ Mets: fptr>                            </ Mets: div>                            <mets:div TYPE="CAPTION" ID="ART_0001_0035">                               <mets:fptr>                                  <Mets: area FILEID = "ALTO_anl001-000007_0007" BETYPE = "IDREF"                                   BEGIN = "TextBlock20" />                               </ Mets: fptr>                            </ Mets: div>                         </ Mets: div>                      </ Mets: div>                   </ Mets: div>      </ Mets: div>   </ Mets: div></ Mets: structMap>  

Význam poľa "Povinnosť"●        pole "Povinnosť" uvádza, či je plnenie jednotlivých elementov povinné, odporúčané alebo voliteľné●        môže nadobúdať nasledujúce hodnoty

○        M - mandatory (povinne vyplniť - element je súčasťou každého záznamu)

Page 81: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

○        MA - mandatory if available (povinné vyplniť pokiaľ je to možné, ak táto možno existuje a pod.)○        R - recommended (plnenie hodnôt elementu je odporúčané, nie je povinné)○        RA - recommended if available (odporúča pokiaľ možno plniť)○        O - optional (plnenie hodnôt elementu je voliteľné podľa konkrétnych potrieb)

 

<div> type Atribúty Popis Povinnosť

TITLE     

  <div> obsahuje údaje o titule periodika

M

  LABEL LABEL - názov titulu periodika, vrátane čísla a dátumu vydania čísla, napr. Kamarát no. 5 29.06.1979

 

  TYPE TYPE - hodnota "PERIODICAL_TITLE"

 

  ID ID - identifikátor <div>, napr. hodnota "TITLE_1"

 

  DMDID DMDID - obsahuje identifikátor DMD opisnej časti MODS titulu

 

VOLUME    

  <div> obsahuje údaje o ročníku M

  TYPE TYPE - hodnota "PERIODICAL_VOLUME"

 

  ID ID - identifikátor <div>, napr. hodnota "VOLUME_1"

 

  DMDID DMDID - obsahuje identifikátor DMD opisnej časti MODS ročníka

 

ISSUEaleboSupplement

  <div> obsahuje údaje o čísle / prílohe čísla periodika

M

  LABEL LABEL - názov titulu periodika, v rovnakej podobe ako u titulu, teda napr. "Kamarát no. 5 29.06.1979 "

 

Page 82: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

  TYPE TYPE-hodnota ISSUE alebo Supplement

 

  ID ID - identifikátor <div>, napr. hodnota "ISSUE_1" alebo "SUPPL_1"

 

  DMDID DMDID - obsahuje identifikátor DMD opisnej časti MODS čísla / prílohy

 

ARTICLE 

  <div> obsahujúci údaje o jednom článku a jeho častiach

M

  LABEL LABEL - názov článku  

  TYPE TYPE - hodnota ARTICLE s poradovým číslom, napr. ARTICLE_1

 

  ID ID - identifikátor <div> elementu  

  DMDID DMDID - identifikátor popisných metadát

 

  ORDER ORDER - poradie článku  

  <div> <div> TYPE = "ARTICLE" môže obsahovať ďalšie vnorené <div> rôznych typov popisujúce rôzne časti článku, rozlišujeme tieto časti (typy):

 

    - TITLE  

    - SUBTITLE  

    - AUTHOR  

    - TRANSLATOR  

    - NORMAL_TEXT - bežný text bez ďalšieho spresnenia 

 

    - PICTURE  

    - NOTE  

    - ARTICLE_PART - pri článkoch, ktoré sú rozdelené na viac miest na jednej strane alebo viacerých stranách- Tento <div> pre jednu súčasť rozdeleného článku potom môže obsahovať rovnaké časti ako <div>

 

Page 83: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

pre článok, t.j. (TITLE, SUBTITLE, AUTHOR, TRANSLATOR, NORMAL_TEXT, PICTURE)

<div> type pre ARTICLE:

     

TITLE   <div> obsahujúce odkaz/link na textový blok s nadpisom

MA

  TYPE TYPE - hodnota "TITLE"  

  ID ID - identifikátor <div> elementu, ktorý opisuje jednu časť článku (nadpis), napr. hodnota "ARTICLE_PART_1"

 

  ORDER ORDER - poradie časti článku  

   <fptr>      <area>

FILEID FILEID - ID ALTO XML súboru, napr. "ALTO_PAGE_1"

 

  BEGIN BEGIN - ID textového bloku v ALTO XML súboru

 

  BETYPE BETYPE - hodnota IDREF  

SUBTITLE TYPEIDORDER

<div> obsahujúce odkaz/link na textový blok s podnadpisom-------------------------------------TYPE - hodnota "SUBTITLE"ID - identifikátor <div> elementu, ktorý opisuje jednu časť článku (podnadpis), napr. hodnota "ARTICLE_PART_2"ORDER - poradie časti článku

MA

   <fptr>      <area>

FILEID FILEID - ID ALTO XML súboru, napr. "ALTO_PAGE_1"

 

  BEGIN BEGIN - ID textového bloku v ALTO XML súbore

 

  BETYPE BETYPE - hodnota IDREF  

AUTHOR TYPEIDORDER

<div> obsahujúce link na textový blok s menom autora-------------------------------------TYPE - hodnota "AUTHOR"ID - identifikátor <div> elementu, ktorý opisuje jednu časť článku (autor), napr. hodnota "ARTICLE_PART_3"ORDER - poradie časti článku

MA

Page 84: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

   <fptr>      <area>

FILEID FILEID - ID ALTO XML súboru, napr. "ALTO_PAGE_1"

 

  BEGIN BEGIN - ID textového bloku v ALTO XML súbore

 

  BETYPE BETYPE - hodnota IDREF  

TRANSLATOR TYPEIDORDER 

<div> obsahujúce link na textový blok s menom prekladateľa-------------------------------------TYPE - hodnota "TRANSLATOR"ID - identifikátor <div> elementu, ktorý opisuje jednu časť článku (prekladateľ), napr. hodnota "ARTICLE_PART_3"ORDER - poradie časti článku

MA

   <fptr>      <area>

FILEID FILEID - ID ALTO XML súboru, napr. "ALTO_PAGE_1"

 

  BEGIN BEGIN - ID textového bloku v ALTO XML súbore

 

  BETYPE BETYPE - hodnota IDREF  

NORMAL_TEXT TYPEIDORDER

<div> obsahujúce link na textový blok s bežným textom-------------------------------------TYPE - hodnota "NORMAL_TEXT"ID - identifikátor <div> elementu, ktorý opisuje jednu časť článku (bežný text), napr. hodnota "ARTICLE_PART_4"ORDER - poradie časti článku

M

   <fptr>      <area>

FILEID FILEID - ID ALTO XML súboru, napr. "ALTO_PAGE_1"

 

  BEGIN BEGIN - ID textového bloku v ALTO XML súbore

 

  BETYPE BETYPE - hodnota IDREF  

NOTE TYPEIDORDER

<div> obsahujúce link na textový blok s napr. poznámkou pod čiarou-------------------------------------TYPE - hodnota "NOTE"ID - identifikátor <div> elementu, ktorý opisuje jednu časť článku (poznámku pod čiarou), napr. hodnota "ARTICLE_PART_5"ORDER - poradie časti článku

 

ARTICLE_PART TYPE <div> obsahujúce ďalšie vnorené  

Page 85: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

IDORDER

<div> odkazujúce na jednotlivé časti konkrétnej časti rozdeleného článku;povinné pre delený článokPozn: pod <div> TYPE = "ARTICLE_PART" možno vnoriť všetky typy <div> ako pod <div> TYPE = "ARTICLE"-------------------------------------TYPE - hodnota "ARTICLE_PART"ID - identifikátor <div> konkrétnej časti, pre prvú časť deleného článku napr. "ARTICLE_2-1", t.j. prvú časť článku 2ORDER - poradie konkrétnej časti deleného článku

PICTURE-          

LABELTYPEIDDMDIDORDER

<div> pre obraz patriaci k článkuplní sa ak sa obraz vyskytuje na inej strane-------------------------------------LABEL - názov obrazu ak existujeTYPE - PICTUREID - identifikátor <div> elementu, ktorý opisuje jednu časť článku (bežný text), napr. hodnota "ARTICLE_PART_6"DMDID - link na bibliogra. opis obrazuORDER - poradie obrazu

MA

  <div> <div> element s typom PICTURE môže obsahovať ďalšie <div> elementy s typmi CAPTION, PICT_AUTHOR, PICT_TITLE a IMAGE;

 

    - CAPTION obsahuje text prípadného popisku

 

    - PICT_AUTHOR obsahuje text s menom prípadného autora obrazu

 

    - PICT_TITLE obsahuje text názvu obrazu, ak nejaký názov existuje

 

    - IMAGE - obsahuje link do súboru ALTO XML na blok popisujúci vlastný obraz

 

<div> type pre PICTURE

     

CAPTION TYPEID

<div> obsahujúce link na textový blok s popisom obrazu

MA

Page 86: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

-------------------------------------TYPE - hodnota CAPTIONID - identifikátor <div> elementu, napr. "ARTICLE_PART_7"

   <fptr>      <area>

FILEID FILEID - ID ALTO XML súboru, napr. "ALTO_PAGE_1"

 

  BEGIN BEGIN - ID komponovaného bloku v ALTO XML súbore

 

  BETYPE BETYPE - hodnota IDREF  

   PICT_AUTHOR

TYPEID 

<div> obsahujúce link na textový blok s autorom obrazu-------------------------------------TYPE - hodnota PIT_AUTHORID - identifikátor <div> elementu, napr. "ARTICLE_PART_7"

MA

   <fptr>      <area>

FILEID FILEID - ID ALTO XML súboru, napr. "ALTO_PAGE_1"

 

  BEGIN BEGIN - ID komponovaného bloku v ALTO XML súbore

 

  BETYPE BETYPE - hodnota IDREF  

   PICT_TITLE TYPEID 

<div> obsahujúce link na textový blok s názvom obrazu-------------------------------------TYPE - hodnota PICT_TITLEID - identifikátor <div> elementu, napr. "ARTICLE_PART_7"

MA

   <fptr>      <area>

FILEID FILEID - ID ALTO XML súbore, napr. "ALTO_PAGE_1"

 

  BEGIN BEGIN - ID komponovaného bloku v ALTO XML súbore

 

  BETYPE BETYPE - hodnota IDREF  

   IMAGE TYPEID 

<div> obsahujúce link na komponovaný blok ALTO XML obsahujúci súradnice vlastného obrazu-------------------------------------TYPE - hodnota IMAGEID - identifikátor <div> elementu, napr. "ARTICLE_PART_8"

MA

   <fptr>      <area>

FILEID FILEID - ID ALTO XML súboru, napr. "ALTO_PAGE_1"

 

Page 87: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

  BEGIN BEGIN - ID komponovaného bloku v ALTO XML súbore

 

  BETYPE BETYPE - hodnota IDREF  

NOTE ID <div> obsahujúce link na textový blok s poznámkami k článku--------------------------------------ID - identifikátor <div> elementu, napr. "ARTICLE_PART_9"

 

ARTICLE_PART TYPEIDORDER

<div> obsahujúce ďalšie vnorené <div> odkazujúce na jednotlivé časti konkrétnej časti rozdeleného článku;povinné pre delený článokPozn: pod <div> TYPE = "ARTICLE_PART" možno vnoriť všetky typy <div> ako pod <div> TYPE = "ARTICLE"-------------------------------------TYPE - hodnota "ARTICLE_PART"ID - identifikátor <div> konkrétnej časti, pre prvú časť deleného článku napr. "ARTICLE_2-1", t.j. prvú časť článku 2ORDER - poradie konkrétnej časti deleného článku

MA

  

8.6.1.2.2 Vyjadrenie logickej štruktúry pre články bez väzby na ALTO bloky (iba s väzbami na strany)●        bude mať nasledujúce atribúty <structMap LABEL="Logical_Structure "TYPE="LOGICAL">●        logická štruktúra na úrovni článkov, alebo napr. ilustrácií sa opisuje pomocou do seba vnorených elementov <div>, ale ďalej už neobsahuje elementy <fptr> a <area>●        existuje teda len zoznam popísaných článkov a obrázkov ako v prípade predchádzajúcej kapitoly, ale bez väzieb na ALTO bloky●        zoznam strán k jednotlivým článkom je obsiahnutý v elemente <structLink> - popísané v kapitole 8.7

 Príklad:<mets:structMap LABEL="Logical_Structure" TYPE="LOGICAL">   <Mets: div LABEL = "Medzinárodné vzťahy no.1 1966 -" TYPE = "PERIODICAL_TITLE"                             ID = "TITLE_1" DMDID = "MODSMD_TITLE_0001"><Mets: div LABEL = "medzinárodných i vzťahy no.1 "DMDID =" MODSMD_VOLUME_0001 "

Page 88: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

                TYPE = "PERIODICAL_VOLUME" ID = "VOLUME_1">                   <Mets: div LABEL = "Medzinárodné vzťahy no.1 1966 -" TYPE = "ISSUE" ID = "ISSUE_1"          DMDID = "MODSMD_ISSUE_0001">            <Mets: div ID = "ART_0001" TYPE = "ARTICLE" ORDER = "0" LABEL = "LÚČE SMRTI                prezidenta Beneša "DMDID =" MODSMD_ART_0001 "/>                      <Mets: div ID = "ART_0002" TYPE = "ARTICLE" ORDER = "1" LABEL = "prekliaty"             DMDID = "MODSMD_ART_0002" />         </ Mets: div>         <Mets: div LABEL = "Príloha 1" TYPE = "Supplement" ID = "SUPPLEMENT_1"          DMDID = "MODSMD_SUPPL_0001">            <mets:div TYPE="PAGE">                         <Mets: div ID = "PICT_0001" TYPE = "PICTURE" ORDER = "1" LABEL = "LES"                          DMDID = "MODSMD_PICT_0001" />            </ Mets: div>         </ Mets: div>      </ Mets: div>   </ Mets: div></ Mets: structMap>

8.6.1.2.3 Vyjadrenie logickej štruktúry bez článkov●        bude mať nasledujúce atribúty <structMap LABEL="Logical_Structure "TYPE="LOGICAL">●        logická štruktúra na úrovni čísla a prípadných príloh periodika sa vyjadruje pomocou vnorených elementov <div>●        zoznam strán k číslu a prílohe je obsiahnutý v elemente <structLink> - popísané v kapitole 8.7

 Príklad:<mets:structMap LABEL="Logical_Structure" TYPE="LOGICAL">   <Mets: div LABEL = "Medzinárodné vzťahy no.1 1966 -" TYPE = "PERIODICAL_TITLE"    ID = "TITLE_1" DMDID = "MODSMD_TITLE_0001">                <Mets: div LABEL = "Medzinárodné vzťahy no.1 "DMDID =" MODSMD_VOLUME_0001 "                TYPE = "PERIODICAL_VOLUME" ID = "VOLUME_1">         <Mets: div LABEL = "Medzinárodné vzťahy no.1 1966 -" TYPE = "ISSUE" ID = "ISSUE_1"          DMDID = "MODSMD_ISSUE_0001" />                   <Mets: div LABEL = "Príloha 1" TYPE = "Supplement" ID = "SUPPL_1"          DMDID = "MODSMD_SUPPL_0001" />      </ Mets: div>   </ Mets: div>

Page 89: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

</ Mets: structMap>

8.6.2 <structMap> vedľajšieho záznamu METS (AMD_METS.xml)●        bude obsahovať len fyzickú štrukturálnu mapu (TYPE = "Physical")●     tá bude obsahovať iba jeden <div> element s atribútom TYPE = "PERIODICAL_PAGE"●        do <div> budú vnorené odkazy na jednotlivé reprezentácie strany periodika (MC, ALTO XML a OCR.TXT) pomocou elementu <fptr> s atribútom FILEID

 Príklad:<mets:structMap TYPE="PHYSICAL">   <mets:div TYPE="PERIODICAL_PAGE">                <mets:fptr FILEID="MC_anl001-000003_0001"/>                <mets:fptr FILEID="UC_anl001-000003_0001"/>                <mets:fptr FILEID="ALTO_anl001-000003_0001"/>                <mets:fptr FILEID="TXT_anl001-000003_0001"/>   </ Mets: div></ Mets: structMap> 

 

8.7 METS časť <structLink> - Výpočet strán●        element <structLink> obsahuje zoznam strán jednotlivých úrovní periodika na základe pridania väzieb medzi logickú a fyzickú štrukturálnu mapu●        element <structLink> obsahuje subelement <smLink>, ktorý obsahuje atribúty "xlink: from" a "xlink: to"

○        "Xlink: from" obsahuje ID divu z logickej štrukturálnej mapy○        o "xlink: to" obsahuje ID divu strany z fyzickej štrukturálnej mapy

 

8.7.1 Výpočet strán v prípade popisu článkov (s odkazmi na bloky ALTO i bez nich)●        vzťahuje sa ku kapitolám 8.6.1.2.1 a 8.6.1.2.2●        element <structLink> obsahuje:

zoznam strán jednotlivých článkov a prípadných samostatných obrázkov (obrázky, ktoré sú zahrnuté v článku sa nepopisujú zvlášť) (ID divu z logickej štrukturálnej mapy pre úroveň článkov a obrázkov) zoznam strán celého výtlačku a prípadné prílohy (ID divu z logickej štrukturálnej mapy pre úroveň čísla periodika a prílohy)

 Príklad (číslo obsahujúce prílohu, ktorá má popísané dva články a jeden samostatný obrázok (nie je súčasťou článku) - ukážka vrátane logickej štrukturálnej mapy): 

Page 90: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

<mets:structMap LABEL="Logical_Structure" TYPE="LOGICAL">   <Mets: div LABEL = "Medzinárodné vzťahy no.1 1966 -" TYPE = "PERIODICAL_TITLE"                             ID = "TITLE_1" DMDID = "MODSMD_TITLE_0001">                <Mets: div LABEL = "Medzinárodné vzťahy no.1 "DMDID =" M ODSMD_VOLUME_0001 "                TYPE = "PERIODICAL_VOLUME" ID = "VOLUME_1">                   <Mets: div LABEL = "Medzinárodné vzťahy no.1 1966 -" TYPE = "ISSUE" ID = "ISSUE_1"                    DMDID = "MODSMD_ISSUE_0001">                      <Mets: div ID = "ART_0001" TYPE = "ARTICLE" ORDER = "0" LABEL = "LÚČE SMRTI                                     prezidenta Beneša "DMDID =" MODSMD_ART_0001 "/>                               <Mets: div ID = "ART_0002" TYPE = "ARTICLE" ORDER = "1" LABEL = "prekliaty"                       DMDID = "MODSMD_ART_0002" />                   </ Mets: div>                   <Mets: div LABEL = "Príloha 1" TYPE = "Supplement" ID = "SUPPLEMENT_1"                    DMDID = "MODSMD_SUPPL_0001">                      <mets:div TYPE="PAGE">                         <Mets: div ID = "PICT_0001" TYPE = "PICTURE" ORDER = "2" LABEL = "LES"                          DMDID = "MODSMD_PICT_0001" />                      </ Mets: div>                   </ Mets: div>                </ Mets: div>   </ Mets: div></ Mets: structMap><mets:structLink>   <mets:smLink xlink:from="ART_0001" xlink:to="DIV_P_PAGE_0000"/>   <mets:smLink xlink:from="ART_0001" xlink:to="DIV_P_PAGE_0001"/>   <mets:smLink xlink:from="ART_0002" xlink:to="DIV_P_PAGE_0002"/>   <mets:smLink xlink:from="ART_0002" xlink:to="DIV_P_PAGE_0003"/>   <mets:smLink xlink:from="PICT_0001" xlink:to="DIV_P_PAGE_0004"/>   <mets:smLink xlink:from="PICT_0001" xlink:to="DIV_P_PAGE_0005"/>   <mets:smLink xlink:from="ISSUE_1" xlink:to="DIV_P_PAGE_0000"/>   <mets:smLink xlink:from="ISSUE_1" xlink:to="DIV_P_PAGE_0001"/>   <mets:smLink xlink:from="ISSUE_1" xlink:to="DIV_P_PAGE_0002"/>   <mets:smLink xlink:from="ISSUE_1" xlink:to="DIV_P_PAGE_0003"/>   <mets:smLink xlink:from="SUPPLEMENT_1" xlink:to="DIV_P_PAGE_0004"/>   <mets:smLink xlink:from="SUPPLEMENT_1" xlink:to="DIV_P_PAGE_0005"/></ Mets: structLink> 

8.7.2 Výpočet strán bez popisu článkov●        vzťahuje sa ku kapitole 8.6.1.2.3

Page 91: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

●        element <structLink> obsahuje:zoznam strán celého výtlačku a prípadné prílohy (ID divu z logickej štrukturálnej mapy pre úroveň čísla periodika a prílohy)

 Príklad (číslo obsahujúce prílohu - ukážka vrátane logickej štrukturálnej mapy): <mets:structMap LABEL="Logical_Structure" TYPE="LOGICAL">   <Mets: div LABEL = "Medzinárodné vzťahy no.1 1966 -" TYPE = "PERIODICAL_TITLE"                ID = "TITLE_1" DMDID = "MODSMD_TITLE_0001"><Mets: div LABEL = "Medzinárodné odné vzťahy no.1 "DMDID =" MODSMD_VOLUME_0001 "                TYPE = "PERIODICAL_VOLUME" ID = "VOLUME_1">                   <Mets: div LABEL = "Medzinárodné vzťahy no.1 1966 -" TYPE = "ISSUE" ID = "ISSUE_1"                    DMDID = "MODSMD_ISSUE_1" />                   <Mets: div LABEL = "Príloha 1" TYPE = "Supplement" ID = "SUPPLEMENT_1"                    DMDID = "MODSMD_SUPPL_0001" />                </ Mets: div>   </ Mets: div></ Mets: structMap><mets:structLink><mets:smLink xlink:from="ISSUE_1" xlink:to="DIV_P_PAGE_0000"/>   <mets:smLink xlink:from="ISSUE_1" xlink:to="DIV_P_PAGE_0001"/>   <mets:smLink xlink:from="ISSUE_1" xlink:to="DIV_P_PAGE_0002"/>   <mets:smLink xlink:from="ISSUE_1" xlink:to="DIV_P_PAGE_0003"/>   <mets:smLink xlink:from="ISSUE_1" xlink:to="DIV_P_PAGE_0004"/>   <mets:smLink xlink:from="SUPPLEMENT_1" xlink:to="DIV_P_PAGE_0005"/></ Mets: structLink> 

8.8 OCR (ALTO XML a TXT OCR) 

●        bude použitá posledná verzia formátu ALTO XML aktuálna v čase implementácie, alebo verzia predchádzajúca (pozri http://www.loc.gov/standards/alto/ )

●        nižšie uvedená špecifikácia neobsahuje všetky elementy a atribúty formátu ALTO XML, obsahuje len tie, ktoré sú pre túto konkrétnu špecifikáciu relevantné - každý uvedený element má vyjadrenú mieru relevancie výrazmi: povinné, odporúčané a nepovinné

●        elementy a atribúty, ktoré v tejto špecifikácii nie sú uvedené, nepovažujeme pre účely špecifikácie za dôležité

●        ALTO XML aj OCR TXT vzniknú pre všetky obrazové súbory patriace k jednej intelektuálnej entite (zväzku monografie) vrátane prázdnych strán, predsádok a pod.

Page 92: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

●        ALTO XML aj OCR TXT budú vznikať na úrovni strany●        ALTO XML súbor pre úplne prázdne strany bude obsahovať element /

alto / Layout / Page / PrintSpace, ten však nebude obsahovať podelementy / alto / Layout / Page / PrintSpace / TextBlock; / alto / Layout / Page / PrintSpace / TextBlock / Illustration; / alto / Layout / Page / PrintSpace / TextBlock / GraphicalElement ani / alto / Layout / Page / PrintSpace / TextBlock / ComposedBlock

●        štruktúra ALTO XML bude generovaná na úrovni rozpoznania slov generovaná pomocou OCR

●        kvalita rozpoznania znakov bude akceptovaná do úrovne určitej hranice, výstupy nebudú ručne opravované

●        štruktúra ALTO umožní vyhľadávanie textu a jeho zvýraznenie na úrovni slov, ak bude použitý zodpovedajúci prehliadač

●        obrazy reprezentujúce stranu, ktoré budú použité ako UC, musia zodpovedať rozmermi, orientáciou a natočením obrazu, ktorý bol použitý pre vytvorenie OCR

●        OCR TXT bude vznikať z hotových ALTO XML počas procesu digitalizácie

●        ALTO XML sa bude vytvárať iba pre novodobé dokumenty, alebo dokumenty s určitou hranicou kvality OCR

●        meno OCR súboru musí zodpovedať menu obrazového súboru, ku ktorému patrí; napr. pr_0007.jp2 a al_0007.xml alebo napr. 123456_006_alto.xml a 123456_006_archiv.jp2

●        kódovanie ALTO XML aj TXT OCR musí byť v UTF-8●        súradnice pozícií (HPOS, VPOS, WIDTH, HEIGHT) musia byť vyjadrené

v pixeloch 

●        v tejto špecifikácii ALTO XML sa počíta s OCR aj pre text mimo tzv. textového "zrkadla", t.j. mimo hlavného textu, ako sú napr. čísla strán, súbežné nadpisy a iné časti vyskytujúce sa na okrajoch strany (top, left, top a bottom margin)

○        elementy topMargin, leftMargin, rightMargin, bottomMargin budú obsahovať elementy <TextBlock>, pre ktoré platia rovnaké pravidlá, ako pre element <textBlock> pre hlavný text strany○        Pozor: údaje z OCR mimo hlavný text strany by nemali byť vyhľadávateľné v aplikácii pre sprístupnenie, dochádzalo by k zmäteniu používateľa a výsledkov (napr. pri hľadaní titulu kapitoly by boli zobrazené výsledky pre každú stranu, ktorá obsahuje súbežný nadpis a pod.)

 ●        ak je na konci vety deliace znamienko, ALTO XML aj OCR TXT musí

obsahovať oba fragmenty slov s rozdeľovníkom a súčasne tiež kompletné slovo - je vysvetlené ďalej v tabuľke

Page 93: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

●        ilustrácie, reklamy a iné grafické časti strany nebudú vyjadrené v ťahoch / alto / Layout / Page / PrintSpace / Illustration ani Layout / Page / PrintSpace / GraphicalElement, tieto nie sú v popise / tabuľke nižšie vôbec uvedené

●        ilustrácie, reklamy a iné grafické časti strany budú vyjadrené v tagu / alto / Layout / Page / PrintSpace / ComposedBlock / s vyjadrením atribútu TYPE, ktorý bude označovať typ bloku (illustration, advertisement ai)

○        napr. ilustrácie budú popísané v elemente / alto / Layout / Page / PrintSpace / ComposedBlock / GraphicalElement, kde ComposedBlock TYPE je Illustration○        reklama s textom v rámčeku bude popísaná v elemente Layout / Page / PrintSpace / ComposedBlock / TextBlock, kde ComposedBlock TYPE je Advertisement○        tabuľky, grafy budú popísané obdobne

●        elementy / alto / Layout / Page / PrintSpace / ComposedBlock / Illustration a Layout / Page / PrintSpace / ComposedBlock / ComposedBlock nebudú tiež využité

●        / Alto / Layout / Page / PrintSpace / ComposedBlock / TextBlock a / alto / Layout / Page / PrintSpace / ComposedBlock / GraphicalElement nebudú obsahovať elementy <Shape>; tvar týchto blokov je vyjadrený v elemente <Shape> samotného elementu <ComposedBlock>; logicky potom súradnice tvaru <TextBlock> alebo <GraphicalElement> obsiahnutého v / alto / Layout / Page / PrintSpace / ComposedBlock sú väčšinou zhodné, ak nie je tvarov alebo blokov v rámci / alto / Layout / Page / PrintSpace / ComposedBlock viac

●        všetky vyplnené hodnoty sú príklady plnenia, plnenie v konkrétnej inštitúcii je nutné špecifikovať vlastnými pravidlami a kontrolovanými slovníkmi

●        ALTO XML bude využívané pre tzv. poradia čítania, t.j. napríklad článok vyskytujúci sa na viacerých stranách, alebo na viacerých rôznych miestach jednej strany bude možné zobraziť celý a v správnom poradí. K tomu je nutné poznať jeho štruktúru. Štruktúra bude vyjadrená v korešpondujúcom METS zázname v logickej štrukturálnej mape. Tá bude obsahovať odkazy na jednotlivé textové bloky článku, pomocou ID textových blokov použitých v ALTO XML.

Obsah poľa "Popis": 

●        vysvetlenie a príklad●        odporúčané plnenia tam, kde je to možné●        výskyt elementu (ako je definované formátom ALTO XML - podľa XSD)

○        0-1 element je voliteľný, neopakovateľný○        0-n element je voliteľný, opakovateľný

Význam poľa "Povinnosť" 

Page 94: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

●        pole "Povinnosť" uvádza, či je plnenie jednotlivých elementov povinné, odporúčané alebo voliteľné

●        môže nadobúdať nasledujúcich hodnôt○        M - mandatory (povinné vyplniť - element je súčasťou každého záznamu)○        MA - mandatory if available (povinne vyplniť pokiaľ je to možné, ak možno a pod.)○        R - recommended (vyplnenie hodnôt elementu je odporúčané, nie je však povinné)○        RA - recommended if available (odporúča pokiaľ možno plniť)○        O - optional (plnenie hodnôt elementu je voliteľné podľa konkrétnych potrieb)

●        POZOR - u elementov, ktoré obsahujú atribúty, sú atribúty rozpísané pod čiarou (vysvetlenie, povinnosť uvádzania a pod.)

 

Element Atribút Popis Povinnosť

<Description>      

  <MeasurementUnit>   meracia jednotka pre súradnice v ALTO XML;možné hodnoty - dpi, pixel, inch1200 a MM10);inch1200 = 1/1200 inch;doporučené plnenie je "MM10" alebo "pixel";0-1

M

<sourceImageInformation>   informácie o obrazovom súbore, z ktorého vzniklo ALTO XML;0-1

M

     <fileName>   meno obrazového súboru, z ktorého bolo ALTO XML vytvárané; ideálne je is filesystem cestou jeho uloženiav súborovom systéme;napr. nlaImageSeq-33386-b.tif / / produkcia/OCR/digibok_XY/XY_011.tiff0-1

M

              <fileIdentifier>   jedinečný identifikátor obrazového súboru;0-n

R

  <OCRProcessing> ID popis procesu vzniku OCR;0-n---------------------------------------------ID OCR procesu, napr. <OCRProcessing ID="OCRPROCES_1">;Povinné

M

Page 95: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

     <preProcessingStep>   procesy pred vznikom OCR, ktoré vykonáva SW pre OCR (napr. natočenie obrazu)0-n

M

                  <processingDateTime>

  určenie času procesu, ktorý predchádzal samotnému OCR;napr. 2008-03-29T19: 42:23 podľa ISO 8601 na úrovni sekúnd;0-1

O

                  <processingAgency>

  meno alebo kód inštitúcie, napr. SNK, názov externej firmy a pod.;odporúčame použiť kontrolovaný slovník hodnôt;0-1

R

        <processingStepDescription>

  popis procesu (napr. zarovnanie, orez a pod).;0-n

O

        <processingStepSettings>

  nastavenie kroku popísaného v <processingStepDescription>, napr. CCS OCR Processing Filter0-1

O

        <processingSoftware>   popis softvéru, ktorý upravoval obrázok pred vznikom OCR;0-1

M

                     <softwareCreator>

  výrobca softvéru - napr. CCS Content Conversion Specialists GmbH, Germany;0-1

M

                     <softwareName>

  meno softvéru - napr. CCS docWORKS;0-1

M

                     <softwareVersion>

  verzia SW, napr. 6.2-1.16;0-1

M

     <ocrProcessingStep>   popis procesu vzniku OCR1-1 - povinné polia

M

                  <processingDateTime>

  okamih kedy bolo OCR vytvorené;nutné zapísať v ISO 8601 na úrovni sekúnd;0-1

M

                  <processingAgency>

  meno alebo kód inštitúcie, napr. SNK odporúčame použiť kontrolovaný slovník hodnôt;0-1

M

Page 96: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

        <processingSoftware>   popis SW, ktorý robil vlastné OCR;0-1

M

                     <softwareCreator>

  výrobca softvéru - napr. ABBYY, Russia;0-1

M

                     <softwareName>

  meno softvéru - napr. FineReader;0-1

M

                     <softwareVersion>

  Verzia softvéru napr. 8.0;0-1

M

<Styles>   štýly definujú vlastnosti jednotlivých grafických prvkov strany.štýl definovaný v elemente vrchnej úrovne je použitý ako predvolený pre podriadené elementy;0-1

M

  <TextStyle> IDFONTSTYLEFONTFAMILYFONTSIZE

definuje font textu;0-n-----------------------------------------ID pre každý text style použitý v OCR súbore - povinnéFONTSTYLE - napr. bold, italics a pod.; odporúčame používať kontrolovaný slovník;odporúčanéFONTFAMILY - napr. arial, Calibri a pod.; odporúčame používať kontrolovaný slovník;povinnéFONTSIZE - veľkosť fontu, napríklad 10, 12 a pod.;Povinné

M

  <ParagraphStyle> IDALIGN

definuje formátovanie textových blokov;0-n---------------------------------------------ID pre každý odsek + zarovnanie;napr. PAR_01, PAR_02 a pod.povinnéALIGN - zarovnanie; povolené hodnoty: Left, Right, Center, Block a.i.;Povinné

M

<Layout>   layout - rozloženie štruktúr (slov, odsekov a pod.) na jednej strane dokumentu;1-1 povinný výskytelement nie je udržiavací

M

Page 97: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

  <Page> IDAccuracyPOSITIONQUALITYPHYSICAL_IMG_NRHEIGHTWIDTHPC

element popisujúci jednu stranu dokumentu;1-n---------------------------------------------ID - vygenerovaný identifikátor strany, napr. PAGE1, alebo P1 a pod.;povinnéAccuracy - percentuálny odhad presnosti OCR (0-100);odporúčanéPOSITION - pozícia strany; hodnoty na plnenie: Left, Right, Foldout, Single, Cover;nepovinnéQUALITY - krátky údaj o kvalite predlohy strany; hodnoty na plnenie: OK, Missing, Missing in original, Damaged, Retained, Target, As in original;nepovinnéPHYSICAL_IMG_NR - fyzické (poradové) číslo strany v dokumente; vyjadrené číslom, napr. 1,2,3 a pod.;povinnéWIDTH - šírka strany vyjadrená v pixeloch;povinnéHEIGHT - výška strany vyjadrená v pixeloch;povinnéPC = Confidence level OCR súboru - hodnota medzi 0 (neistá kvalita) a 1 (dobrá kvalita);nepovinné; ak nevyplníte Accuracy - tak je vyplnenie odporúčané

M

     <TopMargin> IDHPOSVPOSWIDTHHEIGHT

horný okraj - priestor medzi vrchnou hranou listu a vrchnou linkou textu;0-1---------------------------------------------ID: unikátne ID pre element TopMargin, napr. P1_TM0001 (page 1, topMargin0001);povinnéHPOS: horizontálna pozícia;povinnéVPOS: vertikálna pozícia;povinnéWIDTH - šírka vrchného okraja;povinnéHEIGHT - výška vrchného okraja;Povinné

M

        <TextBlock> rovnaké plnenie a pravidlá   MA

Page 98: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

ako pre element <TextBlock> vnorený do elementu <PrintSpace>

     <LeftMargin> IDHPOSVPOSWIDTHHEIGHT

ľavý okraj - priestor medzi ľavým okrajom strany a textom;0-1---------------------------------------------ID: unikátne ID pre element LeftMargin, napr. P1_LM0001 (page 1, leftMargin0001);povinnéHPOS: horizontálna pozícia;povinnéVPOS: vertikálna pozícia;povinnéWIDTH - šírka ľavého okraja;povinnéHEIGHT - výška ľavého okraja;Povinné

M

        <TextBlock> rovnaké plnenie a pravidlá ako pre element <TextBlock> vnorený do elementu <PrintSpace>

  MA

     <RightMargin> IDHPOSVPOSWIDTHHEIGHT

pravý okraj - priestor medzi pravým okrajom strany a textom;0-1---------------------------------------------ID: unikátne ID pre element RightMargin, napr. P1_RM0001 (page 1, rightMargin0001);povinnéHPOS: horizontálna pozícia;povinnéVPOS: vertikálna pozícia;povinnéWIDTH - šírka pravého okraja;povinnéHEIGHT - výška pravého okraja;Povinné

M

        <TextBlock> rovnaké plnenie a pravidlá ako pre element <TextBlock> vnorený do elementu <PrintSpace>

  MA

              <BottomMargin> ID pravý okraj - priestor medzi spodným M

Page 99: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

HPOSVPOSWIDTHHEIGHT

okrajom strany a textom;0-1---------------------------------------------ID: unikátne ID pre element BottomMargin, napr. P1_BM0001 (page 1, bottomMargin0001);povinnéHPOS: horizontálna pozícia;povinnéVPOS: vertikálna pozícia;povinnéWIDTH - šírka spodného okraja;povinnéHEIGHT - výška spodného okraja;Povinné

        <TextBlock> rovnaké plnenie a pravidlá ako pre element <TextBlock> vnorený do elementu <PrintSpace>

  MA

     <PrintSpace> IDHPOSVPOSWIDTHHEIGHT

popis tvaru pokrývajúceho textové pole strany;0-1---------------------------------------------ID: unikátne ID pre element <printSpace>, napr. P1_PS0001 (page 1, printSpace0001); - povinnéHPOS: horizontálna pozícia;povinnéVPOS: vertikálna pozícia;povinnéWIDTH - šírka textového poľa;povinnéHEIGHT - výška textového poľa;Povinné

M

        <TextBlock> IDSTYLEREFSHPOSVPOSWIDTHHEIGHT

popisy textových blokov na konkrétnej strane;0-nak je strana prázdna, TextBlock nie je potrebné uvádzať;ak je na strane text tak áno--------------------------------------------ID obsahuje identifikátor textového bloku na strane, napr. "BLOCK1" alebo P1_TB0002 (strana 1, textový blok 2);povinné

MA

Page 100: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

STYLEREFS: referencie na ID definície formátovanie textových blokov <ParagraphStyle>;povinnéHPOS: horizontálna pozícia bloku;povinnéVPOS: vertikálna pozícia bloku;povinnéWIDTH - šírka textového bloku;povinnéHEIGHT - výška textového bloku;Povinné

                     <Shape>   tvar textového bloku;0-1 - pre jeden výskyt <TextBlock> jeden alebo žiadny výskyt <Shape>;plniť v prípade, že je tvar textového bloku neštandardný (viacuholníky)

RA

                        <Polygon> POINTS opis (súradnice) tvaru viacuholníka;0-1---------------------------------------------POINTS - vyjadrenie jednotlivých bodov viacuholníka;Povinné

M

                     <TextLine> IDSTYLEREFSHPOSVPOSWIDTHHEIGHT

popis jedného riadku textu v rámci textového bloku;1-nnutný aspoň jeden výskyt v rámci textového bloku---------------------------------------------ID obsahuje identifikátor riadku textu v textovom bloku, napr. "P1_TL0002 (strana 1, riadok 2);povinnéSTYLEREFS: referencie na ID definície formátovania textových blokov <ParagraphStyle>;nepovinnéHPOS: horizontálna pozícia riadku;povinnéVPOS: vertikálna pozícia riadku;povinnéWIDTH - šírka riadku;povinnéHEIGHT - výška riadku;Povinné

M

Page 101: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

                        <String> IDCONTENTHEIGHTWIDTHHPOSVPOSCCWCV prípade delenia slov tiež:SUBS_TYPESUBS-CONTENT

reťazec znakov - vlastný obsah OCR;znaky tvoria jednotlivé slová a viac tagov <String> vety <TextLine>;1-n v rámci <TextLine>---------------------------------------------ID obsahuje unikátne sekvenčné číslo reťazca na strane, napr. "P3_ST0001" (strana 3, reťazec 1);povinnéCONTENT - ukladá vlastný reťazec znakov (slovo);povinnéHPOS: horizontálne pozície reťazca;povinnéVPOS: vertikálna pozícia reťazca;povinnéWIDTH - šírka reťazca;povinnéHEIGHT - výška reťazca;povinnéCC - úroveň dôvery v presnosť OCR rozpoznanie každého znaku v reťazci;ide o zoznam čísel, každé z nich medzi hodnotami 0 (istá) a 9 (neistá) pre každý znak;napr. CC = "0001" pre CONTENT = "TEXT";povinnéWC - úroveň dôvery v presnosť OCR výstupu celého reťazca - slová (word confidence);hodnota medzi 0 (neistá) a 1 (istá);napr. WC = "0,99";povinnéSUBS_CONTENT - obsah chýbajúcej časti reťazca v prípade, že je slovo na konci riadku rozdelené aj do druhého riadku;obsahuje celý reťazec - aby bol vyhľadateľný aj v prípade, že slovo sa na strane vyskytuje, ale je rozdelené;povinnéSUBS_TYPE - označenie typu substitúcia;možné hodnoty: HypPart1; HypPart2; abbreviation;povinné - pri výskyte SUBS_CONTENTHypPart1 sa vyskytuje pri rozdelení slova u jeho prvej OCR časti (u prvej časti tagu <CONTENT> vo vete (stringu) prvý;HypPart2 sa vyskytuje u nasledujúceho tagu <CONTENT> v nasledujúcej vete (stringu),

M

Page 102: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

ktorý obsahuje druhú časť rozdeleného slova / reťazca;Abbreviation - typ substitúcie používaný pri rozčlenení skratiek v texte na ich plný text;pri delení slov v texte HypPart1 a HypPart2 povinné, abbreviation nepovinné

                              <ALTERNATIVE>

  alternatívna hodnota OCR reťazca pre jednotlivé slová;0-nmožno použiť v prípade neistoty rozpoznanie reťazca;

O

                        <HYP> CONTENTWIDTHHPOSVPOS

zápis znaku rozdeľovníka slov0-1 pre jeden výskyt <TextLine>; vždy pre posledný <String>;môže sa vyskytnúť iba na konci riadku (1x)---------------------------------------------CONTENT - obsahuje reťazec znakov, ktoré sú v texte použité na rozdelenie slova, najčastejšie"-";povinnéWIDTH - šírka deliaceho znaku;odporúčanéHPOS: horizontálna pozícia deliaceho znaku;odporúčanéVPOS: vertikálna pozícia deliaceho znaku;Odporúčané

MA

                        <SP> IDWIDTHHPOSVPOS

prázdny priestor medzi riadkami;0-n v rámci jedného <TextLine>;vždy medzi riadkami, t.j. medzi tagmi <String>;---------------------------------------------ID: unikátne ID pre prázdny priestor medzi riadkami, napr. P1_SP0001 (strana 1, prázdny priestor 0001);povinnéHPOS: horizontálna pozícia;povinnéVPOS: vertikálna pozícia;povinnéWIDTH - šírka prázdneho priestoru;Povinné

M

                  <ComposedBlock>

IDTYPE

blok pozostávajúci z iných blokov;môže obsahovať

MA

Page 103: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

HPOSVPOSWIDTHHEIGHTSTYLEREFS

PrintSpace / ComposedBlock / TextBlock, PrintSpace / ComposedBlock / Illustration, PrintSpace / ComposedBlock / GraphicalElement, / PrintSpace / ComposedBlock / ComposedBlock, t.j. rovnaké elementy (bloky), ktoré obsahuje samotný element / alto / Layout / Page / PrintSpace;0-npovinné pre vyjadrenie blokov textu (napr. orámovaný text, reklamy), pre vyjadrenie ilustrácií, tabuliek a grafik---------------------------------------------ID: unikátny ID komponovaný blok, napr. P6_CB0001 (strana 6, komponovaný blok 0001);povinnéTYPE - označenie typu komponovaného bloku; nutné používať kontrolovaný slovník (illustration, Advertisement, a pod.);povinnéHPOS: horizontálna pozícia bloku;povinnéVPOS: vertikálna pozícia bloku;povinnéWIDTH - šírka komponovaného bloku;povinnéHEIGHT - výška komponovaného bloku;Povinné

                     <Shape>   tvar komponovaného bloku;0-1 - pre jeden výskyt / alto / Layout / Page / PrintSpace / ComposedBlock jeden alebo žiadny výskyt / alto / Layout / Page / PrintSpace / ComposedBlock / Shape;doporučené - v prípade, že je tvar komponovaného bloku neštandardný (viacuholníky)

RA

              <Polygon> POINTS opis tvaru viacuholníkov;0-1---------------------------------------------POINTS - vyjadrenie jednotlivých bodov viacuholníkovPovinné

M

                     <TextBlock> IDSTYLEREFS

v prípade, že komponovaný blok (napr. orámovaný tvar) obsahuje text;

MA

Page 104: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

HPOSVPOSWIDTHHEIGHT

platia rovnaké pravidlá ako pre normálny element / alto / Layout / Page / PrintSpace / TextBlock;0-n (pre jeden výskyt <ComposedBlock> 0 alebo viac elementov / alto / Layout / Page / PrintSpace / ComposedBlock / TextBlock>;plniť ak je v komponovanom bloku text---------------------------------------------ID obsahuje identifikátor textového bloku v komponovanom bloku, napr. P1_CB0002_SUB (strana 1, textový blok 2, SUB značí komponovaný blok);povinnéSTYLEREFS: referencie na ID definície formátovania textových blokov / alto / Styles / ParagraphStyle;povinnéHPOS: horizontálna pozícia bloku;povinnéVPOS: vertikálna pozícia bloku;povinnéWIDTH - šírka textového bloku;povinnéHEIGHT - výška textového bloku;Povinné

                           <TextLine> / Alto / Layout / Page / PrintSpace / ComposedBlock / TextBlock / TextLine a ostatné elementy v rámci / alto / Layout / Page / PrintSpace / ComposedBlock / TextBlock majú rovnaké pravidlá a výskyty ako vo vrchnom elemente / alto / Layout / Page / PrintSpace / TextBlock

   

                     <GraphicalElement>

IDHPOSVPOSWIDTHHEIGHT

opis grafického tvaru;v prípade využitia v rámci / alto / Layout / Page / PrintSpace / ComposedBlock označuje rozmery tvaru v rámci ktorého je tabuľka, ilustrácie, reklama a pod.;0-1 - pre jeden výskyt / alto / Layout / Page / PrintSpace / ComposedBlock 0 alebo max 1 výskyt <GraphicalElement>;

MA

Page 105: Definícia metadátových formátov pre digitalizáciu periodíkdikda.eu/wp-content/uploads/2013/04/SNK-Definícia-meta…  · Web viewDefinícia metadátových formátov pre digitalizáciu

plní sa pokiaľ je na strane a teda v komponovanom bloku ilustrácie, tabuľka a pod.;---------------------------------------------ID - identifikátor grafického tvaru;povinnéHEIGHT - výška grafického tvaru;povinnéWIDTH - šírka grafického tvaru;povinnéHPOS - horizontálna pozícia grafického tvaru;povinnéVPOS - vertikálna pozícia grafického tvaru;Povinné

   

11.

[1] UUID sa tvorí podľa špecifikácie RFC - http://www.ietf.org/rfc/rfc4122.txt[4]umiestnené na: www.snk.sk/?digitalizacia