Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
1
Presentasjon av implementasjonen av ESSArch i Arkivverket
Terje Pettersen-DahlSeksjon for Digitalt Depot
Riksarkivet
KDRS Samling, Trondheim, 12. juni 2013
2
Elmag, Elektronisk Magasin
• Prosjekt i Arkivverket med tanke på:● Teknisk løsning ved lagring av elektroniske arkiver,
både hardware og software.● Sette opp retningslinjer og behandlingsregler av
elektronisk mottatt materiale.● Sikkerhetsaspekter rundt elektronisk materiale.
• Egentlig bestående av flere prosjekter over flere år.
3
• DIAS prosjektet ble opprettet som en følge av Elmag 2 prosjektet.
• DIAS prosjektet kunne vært et Elmag-prosjekt i utgangspunktet, men ble skilt ut siden det også var eksterne aktører involvert.
Elmag, Elektronisk Magasin
4
Dias, Målformuleringer
• Utprøving og komplettering av den logiske arkivpakkemodellen foreslått gjennom Arkivverkets Elmag-prosjekt.
• Vurdering og valg av standarder for implementering av modellen.
• Spesifikasjon av strukturen gjennom XML-skjemaer for den definerte arkivpakkemodellen.
• Utforming av kravspesifikasjon til programvare for generering av arkivpakker m.m.
• Programutvikling av programvare for generering av arkivpakker m.m.
5Magasinstyringssystem (m/SAN el.)
DIP
SIP
AIP
AIC
(SIP)
(DIP)
Sto
rage
Admin
Access
Ingest
Adgang etc
Innlegging
Pakking
Innhenting
UthentingSøk
Magasinkontroll
Rapportering
Mottakskontroll
TestingStandardoperasjoner
5
Asta
Magasin
Dias-modell
6
Arkivpakker
• Standard arkivpakke (AIP).• Siden arkivpakker vil bli bevart i flere
generasjoner vil det også være behov for et overordnet nivå – en arkivkontainer (AIC).
• Ved enkle endringer av metadata, føltes det vel tungvint å endre en hel arkivpakke, derfor ble det også definert en arkivenhet (AIU).
7
Pakkestrukturer
• DIAS prosjektet definert en struktur for en arkivpakke (AIP).
• Arkivverket har deretter arbeidet med å definere en struktur for en innleveringspakke (SIP).
• Strukturen for en SIP er basert på strukturen for en AIP.
• Strukturen for en visningspakke (DIP) vil være spesialtilpasset behovene.
8
Arkivpakke AIPStruktur
En arkivpakke (AIP) kan deles opp i følgende hoveddeler• Informasjonsinnhold – Selve informasjonen som
skal bevares• Administrative metadata – Arkivskaper,
proveniens og annen kontekstuell informasjon• Tekniske metadata – Teknisk beskrivelse av
informasjonsinnholdet• Depotoperasjoner – Håndtering og
arbeidsoperasjoner depotet har utført på informasjonsinnholdet
9
Struktur i en arkivpakke AIP
AIP (<UUID>.tar)
dias-mets.xml (og dias-mets.xsd)
descriptive_metadata/
administrative_metadata/
repository_operations/
content/
dias-premis.xml
ead.xml
eac-cpf.xml
arkivuttrekk.xml
Testrapporter etc
Dokumentfiler og annet innhold
10
11
Arkivpakkemodell
• Alt bevares i sin opprinnelige form (SIP).• Ved tekniske endringer dannes en ny pakke (AIP) i
tillegg til den opprinnelige.• Operasjoner i depotet bevares og dokumenteres
som tillegg.• Ved senere vedlikehold (f.eks. konvertering av
formater) dannes alltid en ny pakke (AIP).• All informasjon fra pakkenivå ned til filnivå kan
verifiseres med sjekksummer.
12
Struktur i en innleveringspakke SIP
SIP (<UUID>.tar)
dias-mets.xml (og dias-mets.xsd)
descriptive_metadata/
administrative_metadata/
content/
dias-premis.xml
arkivuttrekk.xml
Dokumentfiler og annet innhold
info.xml
13
Forvaltningssystem
• Automatisert magasinforvalter● Legger arkivpakker inn i magasinet● Henter arkivpakker ut av magasinet● Genererer arkivpakker
• Automatisert kontrollør● Kontrollerer innholdets integritet● Har egne “lukkede” områder for materialet● Genererer rapporter
14
Dias, Skjemaer og standarder
• Pakkeinformasjon - METS• Bevaringsmetadata - PREMIS• Arkivbeskrivelse - EAD• Aktørbeskrivelse – EAC-CPF• Tekniske metadata – ADDML
• Muligens fler spesialiserte standarder knyttet til formater. F.eks. MIX for bilder.
15
• METS-standarden benyttes i to tilfeller.• Inne i pakkene (gjelder alle typer):
● Angivelse av pakkeinformasjon (pakkseddel).● Angivelse av sammenhenger mellom filer.● Angivelse av sjekksummer for alle filer.● Denne versjonen navngis som mets.xml, og vil ligge
på rotnivå i pakkene.• Utenfor pakkene (for overføring fra en aktør til
en annen):● Inneholder informasjon om overføringen.● Identifiserer TAR-filen (SIP).● Denne versjonen navngis som info.xml.
METS
16
PREMIS
• PREMIS-standarden benyttes kun inne i pakkene (for alle typer) som:
● Angivelse av bevaringsmetadata.● Angivelse av hendelser.● Angivelse av rettigheter.● Denne versjonen navngis som premis.xml.
17
ADDML
• ADDML-standarden benyttes kun inne i pakkene (for alle typer) som:
● Angivelse av teknisk strukturbeskrivelse.● Angivelse av utvalgte bevaringsmetadata (SIP).● Denne versjonen navngis som arkivuttrekk.xml.
• Depotet vil kopiere denne og benytte den videre:● For å legge på testkommandoer som skal utføres.
18
EAD og EAC-CPF
• EAD- og EAC-CPF-standardene benyttes kun inne i pakkene (valgfri i SIP) som:
● Angivelse av arkivbeskrivelse (EAD).● Angivelse av aktørbeskrivelse (EAC-CPF).● Filene navngis som ead.xml og eac.xml respektive.
• Normalt vil disse filene bli generert av Betty på grunnlag av informasjon lagt inn i ASTA.
● Gjeldende for Arkivverket.● Andre depoter kan ha andre løsninger.
19
info.xml
• Som tidligere nevnt en METS-fil.• Inneholder informasjon angående overføringen av
en SIP.• Er en kontrollmekanisme for å sikre en SIPs
integritet.• Vil ikke bli bevart i sin originale form hos depotet.
● Enkelte informasjoner kan bli bevart i andre filer.● Vil bli bevart i journalsystemet.
• Bør bli behandlet parallellt med SIP hos depotet av sikkerhetsmessige grunner.
20
Gjennomføring (Fase 1)(utviklingen av forvaltningssystem)
• Utarbeidet en enkel kravspesifikasjon med 29 punkter. Noen skulle oppfylles, andre var kjekt å ha.
• Utlysning av anbud – nasjonalt og EU - Mottok 2 tilbud.
• Valget falt på ES Solutions med sitt verktøy ESSArch.
• Dette var det eneste tilbudet som falt innenfor rammene.
• ESSArch grunnversjon godkjent 6. juni 2012, men ikke tatt i bruk.
21
Gjennomføring Fase 2
• Forbedring av Fase 1 på 5 punkter.
• Brukergrensesnitt til log.py.• Forbedring av DiffCheck.• Endring av struktur for SIP.• Endring av info.xml.• xxx.
22
Gjennomføring Fase 2
• Skulle vært igangsatt i sommer, men starter først i andre halvdel av oktober.
• Fase 2 levert i slutten av februar fra ES Solutions.
• Testet i testmiljø frem til 1. juni.• Lagt over til prodmiljø første uken i juni.• Testes i prodmiljø i juni.• Test av installasjonspakke i slutten av juni.• Produksjonsstart fra 1.juli.
23
Det Digitale Depotet
• Starter opp sammen med innføringen av det nye Digitale Depotet.
• Det Digitale Depotet inneholder følgende:● Teknisk infrastruktur● DSM (Digitalt sikringsmagasin)● Forvaltningssystem (ESSArch)● Rutiner for mottak og testing for hele
Arkivverket
24
25
26
Revidert oversikt
27
Teknisk løsningInnholdet i rød sone
• Den tekniske løsningen vil være i rød sone.• Rød sone vil inneholde
● En lagringsserver – det egentlige DSM● To taperoboter – som en del av DSM● En server med kontrollområde som vil være
områdekontrollens ene arbeidsområde.● En server med ESSArch og et temp-område for
pakking av AIPer – områdekontrollens andre arbeidsområde.
28
Teknisk løsningInnholdet i rosa sone
• Rosa sone vil inneholde● En server med testernes arbeidsområder.● En skjemaserver med standard skjemaene som
benyttes av ESSArch.• Mellom rosa og blå sone vil det være en brannmur.• Kun ESSArch vil ha tilgang til å gå gjennom
brannmuren.
29
Revidert oversikt
30
• Alle arkivversjoner skal innleveres til Riksarkivet.• Alle arkivversjoner skal pakkes med TAR.• En ny fil – info.xml – skal også innleveres.
● En slik Tar-fil vil bli kalt en SIP.• En ny fil – info-xml – skal også innleveres.• info.xml sendes til spesifikk e-post mottaker.• info.xml inneholder sjekksum for TAR-fil.• info.xml vil bli registrert i Ephorte.
Testing av fagsystemNye behandlingsrutiner
31
Enkel oversikt over arbeidsprosess
Kartlegging
Bevaring- og kassasjons-vedtak
Avtale om innlevering
Generering av arkivversjon
Pre mottak
Mottak
Testing
Lagring
Tilgjengeliggjøring
Vedlikehold
32
Vedtak og avtaler
• BETI-avdelingen og Statsarkivene gjør vedtak og inngår avtaler med arkivskapere som tidligere.
• Avtalene registreres i Ephorte med referansenummer og dato for avtalte innleveringer.
• Avtalene og datoene registreres også inn i Betty.
33
Pre mottak
• Tilsvarer førstehånds mottak.• I Arkivverket gjøres dette av Seksjon for
Elektronisk Arkivdanning (Elark).• Vil kjøre viruskontroll på egen dedikert PC, etter
at materialet først har ligget 3 uker i karantene.• Deretter en enkel visuell kontroll av at det ser ut
til at materialet er komplett.• Denne kontrollen medfører ikke åpning av noen
filer.• Se til at info.xml ligger på utvekslingsområdet
ioessarch.
34
Pre mottak
• Registrering av mottak i Ephorte (for SIP).• Registrering og innlegging av info.xml i Ephorte.• Registrering av mottak i Betty.• Registrere alle hendelser som er skjedd med
materialet i en hendelseslogg.● Dette gjøres ved hjelp av verktøyet ESSArch
Tools.• Overlevering av materialet til DD.
35
Mottak
• Manuell overføring av SIP fra pre mottak.• Kontrollere at info.xml og hendelseslogg ligger
korrekt på utvekslingsområdet ioessarch.• Hovedoppgave er å gjøre Check-in fra en dedikert
maskin til Områdekontrollen.• Må også registrere sine hendelser i
hendelsesloggen.• Denne oppgaven utføres av koordinator eller leder
i Seksjon for Digitalt Depot.
36
Arbeidsområde
• All testing vil bli foretatt mot tildelte arbeidsområder.
• Hver tester vil få sitt dedikerte arbeidsområde.• Testverktøyene vil være tilgjengelig for alle
testere.• Det vil ikke være mulighet for å kopiere materiale
ukontrollert ut av rosa sone.• Testing utføres av medarbeidere i Seksjon for
Digitalt Depot og utvalgte medarbeidere i noen Statsarkiv.
37
TestingGrunnprinsipper
• Avdekke alle avvik som skyldes feil eller mangler i uttrekksprosessen.
• Følge og oppfylle regelverket.• Konsekvenser for videre arbeid med materialet.
• Ingen endring av kvaliteten på materialet i forhold til hva som faktisk er hos arkivskaper!
38
TestingVerktøy
• Følgende verktøy benyttes til testing:● Proteus for testing av Noark 3-uttrekk.● ArkN4 for testing av Noark 4-uttrekk.● Arkade for testing av Noark 5-uttrekk.● Arkade for testing av uttrekk fra fagsystem.
• I tillegg kommer:● Arkadukt for å lage og ajourføre
strukturbeskrivelser for fagsystem.
39
Kommunikasjon mellom rød/rosa og blå soner
• Fra rød/rosa sone til blå sone:● Forespørsel om ASTA-informasjon med unik ID
(UUID).● Utlegging av testresultater.● Utlegging av rapporter – statistikk, årsrapporter,
sikkerhetsrapporter, osv.
40
• Fra blå sone til rød/rosa sone:● Innhenting av bearbeidede testrapporter.● Innhenting av ASTA-informasjon fra Betty.● Innhenting av info.xml og hendelseslogg.● Innhenting av nye versjoner av xml-skjemaer.● Innhenting av nye versjoner av testverktøy.
Kommunikasjon mellom rød/rosa og blå soner
41
• Betty vil motta informasjon om planlagte arkivversjon.
• Betty mottar informasjon om mottatt arkivversjon. Inklusive å oppdatere identifikasjon av arkivversjonen (UUID).
• ESSArch gjør en check-in av arkivversjonen.• ESSArch gjør en forespørsel om
ASTA-informasjon til Betty. (Eventuelt legger Betty denne informasjonen klar uten forespørsel.)
• ESSArch henter inn ASTA-informasjonen fra utvekslingsområdet (EAD og EAC-CPF).
ESSArch og Betty
42
Grunnprinsipper for behandling av materiale
• Sikkerhet – Sikkerhet - Sikkerhet.• Alle hendelser på materialet skal logges.• Ikke mulig å kopiere ut materiale uautorisert.• Ikke mulig å uforvarende endre materiale.• Alle endringer skal kunne dokumenteres for evt. å
kunne tilbakestilles.• Bruk av sjekksummer.• Områdekontrollen utfører sammenligninger for å
avdekke uregelmessigheter.
43
ESSArch - Verktøy• ESSArch Tools.
● Erstatter tidligere log.py.● Registrering av hendelser på materialet for
logging.● Oppretting av pakkestruktur (SIP).● Generering av pakke (SIP).● Generering av info.xml.
• ESSArch Preservation Platform.● Tidligere nevnt som ESSArch.● Forvaltningssystem ihht DIAS.
44
ET
Mappe-struktur
Arkiv-skaper
Leggerinn info imappe-struktur
ET
Generereren SIP oginfo.xml
Sone 1 - Arkivskaper
ET
Generererloggfil
Depot-medarbeider
Kontrollererog gjør
virussjekk
Sone 2 - Mottak
EPP
Innleggingav SIP i
ESSArch PP
Test-ansvarlig
Tester SIPgodkjenner
elleravviser
EPP
Lagrer SIPog AIP
Sone 3 – Digitalt depot
SIP
info.xml
SIP
Arbeidsflyt i ESSArch verdenen
45
ESSArch Tools
DEMO!
46
ESSArch Preservation Platform
KVASIDEMO!
47
EPP - Innlogging
48
EPP - Hovedbilde
49
EPP – Control Area
50
EPP – Checkin from reception
51
EPP – Checkout to work area
52
EPP – Checkout to work area
53
EPP – Checkout to work area
54
EPP – Checkin from work area
55
EPP – Checkin from work area
56
EPP – Checkin from work area
57
EPP – Checkin from work area
58
EPP - DiffCheck
59
EPP - DiffCheck
60
EPP - DiffCheck
61
EPP - Preservation
62
EPP - Preservation
63
EPP - Preservation
64
EPP - Preservation
65
EPP - Ingest
66
EPP – Ingest IPs
67
EPP – Ingest request
68
EPP – Ingest request
69
EPP – List of Ingest requests
70
EPP - Access
71
EPP – List of archived IPs
72
EPP – Access request
73
EPP - Administration
74
EPP - Reports
75
EPP – Delivery report
76
EPP – Events report
77
EPP – Events report
78
EPP - Management
79
EPP - Management
80
EPP – Management – Archive Policy
81
EPP – Management – Archive Policy
82
EPP – Management – Archive Policy
83
EPP – Management – IP Parameters
84
EPP – Management – IP Parameters
85
EPP – Management – IP Parameters
86
EPP – Management – IP Parameters
87
EPP – Management – Log events
88
EPP – Management – Parameters (core)
89
EPP – Management - Parameters
90
EPP – Management - Paths
91
EPP – Management – Worker processes
92
EPP – Management – XML schema
93
ESSArch Preservation Platform
• Mye testing gjenstår.
• En nedlastbar installasjonspakke skal være klar I løpet av juni 2013 – både for ESSArch Tools og for ESSArch Preservation Platform.
• Arkivverket planlegger ikke noen ny fase før høsten 2014/våren 2015.
• Dette gir åpning for andre – KDRS – å få implementert sine ønsker!