Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
1
Vejledning til prototypen af RaConverter
Vejledning til prototypen af udtræksprogrammet RaConverter, der anvendes til at
lave data- og metadataudtræk fra statistikprogrammer, der overholder Rigsarkivets
format til aflevering af forskningsdata , jf. bilag 9 i den reviderede bekendtgørelse
om arkiveringsversioner, som er i høring. Nærværende vejledning er en del af
høringsmaterialet.
Rigsarkivet august 2017
2
Indhold 1. Baggrund ........................................................................................................................................ 3
2. Forbehold ....................................................................................................................................... 3
3. Quick guide til RaConverter ............................................................................................................. 4
4. Detaljeret vejledning ...................................................................................................................... 4
1. Opret en ny mappe og kopier din datafil hertil ................................................................................. 5
2. Åbn programmet RaConverter.exe ................................................................................................... 5
3. Klik på knappen "Step 1: Select Data File" og vælg din datafil .......................................................... 6
4. Klik på knappen "Step 2: Create Syntax" ........................................................................................... 6
5. Lad RaConverter køre i baggrunden og eksekverer syntaksfilen i dit statistikprogram .................... 8
6. Klik på knappen "Step 3: Add Data File Info" og indtast metadata om datafilen ........................... 10
7. Indtast referencer til andre datafiler i afleveringspakken ............................................................... 10
8. Klik på knappen "Step 4: Create Output". ....................................................................................... 12
9. Kontroller encoding i udtrækket - at fx. æ, ø og å vises korrekt. .................................................... 14
10. Klik på knappen "Step 1: Select Data File" og fortsæt med at lave et nyt udtræk .......................... 15
11. Luk RaConverter, når du ikke ønsker at lave flere udtræk .............................................................. 15
Bilag 1 – Eksempel på metadataudtræk ............................................................................................ 16
Bilag 2 – Eksempel på dataudtræk .................................................................................................... 17
Bilag 3 – Metadataudtræk fra Stata og SAS filer ................................................................................ 18
3
1. Baggrund Rigsarkivet har defineret et standardiseret format for aflevering af data, som er skabt i forbindelse med
forskning med anvendelse af en videnskabelig metode, og som er skabt eller bearbejdet i
statistikprogrammer. Disse data skal afleveres som en afleveringspakke, jf. de regler, der er defineret i bilag
9 i den reviderede bekendtgørelse om arkiveringsversioner, der er i høring i perioden 14. august – 29.
september, om som skal erstatte bekendtgørelse nr. 1007 om arkiveringsversioner.
En afleveringspakke skal, udover en arkivbeskrivelsesfil og en række kontekstdokumenter, indeholde data-
og metadataudtræk fra selve statistikfilen. Formatet for disse udtræk er defineret i bilag 9, punkterne 9.F -
9.I samt i EBNF-notationerne i figurerne 9.6 – 9.12.
Rigsarkivet har udviklet en prototype af udtræksprogrammet RaConverter, som kan konvertere data fra
statistikprogrammerne Stata, SAS og SPSS til Rigsarkivets format for data- og metadataudtræk. Denne
vejledning beskriver, hvordan programmet anvendes. Du kan kun lave udtrækket med RaConverter, hvis du
har et af følgende statistikprogrammer installeret: Stata, SAS eller SPSS.
Da der er tale om en prototype af programmet, der endnu er ikke er færdigudviklet og brugertestet, er det
vigtigt at denne vejledning følges nøje, så alle trin i programmet udføres korrekt. Du kan også følge
vejledningen i selve programmet, med husk at læse alle instruktioner du får på skærmbilledet, før du
trykker på næste "Step".
Vejledningen er opdelt i en quick guide med 11 punkter, du kan følge hurtigt, samt en mere detaljeret
vejledning med skærmbilleder og forklarende tekster til, hvad der sker undervejs mens udtrækket laves i
RaConverter.
Vedlagt som Bilag 1 og 2 er indholdet at metadataudtrækket og dataudtrækket genereret med RaConverter
i denne vejledning fra et datasæt i statistikprogrammet SPSS Statistics. Bilag 3 viser metadataudtræk fra
datasæt i statistikprogrammerne Stata og SAS.
2. Forbehold Bemærk at udtræksværktøjet RaConverter er en prototype, som endnu ikke er færdigudviklet og
gennemtestet. Rigsarkivet har endnu ikke udviklet et testprogram, der kan validere at udtrækket
overholder reglerne beskrevet i bilag 9. Der kan derfor være enkelte fejl i de udtræk, du laver med
prototypen af RaConverter og i det eksempel på en afleveringspakke, som også er en del af
høringsmaterialet.
Formålet med at sende prototypen af RaConverter i høring og vise et eksempel på en afleveringspakke er,
at understøtte læsningen og forståelsen af bekendtgørelsen i høring, samt give dig mulighed for at afprøve
processen med at lave et udtræk af data og metadata fra et statistikprogram.
4
3. Quick guide til RaConverter
1. Opret en ny mappe og kopier din datafil hertil
2. Download programmet RaConverter.exe og åben det (Figur A)
3. Klik på knappen "Step 1: Select Data File" og vælg din datafil
4. Klik på knappen "Step 2: Create Syntax" OBS: Du er ikke færdig med Step 2, før du har læst og udført alle trin beskrevet under "Instructions" i skærmbilledet i RaConverter (Figur B) (svarende til punkt 5 herunder).
5. Lad RaConverter køre i baggrunden, mens du åbner og eksekverer den dannede syntaks-fil i dit statistikprogram
6. Klik på knappen "Step 3: Add Data File Info" og indtast metadata om datafilen
7. Indtast eventuelle referencer til andre datafiler i afleveringspakken
8. Klik på knappen "Step 4: Create Output"
9. Kontroller encoding i udtrækket - at fx. æ, ø og å vises korrekt
10. Klik på knappen "Step 1: Select Data File", hvis du ønsker at fortsætte med at lave et nyt data- og metadataudtræk fra en ny datafil
11. Luk RaConverter, når du ikke ønsker at lave flere udtræk
Figur A Figur B
5
4. Detaljeret vejledning
1. Opret en ny mappe og kopier din datafil hertil
Mens RaConverter programmet anvendes, bliver der oprettet og slettet en række filer i samme mappe,
som datafilen hentes fra. Du kan sagtens åbne datafilen fra en vilkårlig destination, men processen i
produktionen af data- og metadataudtrækkene bliver mere overskuelig, hvis du ikke har andet liggende i
mappen end den datafil, du skal lave udtræk fra.
Da RaConverter kun kan lave udtræk fra statistikfiler fra Stata, SAS og SPSS, skal datafilen du laver udtræk
fra have en af følgende extensions: .dta(Stata), .sas7bdat samt evt. katalogfil med extension .sas7bcat (SAS)
eller .sav (SPSS).
2. Åbn programmet RaConverter.exe
Programmet RaConverter.exe kan downloades som en zip-fil fra www.sa.dk. via et link fra høringsportalen.
Kopier RaConverter.exe filen fx til dit skrivebord og klik på den, for at åbne programmet (Figur 1).
Figur 1: Forside i RaConverter
6
3. Klik på knappen "Step 1: Select Data File" og vælg din datafil
Datafilen er nu valgt og RaConverter informerer i skærmbilledet (Figur 2) om hvor datafilen er valgt fra,
samt dens navn.
Figur 2: Datafilen "datafile_test" er valgt
4. Klik på knappen "Step 2: Create Syntax"
RaConverter informerer nu i skærmbilledet (Figur 3) at Step 2 er completed og at der er dannet og gemt en
syntaksfil i samme mappe, hvor datafilen er hentet fra (Figur 4).
OBS: Men du er ikke færdig med step 2 endnu, og du skal huske at læse og udføre alle trin, beskrevet under
"Instructions" i skærmbilledet i Figur 3, eller blot fortsætte vejledningen herunder. Hvis ikke du gør dette,
bliver hverken datafilen eller indholdet til metadatafilen dannet.
7
Figur 3: Skærmbillede efter klik på "Step 2: Create Syntax"
Figur 4: Der er dannet og gemt en syntaks fil (.sps) i samme mappe, hvor datafilen er valgt fra
8
5. Lad RaConverter køre i baggrunden og eksekverer syntaksfilen i dit statistikprogram
Klik enten direkte på den dannede syntaksfil (her datafile_test.sps), så den åbner op i dit statistikprogram
(Figur 5), eller åben syntaksfilen inde fra statistikprogrammet. Syntaksfilen skal åbnes i det
statistikprogram, der passer til statistikfilens format, hvilket fremgår af instruction 2 i Figur 3 (i dette
tilfælde SPSS Statistics).
Marker hele syntaksen med musen og eksekver den.
Når syntaksfilen er færdigeksekveret (Figur 6) er et dataudtræk (.csv) og 4 metadataudtræk (.txt) nu dannet
og gemt i samme mappe, hvor den oprindelige datafil ligger (.sav) (Figur 7).
Figur 5: Syntaks filen er åbnet i SPSS
9
Figur 6: Syntaksfilen er eksekveret i SPSS
Figur 7: En datafil (.csv) og 4 metadatafiler (.txt) er dannet og gemt i destinationsmappen
10
6. Klik på knappen "Step 3: Add Data File Info" og indtast metadata om datafilen
Du skal nu indtaste metadata om datafilen, som udtrækket laves fra, i vinduet "Add Data File Information"
(Figur 8).
Indtast navn på datafilen, som den benævnes i brugssammenhæng i feltet "Data File Name".
Indtast en beskrivelse af datafilens indhold i feltet "Data File Description".
Angiv navn på nøglevariabel, hvis den findes, i feltet "Key Variable(s)". Er nøglevariablen en sammensat
nøgle bestående af flere variable, skal variabelnavne afskilles med mellemrum.
Klik på knappen "Done".
Figur 8: Metadata om datafilen indtastes i ”Add Data File Information” vinduet
7. Indtast referencer til andre datafiler i afleveringspakken
Hvis afleveringen består af flere datafiler i en afleveringspakke og der findes referencer mellem disse
datafiler, skal de angives. Klik i så tilfælde på "Ja" i vinduet "Add Data File Reference(s)" (Figur 9).
Figur 9: Add Data File References(s)
Indtast oplysninger om den tabel og de variabler, der udgør referencen i vinduet i Figur 10.
11
Figur 10: Eventuelle referencer til andre datafiler indtastes ”Add Data File Reference(s)” vinduet
I feltet "Data File Name" angives navnet på den datafil i afleveringspakken, der refereres til.
I feltet "Variable(s) Other Data File" angives nøglevariablen i den datafil der refereres til.
I feltet "Variable(s) This Data File" angives nøglevariablen i den datafil, der refereres fra.
OBS: Referencen angives kun en vej. Dvs. at referencen angives i det dataudtræk, hvor en ikke unik
nøglevariabel peger på en unik nøglevariabel i en anden datafil. Hvis begge variable, der indgår i nøglen, er
unikke, kan du selv vælge i hvilket dataudtræk, referencen skal defineres.
Klik på knappen "Add" for at tilføje referencen. Ved klik på ”Add” fremkommer vinduet i Figur 11. Klik ”Ja”,
hvis du ønsker at tilføje endnu en reference til en tredje datafil i afleveringspakken.
Figur 11: Data File Reference
Klik på knappen "Nej", når du ikke ønsker at angive flere referencer. Ved klik på ”Nej” fremkommer vinduet
i Figur 12.
12
Figur 12: Create Delivery Files
8. Klik på knappen "Step 4: Create Output".
RaConverter informerer i det fremkomne skærmbillede (Figur 13), at de to delivery files nu er dannet og
gemt i destinationsmappen, hvor den oprindelige datafil ligger (Figur 14).
De to delivery files er:
metadatafilen "datafile_test.txt"
datafilen "datafile_test.csv"
Begge disse filer overholder de formater for data- og metadataudtræk, der er defineret i bilag 9 i
bekendtgørelsen som er i høring. Begge filer indgår som en del af afleveringspakken til arkivet.
13
Figur 13: Create Delivery Files. Step 4 completed!
Figur 14: datafil (.csv) og metadatafil (.txt) er nu dannet i destinationsmappen
14
OBS: Hvis du får fejlbeskeden i Figur 15 (No metadata created for label: VARIABEL osv.) i RaConverter efter Step 4 er udført, skyldes det, at du ikke har eksekveret den dannede syntaksfil i et statistikprogram, før du trykkede på "Step 3: Add Data File Info" knappen, jf. punkt 5 i denne vejledning. Er dette tilfældet, skal du lave udtrækket helt forfra.
Figur 15: Fejlbesked efter Step 4 er udført
9. Kontroller encoding i udtrækket - at fx. æ, ø og å vises korrekt.
Du bør åbne metadatafilen (.txt) og datafilen (.csv) i en teksteditor (fx. Notesblok), og kontrollere at æ, ø og
å vises korrekt (Figur 16). Er dette ikke tilfældet, skal du åbne din originale datafil i statistikprogrammet og
ændre encoding og derefter lave et nyt udtræk helt forfra.
OBS: Hvis du dobbeltklikker på dataudtrækket (.csv-filen) og den automatisk åbnes op i Excel, viser Excel
ikke korrekt encoding (Figur 17), selvom encoding er korrekt i udtrækket (Figur 16).
15
Figur 16: Korrekt encoding i et datafiludtræk (.csv) vist i Notesblok
Figur 17: Forkert visning i Excel af encoding i et dataudtræk (.csv)
10. Klik på knappen "Step 1: Select Data File" og fortsæt med at lave et nyt udtræk
Fremgangsmåden er den samme som i trin 1-9 i denne vejledning.
Du kan også lukke RaConverter og derefter åbne programmet op, for at lave et nyt udtræk fra en ny datafil.
11. Luk RaConverter, når du ikke ønsker at lave flere udtræk
Du har nu lavet metadata- og dataudtræk, fra din originale statistikdatafil, som overholder Rigsarkivets
formater for aflevering af data, som er skabt i forbindelse med forskning med anvendelse af en
videnskabelig metode, og som er skabt eller bearbejdet i statistikprogrammer.
16
Bilag 1 – Eksempel på metadataudtræk
Metadataudtræk, datafile_test.txt
SYSTEMNAVN
SPSS
DATAFILNAVN
datafile_test
DATAFILBESKRIVELSE
Testfil til vejledning til RaConverter
NØGLEVARIABEL
Vid VcodeNum
REFERENCE
Datafile_test2 'Lbnr codeNum' 'Vid VcodeNum'
VARIABEL
Vid f4
VcodeNum VcodeNum.
VcodeStr $VcodeStr.
Vdecimal f9.6
Vdate sdate10
Vtime time8
Vdatetime datetime20
Vtext a20
VcodeNumB VcodeNum.
VARIABELBESKRIVELSE
Vid 'Heltal (løbenummer)'
VcodeNum 'Kategorisk variabel (nummerisk)'
VcodeStr 'Kategorisk variabel (streng)'
Vdecimal 'Decimaltal'
Vdate 'En dato'
Vtime 'En tid'
Vdatetime 'En datotid'
Vtext 'Vilkårlig tekst'
VcodeNumB 'Anden kodeliste'
KODELISTE
VcodeNum
'0' 'Mand'
'1' 'Kvinde'
'10' 'Irrelevant'
'2' 'Kode ikke anvendt i data'
'99' 'Uoplyst'
VcodeStr
'AB101' 'Mand'
'AB102' 'Kvinde'
'AB103' 'Kode ikke anvendt i data'
'ABI' 'Irrelevant'
'ABU' 'Uoplyst'
BRUGERKODE
VcodeNum '99' '10'
VcodeStr 'ABU' 'ABI'
17
Bilag 2 – Eksempel på dataudtræk
Dataudtræk, datafile_test.csv
Vid;VcodeNum;VcodeStr;Vdecimal;Vdate;Vtime;Vdatetime;Vtext;VcodeNumB
1001;0;AB101;23.434458;2016/05/03;13:35:23;03-MAY-2016 13:35:23;"Oliver;Schabenberger";0
1002;1;AB102;23.437752;2017/06/04;14:36:24;04-JUN-2017 14:36:24;"John T.; Smith";1
1003;99;ABU;23.444453;2018/07/05;15:37:25;05-JUL-2018 15:37:25;Henrik øude;9
1004;10;ABI;23.534454;2019/08/06;16:38:26;06-AUG-2019 16:38:26;"God; HyÆge Stund";1
18
Bilag 3 – Metadataudtræk fra Stata og SAS filer
Metadataudtræk fra Stata fil
SYSTEMNAVN
Stata
DATAFILNAVN
datafile
DATAFILBESKRIVELSE
Testfil til vejledning til RaConverter
NØGLEVARIABEL
Vid VcodeNum
REFERENCE
Datafile_test2 'Lbnr codeNum' 'Vid VcodeNum'
VARIABEL
Vid %4.0g
VcodeNum VcodeNumL.
VcodeStr %5s
Vdecimal %9.6g
Vdate %tdCCYY-NN-DD
Vtime %tcHH:MM:SS
Vdatetime %tcCCYY-NN-DD!THH:MM:SS
Vtext %21s
VARIABELBESKRIVELSE
Vid 'Heltal (løbenummer)'
VcodeNum 'Kategorisk variabel (nummerisk)'
VcodeStr 'Kategorisk variabel (streng)'
Vdecimal 'Decimaltal'
Vdate 'En dato'
Vtime 'En tid'
Vdatetime 'En datotid'
Vtext 'Vilkårlig tekst'
KODELISTE
VcodeNumL
'0' 'Mand'
'1' 'Kvinde'
'2' 'Kode ikke anvendt i data'
'.i' 'Irrelevant'
'.u' 'Uoplyst'
BRUGERKODE
Metadataudtræk fra SAS fil
SYSTEMNAVN
SAS
DATAFILNAVN
datafile_test
DATAFILBESKRIVELSE
Testfil til vejledning til RaConverter
NØGLEVARIABEL
Vid VcodeNum
REFERENCE
Datafile_test2 'Lbnr codeNum' 'Vid VcodeNum'
VARIABEL
VcodeNum vcodenuml.
VcodeStr $vcodestrl.
19
Vdate yymmdd10.
Vdatetime e8601dt19.
Vdecimal 9.6
Vid 4.
Vtext $20.
Vtime time8.
VARIABELBESKRIVELSE
VcodeNum 'Kategorisk variabel (nummerisk)'
VcodeStr 'Kategorisk variabel (streng)'
Vdate 'En dato'
Vdatetime 'En datotid'
Vdecimal 'Decimaltal'
Vid 'Heltal (løbenummer)'
Vtext 'Vilkårlig tekst'
Vtime 'En tid'
KODELISTE
vcodenuml
'I' 'Irrelevant'
'U' 'Uoplyst'
'0' 'Mand'
'1' 'Kvinde'
'2' 'Kode ikke anvendt i data'
vcodestrl
'AB101' 'Mand'
'AB102' 'Kvinde'
'AB103' 'Kode ikke anvendt i data'
'ABI' 'Irrelevant'
'ABU' 'Uoplyst'
BRUGERKODE