Hvordan bliver vi bedre til at måle statistikkens kvalitet?

Hvordan bliver vi bedretil at måle

statistikkens kvalitet?

29. september 2008

2

Tre udsagn

• Tal er tyranni

• Man kan kun have tillid til statistik man selv har manipuleret (Churchill)

• Ikke alt der tæller kan tælles – og ikke at der kan tælles tæller (Einstein)

3

Varedeklarationer i pressen

4

Tal er tyranni

• Hvad er forskellen på:- ”Varedeklarationerne kan gøres bedre”

og kun hver femte dansker kan tyde dem- ”Nogle få genstande for meget” og en promille på 1,37- ”Kødpriserne stiger” og de er steget 3,78% siden nytår

Eksakte tal har en selvbekræftende rigtighed og autoritet,der ikke stilles spørgsmålstegn ved.

Danmarks Statistik har en stærk troværdighed, og mange menerat statistik enten er helt rigtig eller forkert.Virkeligheden mere nuanceret.

Ethvert (demokratisk) samfund har brug for statistik

5

Kun tillid til statistik man selv har manipuleret

• Statistik er bearbejdning af informationer baseret på på metoder og valg- informationerne kan have forskellig kvalitet- metoderne kan være fagligt forankret eller subjektive- valgene kan forbedre eller forværre

• Hvis man kender dem kan man bruge statistikken

• Producentens ansvar

6

Ikke alt der tæller kan tælles

• Det gælder også mål for kvaliteten af statistik

• Tre ting kan gå helt galt:- hvordan man måler (spørgeskemaet)- mangelfuld udvalgsramme (population) og udvælgelse- bortfald og dataindsamlingenog selvfølgelig forkerte metoder/principper

• Noget er svært at måle med tal, fx kvaliteten og betydningen af spørgeskemaet, udvalgsrammen og bortfaldet – og selvfølgelig forkerte metoder/principper

• Ingen statistik er stærkere end sit svageste led

7

Disposition

• Hvorfor skal kvalitet måles?

• Hvilke redskaber findes der?

• Hvordan kan de bruges?

8

Hvordan bliver kvalitetsmål anvendelige?

• Flere andre lande har store manualer for kvalitet, fx ONS, Finland og Canada

• EUROSTAT og internationale organisationer arbejder med fælles kvalitetsmål – OG kontrol

• Arbejdsgrupper i DST om delemner: Stikprøver, registre, indeks eller sæsonkorrektion

• Overordnet mål:• Kan vi finde en vinkel der giver os et anvendeligt mål

der reelt beskriver statistikkens og sikkerhed uden det ”drukner i store rapporter og kontrol” - og sætter fokus på brugerne, ressourcer og forbedringer?

9

Hvorfor skal kvalitet måles?

• Brugernes nytteværdi af statistikken

• Vores interesse i korrekt anvendelse

• Mere målrettet fokus på kvalitet- og derved bedre kvalitet

• Optimal anvendelse egne ressourcer

• Omverden ved hvad de får for pengene

10

Hvilke redskaber findes der?

• Indikatorer for kvaliteten af outputtet

• Standarder for produktionen

• Kvalitative analyser, test eller beskrivelser

11

2 - Hvilke redskaber findes der?

• Svage indikatorer (I1), fx andel af fejl i en fejlsøgning- kan kun sammenlignes inden for tællingen

• Stærke indikatorer (I2), fx bortfaldet eller uoplyste- kan sammenlignes over tid for en konkret tælling og mellem tællinger af samme type

• Universelle indikatorer (I3), fx varianskoefficienten i en stikprøve- kan sammenlignes over tid, mellem tællinger og lande.

12

Input og output

• Grundlæggende kvalitet i inputtetEksterne forhold, fx forskerbeskyttelse i CPR eller selvrapportering i CVRRessourcer, fx stikprøvestørrelsenMålingen, fx indholdet i registeret eller kvaliteten spørgsmålene i spørgeskemaetDataindsamlingen, fx bortfald

• Endelige kvalitet i outputtet – det relevante målEfter bearbejdning, fx fejlsøgning, sæsonkorrektion eller opregningAnalyser, der dokumenterer problemer, metoder og effekt

• Kompetencer påvirker begge dele

13

Fire kvalitetsniveauer

Fire kvalitetsniveauer

• A - Meget høj kvalitet

• B - Høj kvalitet

• C - Rimelig kvalitet

• D - Usikker kvalitet

De to højeste niveauer kræver tilgængelig dokumentation

14

2- Hvordan kan fire mål bruges?

• Den basale kvalitet af en indikatorer kan hæves:- analyser der kvalitativt og kvantitativt beskriver

og håndtere et problem- analyser der dokumenterer en effekt

Fx kan bortfaldet i en stikprøveundersøgelse være så stort, at den basale kvalitet er Usikker eller Rimelig, men bortfaldsanalyser og opregningen kan hæve kvaliteten– hvis de er dokumenteret og tilgængelige

15

3 - Hvordan kan de fire mål bruges?

• Generelle fælles mål for- fx stikprøveusikkerhed- opfyldelsen af forudsætninger for sæsonkorrektion- andelen af uoplyste- graden af entydig flet af registre

• Konkrete defineret for den konkrete statistik, fx- Prisindeks- Fejlsøgning- Specifikationsgrad af kommunale budgetposter

16

Hvordan kommer vi i gang?

• Første trin en afprøvning på udvalgte statistiker• Først bruges de generelle, der relevante• Derefter suppleres evt. med konkrete, der er

relevante• Man står selv inden for tilgængelig

dokumentation overfor eksterne brugere eller interne brugere, hvis man vurdere høj eller meget høj kvalitet

• Kontorchefen godkender den endelige vurdering

17

Eksempel 1

Uoplyste værdier for hovedvariabler (I2)+ Korrektion (imputering, vægtning) for uoplyst, der inddrager

korreleret registerinformation kan flytte en grad.

+ Dokumenteret reduktion af uoplyst bias endnu en grad

Usikker kvalitet: Over 5 % af enhederne

Rimelig kvalitet: Under 5 % af enhederne

Høj kvalitet: Under 3 % af enhederne

Meget høj kvalitet: Under 1 % af enhederne

18

Eksempel 2

Populationsudvikling over tid (K)

Usikker kvalitet: Ingen analyser over tidRimelig kvalitet: Beskrivende macroanalyser af

variabler over tidHøj kvalitet: Beskrivende microanalyser af

enheder over tidMeget høj kvalitet: Microanalyser af enheder over

tid dokumenteret i en kvalitetsrapport med vurdering af betydningen for ændringer over tid

19

Eksempel 3

Revisioner samt foreløbige og endelige tal (I2)+ Analyse, der beskriver størrelsen og retningen af forskellen mellem

første og endelig publicering

Usikker kvalitet: Over 2 % forskel

Rimelig kvalitet: Under 2 % forskel

Høj kvalitet: Under 1 % forskel

Meget høj kvalitet: Under ½ % forskel

20

Eksempel 4

Kontrol/fejlsøgning af registeret inden det overdrages til DST (S)

+ Analyse, der beskriver kvaliteten

Usikker kvalitet: Ikke systematisk fejlsøgning

Rimelig kvalitet: Stikprøvebaseret fejlsøgning

Høj kvalitet: Fejlsøgning af mindst halvdelen af alle enheder i praksis

Meget høj kvalitet: Fejlsøgning af ”alle” enheder i praksis

21

Eksempel 5

Sammenlignelighed over tid uden databrud (I2)+ Korrektion for eller analyser af betydningen af databruddet+ Dokumenteret stor reduktion af bias ved databruddet endnu en grad

Usikker kvalitet: Kan ikke sammenlignes en periode tilbageRimelig kvalitet: Mindst en periodeHøj kvalitet: Over 5 årMeget høj kvalitet: Over 10 år

22

Eksempel 6

Alder på stikprøve (I2)

Usikker kvalitet: Opdateret mere end to år siden

Rimelig kvalitet: Der trækkes en ny stikprøve hvert andet år

Høj kvalitet: Der trækkes en ny stikprøve hvert år

Meget høj kvalitet: Der trækkes en ny stikprøve ved hver tælling

23

Eksempel 7

Cut-off (I2) (i erhvervsundersøgelser)+ Korrektion (vægtning, imputering) for cut-off, der

inddrager korreleret registerinformation + Dokumenteret stor reduktion af cut-off bias endnu en

grad

Usikker kvalitet: Over 20 %Rimelig kvalitet: Under 20 %Høj kvalitet: Under 10 %Meget høj kvalitet: Under 5 %

24

Eksempel 8

Stikprøveusikkerhed for hovedvariabler (I3)Hvis fokus er på ændringer også usikkerheden af

ændringen

Usikker kvalitet: Stikprøvefejl på over 3 % på totaler hhv. 15 % for undergrupper

Rimelig kvalitet: Under 3%/15%Høj kvalitet: Under 2/10%Meget høj kvalitet: Under 1%/5%

25

Eksempel 9

Bortfald (I2)+ Korrektion for bortfald, der inddrager korreleret registerinformation

+ Dokumenteret stor reduktion af bortfaldsbias endnu en grad

Usikker kvalitet: Over 40% af de udvalgte enhederRimelig kvalitet: Under 40% af de udvalgte enhederHøj kvalitet: Under 20% af de udvalgte enhederMeget høj kvalitet: Under 5% af de udvalgte enheder

26

Eksempel 10

Kvaliteten af opregning (K)

Usikker kvalitet: Ikke baseret på udvalgssandsynlighederne på udtrækstidspunktet (ikke repræsentativ)

Rimelig kvalitet: Simpel opregning for udvalgssandsynligheder ved udtrækstidspunktet

Høj kvalitet: Registerinformation inddrages som hjælpeinformation, men effekten er ikke dokumenteret

Meget høj kvalitet: Registerinformation inddrages som hjælpeinformation og effekten er dokumenteret

27

Eksempel 11 – et eksakt fra statistikkontoret

Indeks (I2)Statistikkontoret fastlægger niveauer for dækning (xx) og antal

indberetninger (yy), der er relevant for at belyse sikkerheden af både aggregerede indeks og delindeks. Fx på baggrund af EU krav eller målsætningen for suppleringen med nye indberetninger.

Usikker kvalitet: Under 80 % af alle offentliggjorte indeks opfylder kravet

Rimelig kvalitet: Over 80% opfylder kravetHøj kvalitet: Over 90% opfylder kravetMeget høj kvalitet: Over 95% opfylder kravet

28

Eksempel 12 – et eksakt fra statistikkontoret

Specifikationsgrad i offentlige budgetter

Steget eller faldet, måske opdelt i intervaller

29

Samlet vurdering

• Sjældent højere end det svageste led

- og aldrig højere end det/de vigtigste led

- fx hæves kvaliteten ikke ved at øge stikprøvestørrelsen, hvis det største problem er bortfaldet eller underrapportering

30

Samlet vurdering 2

• Samlet vurdering af kvaliteten- statistikkens smertegrænse

Fx at ændringer på op til 1 % kan skyldes statistikkens usikkerhed. Samt om man generelt undervurderer eller overvurderer udviklingen.

• Samlet vurdering op forrest i varedeklarationen

31

Samlet vurdering 3

• Når brugerne ved hvordan statistikken er blevet ”manipuleret” har de mulighed for at vurdere dens anvendelighed

• Statistikproducenten har ansvaret for at fortælle hvor langt den kan fortolkes og ikke dække sig bag tallenes ”tyranni”

• Hvis man ikke er åben om sin kvalitet og/eller ikke kan måle og beskrive den - er alt lige godt/dårligt og man kan jo så lige så godt vælge den billigste datafangst- og kan ikke begrunde ønsket om flere ressourcer

• Når producenten bliver mere bevist om sit svageste punkt har man mulighed for at sætte ind hvor problemet er størst

32

En stadig proces

• Kvalitet er svært at måle- og det er umuligt hvis man ikke prøver

• Måleredskabet skal løbende forbedres- første versionen bliver aldrig perfekt- første fase i 2008- de vigtigste derudover i 2009

Tak for ordet

Documents

Hvordan bliver vi bedre til at måle statistikkens kvalitet?