Upload
leliem
View
217
Download
0
Embed Size (px)
Citation preview
Behandling af kvantitativ data
28.10.2013
I dag skal vi snakke om…
• Kvantitativ metode i kort form
• Hvordan man kvalitetssikrer stikprøven
• Hvordan man kan kode og indtaste data
• Data på forskellig måleniveau
• Hvilke muligheder, der er for at analysere data – Deskriptiv><induktiv analyse
– Univariat, bivariat og multuvariat analyse
• Forskellige centrale begreber
Kvantitativ metode
• Handler typisk om at observere og forklare folks holdninger og adfærd.
• Handler ikke om at forstå, hvorfor folk mener eller gør, som de gør. Vi er groft sagt ligeglade med at forstå deres overvejelser.
• Antagelse: Det er muligt at måle og afdække sammenhænge i folks adfærd og holdning kvantitativt.
• Afsæt i en mere positivistisk/Naturvidenskabelig tradition.
Kvantitativ metode
• Spørgeskemaundersøgelser med lukkede svarmuligheder, registerdata ol.
• Oftest et større datamateriale end ved kvalitative undersøgelser. F.eks. En meningsmåling med 1.000 respondenter
• Hellevik: Et ekstensivt oplæg med mange enheder, men få oplysninger om hver
• Systematisk præsentation af stimuli og registrering af data
Kvantitativ metode
• I kvantitativ metode handler det om ved statistiske analyser at finde sammenhænge og mønstre i data kausalitet og generalisere resultaterne
• Det er styrken ved kvantitativ metode, at man kan det!
Hvornår er en spørgeskemaundersøgelse det rigtige redskab?
• Når man gerne vil indsamle mange besvarelser
• Når man gerne vil arbejde med kvantificerbare data
• Når man gerne vil kunne generalisere sin resultater fra undersøgelsen til en større population
Kvalitetssikring af stikprøven
• Inden I starter databehandlingen og analyserne: Kast et kritisk blik på stikprøven.
• Er den af en tilfredsstillende kvalitet?
• Gør rede for jeres observationer og overvejelser
Er der besvarelser nok i stikprøven?
• Har I nået det samlede, ønskede antal besvarelser?
• Har I nok besvarelser I hver af de undergrupper, som I gerne vil sige noget om?
• Husk: Jo større behov for at nedbryde resultaterne – jo større stikprøve skal I bruge
Hvis stikprøven er for lille
• Usikkerheden stiger – I bliver mindre sikre på resultaterne
• I kan måske ikke udtale jer, om enkelte undergrupper, som I ellers gerne ville sige noget om
• Man kan generelt blive bekymret for, om der er systematiske skævheder
Svarprocenten
• Hvor stor en andel af dem, man har inviteret til at deltage i undersøgelsen, har besvaret den?
• En lav svarprocent skaber bekymring om systematisk bortfald
• En generel kvalitetsindikator
• Bør være mindst 50%
Er stikprøven repræsentativ?
• Er stikprøven et ”mini-univers” af den population, I gerne vil sige noget om?
• Hvad ved I om populationen?
• Har I evt. noget data på populationen, som I kan holde stikprøven op imod?
• Er der skævheder i stikprøven?
• Hvem har fravalgt undersøgelsen? Er der systematik i det?
Er stikprøven repræsentativ?
• Og hvis man ikke kender populationsfordelingerne?
• Svarprocenten er en god generel kvalitetsindikator
• Tænk undersøgelses-designet igennem: har jeg virkeligt tænkt på alt?
• Ser stikprøven fornuftig ud?
Og hvis stikprøven er for lille…
• Vil jo ofte skyldes en lav svarprocent
• Har I mulighed for at lave en rykkerunde?
• Det er ikke en løsning bare at sende undersøgelsen ud til flere
• Alternativt: tag forbehold i fortolkningerne
Og hvis stikprøven ikke er repræsentativ…
• Nogle grupper er overrepræsenterede og andre underrepræsenterede
• Hvor slemt er det?
• Systematisk frafald
• Hvis svarprocenten er lav – rykkerrunde
• Ellers må der være noget galt med det undersøgelsesdesign, man bruger
• Overvej at skifte taktik
• Ellers: tag forbehold i konklusionerne
Kodning af data
• Ved kodningen gennemgås materialet og hver enhed får en værdi på alle variablene.
• Hver værdi svarer til en tal i kodebogen.
• Giver lettere overblik og mulighed for at databehandling f.eks. i excell.
Kodning af data
• Kodning af enhederne i klassifikationsskema
• Angiver værdierne på alle variable
• Klassifikation, der er udtømmende og gensidigt udelukkende
• Hænger jo tæt sammen med udformningen af jeres spørgeskema og operationaliseringen af jeres variable
Kodning af data
• Når kodningen af data er afsluttet foreligger data i form af tal
• Hvordan vi kan analysere på tallene afhænger af, hvilken type information tallene dækker over
• Man taler om en variabels måleniveau
• Variable med forskellige måleniveau kan analyseres på forskellige måder
Nominal måleniveau
• Det simpleste måleniveau
• Kategorierne på variablen er gensidigt udelukkende, intet andet.
• Ikke muligt at rangordne eller sige noget om afstande mellem dem
• Eks.: Køn og nationalitet
Ordinal måleniveau
• Kategorierne på variablen er gensidigt udelukkende, og det er muligt at tale om højere eller lavere værdier på variablen
• Ikke muligt at fortolke afstande
• Eks.: Helt enig, overvejende enig, hverken enig eller uenig, overvejende uenig, helt uenig.
Interval niveau
• Kategorierne på variablen er gensidigt udelukkende, det er muligt at tale om højere eller lavere værdier på variablen og det er muligt at fortolke afstande
• Man kan f.eks. sige, at to enheder er tættere på hinanden
• Eks.: Historisk tid.
Forholdstal/ratio niveau
• Alt det foregående, og variablen har også et absolut nulpunkt.
• Man kan meningsfuld fortolke forholdet mellem to enheder.
• Eks.: Alder – en person har dobbel så høj alder som en anden
Måleniveauer
• Variable med forskellige måleniveauer giver forskellige analysemuligheder
• Igen er det noget, man skal overveje allerede i formuleringen af sit spørgeskema
• Spørg på så højt et måleniveau som muligt, f.eks. alder.
Måleniveauer
Hvad siger
kodetallene
noget om?
Nominal Ordinal Interval Ratio/forhold
Forskelle + + + +
Rangordne + + +
Afstande + +
Forhold +
Måleniveauer
Hvad kan man gøre i
forbindelse med analysen
Nominal Ordinal Interval Ratio/for
hold
Skille enheder med forskellige
værdier fra hinanden
+ + + +
Rangordne enhederne efter
værdiernes størrelse
+ + +
Lægge værdier sammen og
trække dem fra hinanden
+ +
Gange og dividere værdier +
Analyse
• Formålet med analysen er at trække den information ud af data, der skal til for at besvare ens problemstilling
• Afhængig af ens problemstilling, kan man lave forskellige typer analyser
Analyse
• Hvor bredt udtaler man sig:
– Deskriptiv >< induktiv analyse
• Hvor mange variable inddrager man i sin analyse?:
– Univariat
– Bivariat
– Multivariat analyse
Deskriptiv statistik
• Man siger kun noget om stikprøven
• Forenkle og sammenfatte det foreliggende talmateriale
• Skabe orden i og overblik over den datamatrise, man har kodet.
• Kvalitetssikre den indsamlede stikprøve, inden man evt. går videre til næste niveau i analysen
Induktiv statistik
• Generaliserende statisk
• På baggrund af de resultater, man har fundet i sin stikprøve, siger man noget om den population, man har taget stikprøven fra.
• Stiller som tidligere nævnt en række krav til kvaliteten af den stikprøve, man har indsamlet
Univariat analyse
• Siger noget om enhedernes fordeling på en enkelt variabel
• F.eks., hvor mange er hhv. enige og uenige i et udsagn
• Kan belyses ved hjælp af frekvensfordelinger, forskellige grafiske fremstillinger og statistiske mål for centraltendens og spredning
Univariat analyse
• Frekvensfordeling: Hvor mange gange forekommer de forskellige værdier for en variabel?
• Kan både opgøres i absolutte tal og i andele.
• Hvor mange er hhv. enige og uenige?
• Hvor stor en andel er hhv. enig og uenig?
• Afbilledes typisk ved hjælp af stolpediagrammer
Univariat analyse
• Statistiske mål for centraltendensen i en frekvensværdi – den typiske værdi
• Afhænger af måleniveau
• Modus: Den oftest forekommende værdi
• Median: Den ”midterste værdi”, dvs. den værdi, der ligger i midten, når enhederne er rangordnet
• Gennemsnit: Den gennemsnitlige værdi for enhederne
Univariat analyse
Nominal Ordinal Interval/forholdst
al
Modus + + +
Median + +
Gennemsnit +
Bivariat analyse
• Kigger på sammenhængene mellem to variable
• F.eks. en bivariat frekvenstabel/krydstabel, der viser om bestemte værdier på vore variable optræder sammen.
• Giver mulighed for at undersøge om der er sammenhæng mellem to variable
Bivariat analyse
• Sammenhænge: Vi undersøger, om fordelingen af enheder på en variabel er betinget af enhedernes værdier på en anden variabel
• Den første variabel er den afhængige
• Den anden variabel er den uafhængige
• Vi bruger den uafhængige variabel til at dele enhederne ind i grupper, og så undersøger vi, om fordelingen på den afhængige varierer på tværs af grupperne
Bivariat analyse
• Når man laver sine krydstabeller definerer man også sin afhængige og uafhængige variabel
• Når man laver krydstabeller procentuerer man, så det summerer til 100 pct på den uafhængige variabel
• Overvejelser omkring, hvad der er den uafhængige og afhængige variabel relaterer sig til overvejelser om tidsrækkefølge osv.
Bivariat analyse
• Statistiske mål: der beskriver forskellige slags sammenhænge mellem to variable
• Igen afhængig af, hvilket måleniveau ens variable er på.
• Mange muligheder for statistiske analyser
• Fi, Thau, gamma osv.
• I skal IKKE beregne statistiske sammenhængsmål!
Multivariat analyse
• Beskriver sammenhænge mellem tre variable eller flere.
• Giver f.eks. Mulighed for at kontrollere for påvirkning fra tredjevariabel
• Dekomponere en bivariat sammenhæng og undersøge, om der er tale om en direkte, medieret eller spuriøs sammenhæng.
Multivariat analyse
• Med mindre I holder jer til multivariate frekvensfordelinger med tre variable, bevæger I jer udover, hvad I skal kunne i dette fag.
• Det bliver hurtigt meget uoverskeligt.
Mere om induktiv statistik
• Nogle centrale begreber, som det er nyttigt at forstå, men som I ikke forventes at bruge.
• Induktiv statistik trækker på sandsynlighedsregning
• Det er nyttigt at vide for at forstå logikken bag det.
Inferens
• Når man går fra stikprøven til populationen
• Man undersøger, hvor sikker man kan være på, at estimatet (værdien i stikprøven) er lig med populationsparametren (Værdien i populationen, som man i virkeligheden er interesseret i)
• Man giver et konkret tal for sandsynligheden herfor eller et interval, hvor indenfor parametren med en vis sandsynlighed befinder sig
Inferens
• Ikke noget I forventes at arbejde med i opgaven
• I skal ikke teste for signifikans eller opstille konfidensintervaller
• Nyttigt begreb at forstå, når I generelt præsenteres for undersøgelser og resultater af undersøgelser
Inferens
• Stiller visse kvalitetskrav til stikprøven
• Idealet er sandsynlighedsudvælgelse: Alle enheder i populationen har en kendt sandsynlighed for at blive udtrukket
• Fordel: Resultaterne kan generaliseres med en kendt statistisk sikkerhed
• Dette sikres gennem tilfældighed i udtrækningen af de enheder, der kommer med i stikprøven
Signifikans
• En signifikanstest siger noget om sandsynligheden for at en sammenhæng man har fundet i sin stikprøve også findes i populationen.
• Man taler om forskellige signifikansniveauer – typisk 5 %
• Med et signifikansniveau på 5 % skal sandsynligheden for, at den sammenhæng, vi har fundet i stikprøven også findes i populationen, være større end 95 %
• Ellers tør vi ikke tro på, at sammenhængen ikke bare er en tilfældighed i vores stikprøve
Signifikans
• Signifikanstesten er en statistisk test, der baserer sig på sandsynlighedsregning
• Hvis signifikanstesten viser, at en sammenhæng er signifikant på f.eks. et 5% signifikansniveau
• Så vil det sige, at der kun er en 5 % sandsynlighed for at få det resultat, vi har fundet i stikprøven, hvis sammenhængen ikke også findes i populationen.
Signifikans
• Signifikanstesten fortæller os altså, hvor sikre, vi kan være på resultaterne af vores undersøgelse
• Det er meget sjældent, at de resultater fra undersøgelser, der bliver gengivet i medierne er blevet signifikanstestet.
• Så reelt ved man ikke, hvor sikker man kan være på, om den sammenhæng man har fundet, har noget på sig
Konfidensinterval
• Er et bånd rundt om det estimat, man har fundet i stikprøven.
• Indenfor dette bånd befinder værdien for populationen – ”den sande værdi” sig med en vis sandsynlighed
• Hvis man har et signifikansniveau på 5% vil værdien for populationen med 95 % sikkerhed befinde sig i kofidensintervallet
Konfidensinterval
• Tænkt eksempel: Hvis man I en stikprøve f.eks. har fundet, at 50,2% af respondenterne angiver at ville stemme på oppositionen, hvis der var valg i morgen, så ligger den sande stemmeandel på oppositionen med 95 % sikkerhed mellem 48,7% og 51,7%
Konfidensinterval
• Hænger sammen med den statistiske usikkerhed
• Så jo større en stikprøve, jo smallere bliver båndet – konfidensintervallet
• Jo større krav man stiller til sandsynligheden for at indfange den sande værdi i intervallet – jo bredere bliver båndet
Jeres analyser
• I skal ikke lave avancerede statistiske analyser
• Det kan være fint at holde sig til deskriptive univariate analyser – afhænger af jeres problemstilling
• Sørg i stedet for at opbygge et solidt argument.
• Forhold jer til kvaliteten af jeres stikprøve, undersøgelsesdesignet osv.
• Vær opmærksom på begrænsningerne
Opsamling
• Inden databehandlingen og analysen – kast et kritisk blik på stikprøven. Er kvaliteten i orden?
• Data kodes og gøres klar til analyse
• Deskriptiv eller induktiv statistik
• Univariat, bivariat eller multivariat analyse
• I skal ikke lave statistiske analyser – nøjes med frekvenstabeller og krydstabeller
• Sørg i stedet for at opbygge solide argumenter – tjek for tredjevariabel osv.
• Signifikanstest og konfidensintervaller er centrale begreber, når man infererer