198
Fri faglitteratur Arne Krokan Grunnlaget for statistisk analyse Nøkkeltall for univariate fordelinger Nøkkeltall og hyppigheter for bivariate fordelinger Sannsynlighet og sannsynlighetsfordelinger Inferens Hypotesetest Variablenes utvikling over tid Formelsamling og tabeller Copyright 1998 Kolle Forlag AS og Arne Krokan ISBN: 82-463-0017-2

forstå_statistikk

Embed Size (px)

Citation preview

Page 1: forstå_statistikk

Fri faglitteratur

�������������

Arne Krokan

Grunnlaget for statistisk analyseNøkkeltall for univariate fordelingerNøkkeltall og hyppigheter for bivariate fordelingerSannsynlighet og sannsynlighetsfordelingerInferensHypotesetestVariablenes utvikling over tidFormelsamling og tabeller

Copyright 1998 Kolle Forlag AS og Arne Krokan

ISBN: 82-463-0017-2

Page 2: forstå_statistikk

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 3: forstå_statistikk

Innhold

Introduksjon..................................................................................9

Seksjon 1: Grunnlaget for statistisk analyse

1. Informasjon og statistikk............................................................131.1. Informasjon over alle grenser....................................................................... 13

1.2. Statistikk er å beskrive virkeligheten ........................................................... 151.3. Beslutninger under usikkerhet...................................................................... 16

1.4. Informasjon, usikkerhet og nøyaktighet....................................................... 171.5. Forholdet mellom utvalg og populasjon....................................................... 17

2. Forarbeidet: Klargjøring av data ...............................................192.1. Fra spørreskjema til datamatrise .................................................................. 21

3. Fra datamatrise til informasjon .................................................253.1. Hyppighetsfordelinger.................................................................................. 25

3.2. Relative hyppighetsfordelinger .................................................................... 283.3. Kumulative hyppighetsfordelinger ............................................................... 29

4. Grafikk ........................................................................................314.1. Det gode diagram ......................................................................................... 314.2. Typer av grafiske framstillinger ................................................................... 32

4.3. Kakediagram ................................................................................................ 324.4. Søylediagram................................................................................................ 33

4.5. Histogram..................................................................................................... 334.6. Linjediagram ................................................................................................ 34

4.7. Flatediagrammet........................................................................................... 354.8. Kumulative frekvenspolygon ....................................................................... 36

4.9. Grafiske framstillinger ................................................................................. 37

5. Ulike typer variabler ...................................................................415.1. Målenivåer.................................................................................................... 42

5.2. Velg målenivå før undersøkelsen ................................................................. 43

6. Oppgaver til seksjon 1.................................................................45

Seksjon 2: Nøkkeltall for univariate fordelinger

7. Sentraltendens.............................................................................517.1. Aritmetisk gjennomsnitt ............................................................................... 527.2. Veid gjennomsnitt......................................................................................... 53

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 4: forstå_statistikk

SIDE 4 FORSTÅ STATISTIKK

7.3. Gjennomsnitt i grupperte fordelinger .......................................................... 54

7.4. Aritmetisk og veid gjennomsnitt.................................................................. 557.5. Median ......................................................................................................... 55

7.6. Median eller gjennomsnitt? ......................................................................... 587.7. Typetall ........................................................................................................ 58

7.8. Sentraltendens og målenivå ......................................................................... 59

8. Spredning ....................................................................................618.1. Gjennomsnittsavvik ..................................................................................... 62

8.2. Standardavvik .............................................................................................. 638.3. Kvartilavvik ................................................................................................. 66

9. Oppgaver til seksjon 2 .................................................................69

Seksjon 3: Nøkkeltall og hyppigheter for bivariate fordelinger

10. Univariat og multivariat analyse ................................................75

11. Tabellanalyse ...............................................................................7711.1. Hva er en tabell? .......................................................................................... 77

11.2. Prinsippet for tabellanalyse.......................................................................... 7711.3. Tolkning av tabeller ..................................................................................... 79

11.4. Større tabeller............................................................................................... 7911.5. Om prosentuering og analyse ...................................................................... 80

12. Korrelasjon og regresjon ............................................................8312.1. Samvariasjon og Pearsons r ......................................................................... 8512.2. Regresjon ..................................................................................................... 87

13. Rangkorrelasjon..........................................................................91

14. Oppgaver til seksjon 3 .................................................................95

Seksjon 4: Sannsynlighet og sannsynlighetsfordelinger

15. Litt sannsynlighetsregning .......................................................10315.1. Hendelser og utfallsrom............................................................................. 103

15.2. Klassisk sannsynlighet ............................................................................... 10415.3. Relativ hyppighet ....................................................................................... 105

15.4. Subjektiv sannsynlighet ............................................................................. 10615.5. Sannsynlighetsfordelinger ......................................................................... 106

15.6. Flere samtidige hendelser .......................................................................... 10715.7. Permutasjoner og kombinasjoner............................................................... 110

15.8. Kombinasjoner av flere begivenheter......................................................... 11215.9. Binomialfordelingen .................................................................................. 113

16. Normalfordelingen....................................................................11516.1. Normalfordelingens egenskaper ................................................................ 11516.2. Tegn fordelingen ........................................................................................ 119

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 5: forstå_statistikk

INNHOLD SIDE 5

16.3. Sammenligne ulike fordelingers verdier .................................................... 120

17. Oppgaver til seksjon 4...............................................................121

Seksjon 5: Inferens

18. Utvalg og normalfordeling .......................................................12518.1. Utvalgsfordelingen ..................................................................................... 126

18.2. Utvalgsfeilen .............................................................................................. 127

19. Gjennomsnittet i populasjonen.................................................12919.1. Sikkerhetsnivå ............................................................................................ 129

19.2. Konfidensintervall ...................................................................................... 129

20. Utvalgets størrelse.....................................................................131

21. Når utvalget er svært lite ..........................................................133

22. Oppgaver til seksjon 5...............................................................135

Seksjon 6: Hypotesetest

23. Generelt om hypotesetesting.....................................................13923.1. Fordelingen standardiseres ......................................................................... 14123.2. Forskjeller mellom to gjennomsnitt ........................................................... 142

23.3. Estimering og hypotesetest - oppsummering ............................................. 144

24. Kvalitative variabler..................................................................14524.1. Konfidensintervall for P ............................................................................. 145

24.2. Hypotesetest for forskjell på to andeler ..................................................... 14824.3. Type 1 og type 2 feil................................................................................... 149

25. Kjikvadrattest.............................................................................15125.1. Hvordan beregne kjikvadrat? ..................................................................... 15125.2. Frihetsgrader .............................................................................................. 152

25.3. Tolkning av kjikvadrat................................................................................ 15225.4. Firefeltstabeller .......................................................................................... 153

25.5. Større tabeller ............................................................................................. 15525.6. Statistisk avhengighet................................................................................. 156

26. Oppgaver til seksjon 6...............................................................157

Seksjon 7: Variablenes utvikling over tid

27. Indekstall...................................................................................16527.1. Enkle indekser ............................................................................................ 16527.2. Sammensatte indekser ................................................................................ 167

27.3. Veide indekser ............................................................................................ 167

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 6: forstå_statistikk

SIDE 6 FORSTÅ STATISTIKK

27.4. Konsumprisindeksen.................................................................................. 169

27.5. Deflasjon og inflasjon................................................................................ 170

28. Tidsrekkeanalyse .......................................................................17128.1. Multiplikativ trefaktormodell..................................................................... 173

28.2. Slik finner du trenden................................................................................. 17428.3. Beregning av sesongindeks........................................................................ 176

28.4. Prognoser ................................................................................................... 180

29. Oppgaver til seksjon 7 ...............................................................183

Seksjon 8: Formelsamling og tabeller

30. Formler ......................................................................................18930.1. Gjennomsnitt.............................................................................................. 18930.2. Standardavvik ............................................................................................ 189

30.3. Pearsons r ................................................................................................... 18930.4. Regresjonslinje........................................................................................... 190

30.5. Rangkorrelasjon ......................................................................................... 19030.6. Normalfordeling......................................................................................... 190

30.7. Utvalgsfeil.................................................................................................. 19030.8. Konfidensintervall for µ............................................................................. 19130.9. Utvalgsstørrelse ved beregning av gjennomsnitt ....................................... 19130.10. Hypotesetest for forskjeller på 2 gjennomsnitt .......................................... 191

30.11. Konfidensintervall for andeler ................................................................... 19130.12. Z-verdier for konfidensintervall og hypotesetest ....................................... 191

30.13. Hypotesetest for forskjeller mellom 2 andeler........................................... 19130.14. Utvalgsstørrelse ved kvalitative variabler .................................................. 192

30.15. Kjikvadrattest ............................................................................................. 19230.16. Tidsrekke med multiplikativ trefaktormodell ............................................ 192

30.17. Laspeyres indeks........................................................................................ 19230.18. Paasches indeks.......................................................................................... 192

30.19. Edgeworths indeks ..................................................................................... 192

31. Tabeller ......................................................................................19331.1. Tabell over Kjikvadrat................................................................................ 193

31.2. t - fordelingen............................................................................................. 19431.3. Tabell for normalfordeling ......................................................................... 195

32. Stikkordliste...............................................................................197

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 7: forstå_statistikk

Forord

Denne boken ble opprinnelig utgitt i 1995, og den har vært brukt i undervisningen ved høg-skoler der statistikk er en hjelpedisiplin, men ikke en vesentlig del av grunnutdanningen. For-fatteren har derfor lagt vekt på å gi studentene forståelse for statistikk og nytten av dette fagetinnen samfunnsfag og humaniora. Endringer i høgskolenes kursstruktur gjør at boken måtterevideres og tilpasses dersom den fortsatt skulle brukes. Dette var forfatteren ikke villig til,og derfor legger han den heller ut som gratisvare på forlagets hjemmeside.

Selv om boken ikke lenger dekker noe konkret høgskolekurs, er den like anvendbar for å for-stå statistikk. Det er derfor Kolle Forlag og forfatteren gir tillatelse til at den kan lastes ned,skrives ut og brukes fritt. Slik vil boken være tilgjengelig for alle som kan ha glede av den.

Fra forfatterens opprinnelige forord til bokutgaven henter vi noen avsnitt som gir god innsikti hans motiver for å skrive denne boken:

Statistikk er et fag som mange lærer ved å pugge formler, slik at de kan sette inn noen tall,regne ut et svar og stå til eksamen. Du kan “lære” statistikk på denne måten, slik at du kangjengi det som står i boka, uten egentlig å forstå så mye av hva statistikk egentlig er.

Å forstå statistikk krever imidlertid en annen type innsikt. Det krever kunnskap om hvorforformlene er slik de er og hva resultatene egentlig forteller oss. Denne innsikten kan du få påto måter: Enten som følge av svært gode kunnskaper i matematikk, eller ved å bruke analo-gier, der kunnskaper sammenholdes med annen kunnskap og forståelsen bygges litt etter littunder arbeidet med stadig nye problemer. Denne boka bygger i hovedsak på den siste meto-den.

Statistikk lærer dere bare ved å arbeide med problemløsning, bygge stein på stein til dere haropparbeidet forståelsen for faget. Faget er, i motsetning til mange andre samfunnsvitenskape-lige og humanistiske fag, slik at det den ene kunnskapsblokken forutsetter den andre. Det erderfor vanskelig å lære statistikk etter “skippertaksmetoden”. Håpet er at denne boka kanbidra til å lette innlæringen, samt å gi forklaringer på spørsmål som oppstår når en arbeidermed noe vanskelig.

Arne Krokan, 1995

Forfatteren, Arne Krokan, er førsteamanuensis ved Norges Markedshøyskole. Han er magis-ter i sosiologi og har tilleggstudier i psykologi og statistikk. Han har også doktorgraden iinformasjonsteori, og han har skrevet flere vitenskapelige og populærvitenskapelige artikler.Han har også tidligere selv skrevet flere bøker samt vært medforfatter i andre.

Kolle Forlag, 2000

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 8: forstå_statistikk

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 9: forstå_statistikk

IntroduksjonSom nyansatt medarbeider i markedsavdelingen ble Gunnar A vist rundt og presentert forendel av de ansatte. Han sa han ville bruke den første tiden til å sette seg grundig inn i firma-ets ulike arbeidsområder, før han tok stilling til hvordan det videre arbeidet skulle gripes fatt.

Markedssje-fens markeds-undersøkelser

Den første arbeidsdagen gjorde han seg mange tanker. I møtet med avdelingssjefene vistemarkedssjef Karlsen markedsandelene til firmaets ulike produkter og hvordan de hadde gjen-nomført markedsundersøkelser for å teste forbrukernes kjennskap til dem. Det overrasketGunnar at på det nyeste produktet vurderte kvinner i gjennomsnitt produktkvaliteten til åvære høyere enn det menn gjorde, men samtidig var det større forskjeller i kvinnenes svar.Hva var det Karlsen kalte det? Gunnar synes å huske noe om spredning fra statistikkurset hantok i studietiden, men han ville finne fram den gamle boken og sjekke for å være sikker på athan skjønte hva Karlsen hadde ment. Undersøkelsene var gjennomført av studenter somøvelsesoppgaver i et kurs, men de hadde bare spurt et utvalg av de potensielle kundene. Vardet da egentlig mulig å stole på resultatene? Rent intuitivt tenkte han at det måtte være enviss usikkerhet når de ikke spurte alle potensielle kunder. Han husket vagt at slik usikkerhet istatistiske undersøkelser kunne kontrolleres, men ikke hvordan. Dette måtte han også sjekke.

Kjønn og pro-duktkunnskap

Markedssjefen viste også fram tabeller og snakket om korrelasjon. Noen ganger var det kor-relasjon og andre ganger ikke. Under tittelen Kjønn og produktkunnskap sto oversikten somviste at kvinner hadde bedre produktkjennskap enn menn. Der stod det også at korrelasjonenvar 0,3 og at den var signifikant på 5% nivået. Han oppfattet at resultatet dermed kunne bru-kes i planleggingen, men igjen hadde han glemt hva signifikansnivå egentlig betydde. Hanfikk visst undersøke dette også for å være på høyde med de andre.

Sesongvaria-sjoner i salget

Sesongvariasjoner hadde han i hvert fall greie på. I sin forrige jobb solgte han sportsutstyr ogder beregnet de sesongindekser for ulike typer produkter. Ved å se på salgstall for flere år,kunne de beregne trenden i salgsutviklingen. Slik fikk de fram prognoser for det kommendeåret på grunnlag av trender og sesongvariasjoner. De brukte et dataprogram til de nøyaktigeberegningene, og da kunne de planlegge produksjonen og distribusjonen slik at gjennom-snittlig lagertid for alle produktene ble redusert med 20 dager. De hadde spart inn over 2 mil-lioner kroner pr år, bare ved å bruke en slik enkel modell for produksjonsplanleggingen.Kunne han gjøre det samme i denne bedriften også? Han noterte problemstillingen for å tadet opp med produksjonssjefen senere.

Innkjøpssje-fens varepris-indekser

Innkjøpssjef Olsen sa at prisindeksene utviklet seg forskjellig for de ulike varegruppene somble kjøpt inn til produksjonen. Noen varer var blitt rimeligere, mens andre igjen var blittdyrere. Alt i alt forventet han at innkjøpskostnadene ville være omtrent som budsjettert forinneværende år. Indeks, tenkte Gunnar, det er greit. Alle vet jo hva konsumprisindeks er.

Produksjons-sjefens kvali-tetskontroll

Produksjonssjefen var mest opptatt av kvalitetskontroll. De hadde gjennomført en undersø-kelse som viste at andelen forkastede enheter var under 2%. Gunnar tenkte at det måtte værebra. I produksjon av mikroprosessorer kunne vrakprosenten bli hele 85%. Hvordan kunne delikevel være sikre på at kvaliteten var god nok på det som ble sendt ut, når noen produkter varbeheftet med feil? Kvalitetskontrollen tok utgangspunkt i en nøyaktig angitt spesifikasjon avdet ferdige produktet. De ferdige produktene ble målt, og avviket fra spesifikasjonen blenotert, enten den var i positiv eller negativ retning. Siden lagde de grafiske framstillinger, ogGunnar kjente med en gang igjen formen på framstillingen av produksjonsdataene. Dette var

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 10: forstå_statistikk

SIDE 10 FORSTÅ STATISTIKK

letsjefenå pro-

ealyser fattestørre,

normalfordelingskurven. Den kjente han igjen fra gymnaset, fordi karakterene til elevene bfordelt etter denne kurven. Ganske urettferdig syntes han dengang. Nå hadde produkbrukt den samme kurven til å lage prognoser for hvor mange reklamasjoner de ville få pduktene.

Statistikk i økonomiske analyser

Gunnar kunne lese årsmeldinger og finne fram til nøkkeltall uten problemer. Statistikk haddhan derimot tatt lettvint på. Han skjønte at det kunne han ikke lenger. Økonomiske antar utgangspunkt i regnskapsdata som er “historiske”. Statistikk derimot, gir støtte for åbeslutninger på forhånd. Begge deler går ut på å finne nøkkeltall som sier noe om en sammensatt og mer komplisert virkelighet.

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 11: forstå_statistikk

Seksjon 1

Grunnlaget for statistisk analyse

Hvorfor arbeider vi med statistikk og hva er målet med all statistisk analyse? Det er å skapeinformasjon som grunnlag for ny kunnskap, med utgangspunkt i innsamlede data. Vi startermed noen av de problemer statistisk teori kan løse for oss og en del av de forutsetningene teo-riene hviler på. I annet kapittel ser vi på hvordan vi klargjør data for analyse og de mestgrunnleggende begrepene i all statistisk analyse: Enhet, variabel og verdi.

I tredje kapittel ser vi på de to hovedprinsippene for å forenkle mengden av data i datamatri-sen: Hyppighetsfordelinger og nøkkeltall. Vi blir kjent med ulike typer hyppighetsfordelin-ger.

Fjerde kapittel tar utgangspunkt i ulike typer variabler og forskjellige hyppighetsfordelingerog hvordan data kan framstilles grafisk.

Femte kapittel danner overgangen til seksjon 2. Det er et vesentlig skille mellom ulike typerav variabler. Dette skillet bestemmer hvilken metode som kan brukes i analysen og hvilketnøkkeltall som framstiller situasjonen mest korrekt.

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 12: forstå_statistikk

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 13: forstå_statistikk

1. Informasjon og statistikk

1.1. Informasjon over alle grenser

Informasjons-avhengighet

I 1987 ble det utgitt en jubileumsutgave av The New York Times som inneholdt mer informa-sjon enn en bonde på 1800-tallet mottok i hele sitt liv. Så var heller ikke bonden særlig avhen-gig av informasjon når han skulle gjøre sitt daglige arbeide. I dag er situasjonen imidlertid enhelt annen. De fleste mennesker er avhengige av tilgang til korrekt informasjon dersom deskal kunne utføre arbeidet sitt på en tilfredsstillende måte. Svært mange har som jobb åskape, behandle eller spre informasjon.

Informasjons-flom

Noen yrkesgrupper har allerede levd i en informasjonsflom i lang tid. Vi må for eksempel gåhelt tilbake til midten av forrige århundre for å finne en lege som kunne klare å lese alt somble publisert innen det fagområdet som var relevant for hans yrkesprakis. Skulle en forsøke ågjøre det samme i dag, måtte vi lese 8 timer hver dag i 55 år bare for å komme gjennom1985-årgangen av alle relevante tidsskrifter. Det sier seg selv at ingen kan klare å lese altdette. Derfor er det viktig at vi skaffer oss kunnskaper i informasjonsbehandling, slik at viblir i stand til å sile ut den informasjon vi trenger og framskaffe den når vi måtte ha bruk forden.

1.1.1 Å forstå informasjon

Informasjons-kløften

Det enorme tilbudet av informasjon som vi blir omgitt med i dag er selvsagt et gode, men deter også med på å skape problemer for endel mennesker. For eksempel er det ikke alltid slik atalle forstår den “informasjonen” som de mottar. En undersøkelse viste at 60% av forsikrings-kundene ikke visste hva deres forsikringer egentlig dekket. Andre undersøkelser viser at ikkealle skjønner hva som sies på Dagsrevyen. Hva betyr det for eksempel at prisindeksen har økt2 prosentpoeng? Det betyr nemlig ikke at prisene har økt med 2%. Disse forskjellene i ferdig-heter til å skaffe seg og bruke informasjon, gir opphav til nye skillelinjer mellom menneskenei et samfunn og mellom mennesker i ulike samfunn. Slike skillelinjer betegnes gjerne forinformasjonskløfter

Informasjons-kompetanse

På samme måte som både jordbruks- og industrisamfunnet krevde en spesiell kompetanse,trenger en også spesialkompetanse for å arbeide med informasjon. Denne kompetansenomfatter ulike typer informasjon. Noe har med kunnskaper i språk å gjøre, andre med evne tilå lese bilder kritisk og atter andre kunnskaper handler om å forstå tall, eller numerisk infor-masjon. Denne boka handler om denne siste typen kompetanse.

1.1.2 Data, informasjon og kunnskap

Det finnes svært mange oppfatninger av hva informasjon er, og omtrent like mange meningerom hva som er data. For å forstå hvilken betydning faget statistikk har innen informasjonsbe-handling, må vi derfor først se på forholdet mellom informasjon og data, siden vi antar atmålet for all bruk av statistikk er å framskaffe informasjon.

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 14: forstå_statistikk

SIDE 14 FORSTÅ STATISTIKK

n kaneskerstertig forr.

ogsåes vedr med

andre.r.

n enm hva

for-

ellomruk av

data?delerjon. flesteataene er bareelsentig åetoden data eller

Kan alt måles? Både informasjon og data refererer til en eller annen “virkelighet”. Virkeligheten kan være etfysisk objekt, som for eksempel en gjenstand, en vare eller et menneske. Virkeligheteogså være noe som ikke er direkte observerbart. Dette gjelder blant annet for mennfølelser og holdninger. Ulike følelser og holdninger kommer imidlertid til uttrykk på måsom kan måles. Holdninger kan for eksempel måles ved å spørre om hva som er vikfolk, hvor viktig noe er eller ved å spørre om hva de legger vekt på i ulike valgsituasjone

I praksis er språket vårt redskap for å beskrive “virkeligheten”. Språket refererer til fenome-ner som er utenfor oss, til det vi kan kalle referanser.

Referansen kan være noe fysisk og observerbart, som for eksempel mennesker. Den kanvære noe som ikke er “virkelig”, for eksempel Pegasus, eller noe som bare kan beskrivhjelp av metaforer eller andre bilder. Eksempel på dette siste er nettopp forhold som hamenneskers psyke å gjøre. Ved hjelp av språket er vi i stand til å kommunisere medmennesker. Ordene i språket refererer til våre “indre bilder” eller begreper om referanseneDenne sammenhengen er framstilt i en modell som er kalt Ogdens trekant i figuren ove

En sykkel er en referanse som finnes i virkeligheten. I hjernen finnes et indre “bilde” eller etbegrep om sykkelen. Ordet sykkel henter fram dette bildet. Selv om vi alle kjenner igjesykkel når vi ser den, er det ikke sikkert at vi har det samme indre bildet eller begrep oden er. Dette forholdet mellom språk, referanser og begrepsverden er nærmere behandlet isemiotikken. Her skal vi bare se på det, fordi det er viktig for å forstå forholdet mellom inmasjon og data.

Hva er infor-masjon?

Dataene representerer virkeligheten eller referanser. Derfor er det en nær kobling mdata og virkeligheten. Når dataene blir koblet sammen med en person som skal gjøre bdem, har vi også grunnlag for å få informasjon. Derfor kan vi si at

Når blir data til informa-sjon?

La oss for eksempel se på tallene 4, 12 og 14. Er disse tallene informasjon eller er deTallene refererer til en virkelighet, derfor er de i alle fall data. Men uten at i det minste av denne virkeligheten er kjent for mottakeren, kan tallene imidlertid ikke bli informasDersom du nå får vite at tallene representerer alderen på tre barn i en familie, kan devære enige i at de har fått informasjon og at tallene ikke lenger bare er data. Nå er dplassert i en sammenheng, en kontekst, som gjør at de har mening for mottakeren. Detdata som har slik mening som er nyttige for brukerne av informasjon. Denne erkjennstiller store krav til den som skal utarbeide og sende informasjon. Derfor er det vikbeherske ulike måter å presentere informasjon og data på, slik at du kan velge den msom er best egnet for den enkelte mottaker. I følge vår definisjon på informasjon, kanbare bli informasjon i de situasjonene mottaker har bruk for dem og bare dersom hanhun faktisk kan forstå dem.

Begrep

Ord Referanse

Ogdens trekant

INFORMASJON: data som kan være nyttige for en som kan bruke dem eller datasom er satt inn i en bestemt sammenheng.

KUNNSKAP oppstår når flere informasjonselementer kobles sammen til en logiskenhet. Selve hensikten med å bruke informasjon er å kunne skape ny kunnskap.

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 15: forstå_statistikk

INFORMASJON OG STATISTIKK SIDE 15

1.2. Statistikk er å beskrive virkeligheten

Frekvensfor-deling eller hyppighetsfor-deling

Den mest grunnleggende delen av statistikken handler om ulike metoder for å beskrive virke-ligheten. Slike redskaper trenger vi fordi vi som mennesker bare har en begrenset kapasitet tilå behandle data og informasjon. Det går greit å huske alderen på de tre barna i familien over,men hvordan skal du huske alderen til 100 forskjellige barn, eller 1000 eller 1 million? Selv-følgelig går det ikke an. Selv om vi ikke kan huske de enkelte barnas alder, kan vi likeveldanne oss et bilde av hvor gamle barna i en gruppe på 1000 er. Vi kan telle opp antallet somer på hvert alderstrinn, og stille resultatene opp i en tabell. En slik tabell kalles en frekvens-fordeling eller hyppighetsfordeling. Dette er den enkleste måten vi kan forenkle store data-mengder på.

Aggregering av data fra individ til gruppe

I stedet for at vi kjenner alderen til hvert av barna, vet vi nå hvor mange barn som er på hvertalderstrinn. Vi har skaffet oss informasjon om en gruppe barn, men vi har mistet den infor-masjonen vi hadde om hvert enkelt barn. Dette er prisen vi betaler for å forenkle dataenevåre. Det vi faktisk gjør, er å aggregere data til informasjon. Vi setter dataene inn i en sam-menheng, og i stedet for å kunne si noe om hver enkelt person, sier vi noe om en gruppe per-soner. Denne teknikken brukes ofte i statistikken. Vi finner fram til grupper som er like på etteller flere kriterier, og så beskriver vi disse gruppene, eventuelt sammenligner flere grupper.

Kriteriene vi velger grupper etter, kan være svært enkle. Vi kan for eksempel sammenlignemenn med kvinner eller personer som bor på forskjellige steder med hverandre. I markedsfø-ring arbeider vi ofte med ulike segmenter av kunder. Da bruker vi gjerne mer komplisertemåter å dele personene inn i grupper på. Vi kan for eksempel ta hensyn både til en personskjønn, alder, kjøpekraft og sosiale status. Alle personer som på denne måten defineres somtilstrekkelig like, sier vi tilhører samme segment.

Psykografisk segmentering

Segmentene eller gruppene kan en finne fram til på to ulike måter. En kan sette seg ned og“lage” en beskrivelse av gruppen. Psykografisk segmentering bygger på at personer medsamme psykologiske karaktertrekk plasseres i samme segment. Ved å bruke en slik teknikk,kan forbrukerne for eksempel deles i fire grupper, bestående av personer som er henholdsvisbehovsstyrte, ytrestyrte, indrestyrte og personer som er en kombinasjon av de tre første kate-goriene. I praksis bruker vi ulike tester for å finne ut hvem som tilhører hver av gruppene.

Segmentering etter egenska-per

En annen måte å segmentere på, er å se nøyere på hvordan folk faktisk “er”. Dette kan beskri-ves på ulike måter, for eksempel via de opplysninger som finnes i en bedrifts kunderegistereller ved opplysninger som samles inn via spørreskjema, intervju eller lignende. Når en harkartlagt personenes egenskaper på flere områder, sorteres de i grupper. Hver gruppe vil dabestå av personer som er tilstrekkelig like langs de kriteriene vi har vurdert, til at de kanbeskrives på en enhetlig måte.

Denne siste metoden for å gruppere personer kan gjøres “automatisk” og framgangsmåten fordette finnes i statistikernes verktøykasse.

ClusteranalyseDisse tilnærmingene representerer to vidt forskjellige måter å segmentere et marked på. Denførste metoden bygger på en forestilling om at vi vet hvilke kriterier det er viktig å legge tilgrunn når vi lager segmentene, mens den andre metoden kan ta hensyn til alle data vi har omden enkelte person eller kunde. Ut fra dette konstruerer vi gruppene og vi må selv finne enhensiktsmessig måte å beskrive gruppen på. Denne siste teknikken kalles clusteranalyse.Metoden er mye brukt nettopp innen markedssegmentering.

TabellanalyseSom metode hører clusteranalyse ikke inn i en grunnbok i statistikk. Clusteranalysen brukesprimært til å samle enhetene i grupper. Når dette er gjort, går en videre med analyse av grup-

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 16: forstå_statistikk

SIDE 16 FORSTÅ STATISTIKK

re for-

r somskjel-lterna-. Vedi si ate usik-

erso-e at

pp- hele

n kon-et som

n er dukart- gjen-t de ir denpesieltn- hele

e for framedan fort vil sii fått

n som infor-

åopu-sjonen.r viestima-

pene. I denne boka finner du også endel teknikker som er nyttige når du skal analyseskjeller mellom ulike grupper. Tabellanalyse er den mest brukte metoden til dette.

1.3. Beslutninger under usikkerhet

Flere valgmu-ligheter gir større usikker-het

Det er en utbredt oppfatning at informasjon brukes til å redusere usikkerhet. Dette eoftest tilfellet når en bruker informasjon til å kartlegge konsekvensen av å velge de forlige handlingsalternativer som kan være aktuelle. Dersom en søker informasjon om ative handlinger, det vil si en forsøker å utvide handlingsrommet, øker også usikkerhetenat en får flere alternativer å velge mellom, blir det vanskeligere å velge. Følgelig kan vvi øker usikkerheten i en valgsituasjon. Informasjon kan derfor både redusere og skapkerhet.

Populasjon, univers og utvalg

Dersom vi kjenner de aktuelle dataene for alle personer vi vil vite noe om, utgjør disse pnene en populasjon eller et univers. I mange tilfeller er imidlertid populasjonene så stordet ikke er praktisk eller økonomisk mulig å skaffe tilveie data fra hele populasjonen. Da bru-ker vi i stedet et utvalg fra populasjonen. Når vi trekker ut bare endel av populasjonen, ostår også usikkerhet dersom vi vil at resultatene fra utvalget skal fortelle oss noe ompopulasjonen. I statistikken finnes metoder som gjør at vi under visse forutsetninger katrollere denne usikkerheten. Vi kan dermed beregne svært nøyaktig hvor stor usikkerhoppstår fordi vi gjør våre analyser på data fra et utvalg, i stedet for hele populasjonen.

I denne boka vil du lære om prinsippene for å beregne en slik usikkerhet.

Inferens Anta at du arbeider med en markedsanalyse for Vinmonopolet. I denne sammenhengeinteressert i å finne ut hvor stor konkurranse Vinmonopolet har fra smuglersprit. Du vil legge hvor stor andel av befolkningen som kjøper smuglersprit og hvor mye de kjøper inomsnitt. I et tilfeldig utvalg på 200 personer finner en at 6% kjøper smuglersprit og agjennomsnitt kjøper ca 5 liter pr år. Disse dataene gjelder imidlertid strengt tatt bare fogruppen eller det utvalget av personer som du har undersøkt, men egentlig er ikke du sinteressert i disse personene. Du er interessert i alle personer som kan være potensielle kuder for Vinmonopolet. Derfor ønsker du å generalisere funnene fra utvalget til å gjeldepopulasjonen av potensielle kunder for polet. En slik generalisering kalles for inferens.

Inferens ska-per usikkerhet

Ved inferens oppstår alltid usikkerhet. Tallene fra utvalget er nå ikke uten videre gyldigpopulasjonen, men det kan være sannsynlig at utvalgstallene ikke er så svært forskjelligetallene for hele populasjonen. Hvis vi tar hensyn til en rimelig feilmargin, kan det til og hende at tallene fra utvalget faktisk kan brukes til å beskrive hele populasjonen. Dette keksempel angis ved at andelen som kjøper smuglersprit oppgis til å være 6% ± 2% (deet sted mellom 4 og 8 prosent) og at de i gjennomsnitt kjøper 5 ± 1 flasker. Nå har vinformasjon om hele populasjonen, samtidig som vi har tatt hensyn til den usikkerheteoppstår når vi skal fatte beslutninger som omfatter flere personer enn dem vi samlet innmasjon fra.

Parameter og estimator

Et tall som beskriver en hel populasjon kalles for en parameter. For å finne en parameter, mvi undersøke hele populasjonen. Hvis vi undersøker et utvalg som bare utgjør en del av plasjonen, kan vi bare bruke resultatene våre til å få et anslag for parametrene i populaEt slikt anslag kalles for en estimator. For å ta hensyn til den usikkerheten som oppstår nåarbeider med utvalgsundersøkelser, presenteres resultatene ofte i form av en intervalltor. Dette vil bli nærmere behandlet i kapittel 15 om konfidensintervall.

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 17: forstå_statistikk

INFORMASJON OG STATISTIKK SIDE 17

1.4. Informasjon, usikkerhet og nøyaktighetNår vi skal finne en estimator for en parameter, får vi dermed to problemer. Hvor nøyaktig erestimatoren vår i forhold til parameteren og hvor sannsynlig er det at estematoren vår også erlik parameteren?

Jo større nøy-aktighet, desto større usikker-het

Problemet kan illustreres med følgende eksempel. Tenk at du skal vurdere en tilfeldig ukjentpersons alder. Ved første blikk ser vedkommende kanskje ut til å være i “tjue-årene,” og for åvære sikker så angir du vedkommendes alder til et sted mellom 15 og 35 år. Da du blir bedtom å presisere dette, oppgir du alderen til mellom 20 og 30 år, men nå er du ikke lenger likesikker som du var i ditt første svar. Dersom du blir bedt om å presisere svaret ytterligere, blirdu enda mindre sikker (eller mer usikker) på om dette er korrekt.

Du ser at du kan oppgi et lite nøyaktig anslag (15-35 år) med stor sikkerhet, mens sikkerhetensynker når du blir bedt om å presisere svaret.

Nøyaktig den samme logikken gjelder innen statistikken. Jo mer nøyaktig du vil beskrive etestimat, jo mindre sikker kan du være på at resultatet er korrekt. I statistikken er det imidler-tid en viktig forskjell fra eksempelet over. Vi kan beskrive både nøyaktigheten og sikkerheteneksakt. Siden konsekvensen av å treffe beslutninger på grunnlag av feil informasjon til tiderkan bli stor, bruker vi å oppgi sikkerheten som sannsynligheter, vanligvis mellom 95% og99,9%. I det siste tilfellet er det altså en av tusen sjanser for at svaret ditt skal være galt, mensdu med 95% sikkerhet vil ta feil en av tyve ganger.

Motsetning mellom sikker-het og nøyak-tighet

Når vi allerede har utført en utvalgsundersøkelse, er det alltid motsetninger mellom kravenetil høy sikkerhet og stor nøyaktighet. Dersom en vil bestemme begge deler helt fritt selv, måen ta hensyn til dette når en skal bestemme størrelsen på det utvalget som skal undersøkes.Denne problemstillingen blir behandlet i kapittel 16.

1.5. Forholdet mellom utvalg og populasjonVanligvis er vi mest interesserte i å beskrive eller analysere populasjonen. Av praktiske ogøkonomiske grunner må vi imidlertid ofte undersøke et utvalg fra populasjonen i stedet. Fun-nene i utvalget generaliseres deretter til også å gjelde populasjonen.

Konfidensin-tervall

Forholdet mellom utvalget og populasjonen kan derfor betraktes fra to sider. Dersom vi tarhensyn til den usikkerhet som oppstår, kan vi uten problemer generalisere utvalgsdataene tilogså å gjelde populasjonen. Vi må imidlertid også ta høyde for at dataene i utvalget ikke er ennøyaktig gjenspeiling av dataene i populasjonen. Derfor må vi oppgi tallene for populasjonenmed et visst slingringsmonn. Dette kalles for et konfidensintervall.

HypotesetestVi kan imidlertid også gå ut fra populasjonen og undersøke om våre antakelser eller hypote-ser om populasjonen kan gjenfinnes i utvalget. Dermed kan vi bruke utvalgsundersøkelsen tilå sjekke om våre hypoteser eller antakelser om populasjonen synes rimelige.

Slike antakelser om populasjonen kan beskrives på ulike måter, både verbalt og ved å formu-lere matematiske modeller og sammenhenger.

HypoteseEn antakelse kan for eksempel være at menn og kvinner som arbeider i reklamebransjen harsamme lønnsnivå. Denne antakelsen kan gjøres om til et problem som kan behandles statis-tisk ved for eksempel å undersøke om menn og kvinner i gjennomsnitt har lik lønn. En slikpåstand om populasjonen, kalles en hypotese. I vårt eksempel blir hypotesen: Menn og kvin-ner tjener i gjennomsnitt like mye.

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 18: forstå_statistikk

SIDE 18 FORSTÅ STATISTIKK

l vår er

g

rhol-

Ved hypotesetester finner vi ut om de dataene vi har fra utvalgsundersøkelsen gir støtte tiantakelsen vår. Dette gjør vi i praksis ved å regne ut sannsynligheten for at hypotesenkorrekt, basert på dataene fra utvalget.

Når vi beregner et konfidensintervall går vi motsatt vei. Da tar vi utgangspunkt i utvalget oberegner hvordan tallene (parametrene) i populasjonen sannsynligvis er.

.

Hypotesetesting og konfidensintervall representerer dermed to ulike tilnærminger til fodet mellom utvalg og populasjon.

Utvalg Populasjon

Hypotesetest

Konfidensintervall

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 19: forstå_statistikk

2. Forarbeidet: Klargjøring av dataFør vi kan begynne å bruke de statistiske teknikkene, må dataene klargjøres for analyse.Dette gjøres ved at resultatene fra en spørreundersøkelse overføres til en datamaskin, dervariablene er kolonner og enhetene rader. Hver celle inneholder en enhets verdi på en bestemtvariabel. Ved store undersøkelser utgjør dette formidable datamengder. Vi må derfor bruketeknikker som gjør at vi kan redusere datamengden til noe som ikke er for komplisert å forståfor oss mennesker. Vi har dessverre i denne sammenheng en noe begrenset hjernekapasitet.

I hverdagsliv og arbeid bruker vi informasjon i fire forskjellige sammenhenger. For det førstenår vi skal kartlegge hvilke handlingsalternativer som er mulige i en valgsituasjon, dernestnår vi skal beslutte hvilket av alternativene vi skal velge. Vi er imidlertid også interesserte i åkartlegge hva andre gjør, det vil si andres handlinger, og endelig av å dokumentere hva vi selvfaktisk har gjort i en bestemt situasjon

Handlings- eller beslut-ningsproblem

Som oftest er utgangspunktet når vi bruker de forskjellige statistiske teknikkene at vi entenskal kartlegge hvilke handlingsalternativer som er mulige (handlingsproblem), eller hva kon-sekvensen er av å velge ett av alternativene (beslutningsproblem). Utgangspunktet for enmarkedsanalyse kan være begge disse alternativene, og ofte er det slik at for å løse et beslut-ningsproblem, må du også analysere handlingsproblemer.

Figur 2.1. Sammenhengen mellom markedsanalyse og statistikk

Anta for eksempel at problemet er sviktende salg av en merkevare. Handlingsproblemetbestår i å kartlegge mulige forklaringer på det synkende salget, samt å finne ut hva en skalgjøre for å bøte på problemet. Beslutningsproblemet består i å finne ut hvilket av alternati-vene som kan ha størst forklaringskraft, og som en følgelig bør velge.

Problemana-lyse

For å identifisere beslutningsproblemet, må en sette opp en oversikt over mulige forklaringer.Denne fasen i arbeidet kalles for problemanalysen.

Kan årsaken til salgssvikten være at merket ikke er godt nok innarbeidet i markedet og der-med ikke kjent nok? Er distribusjonsapparatet godt nok, eller kan det tenkes at produktet ikkenår fram til markedet? Hvordan er forholdet mellom pris og kvalitet? Er vårt produkt likegodt som konkurrentenes og har i så fall kundene kjennskap til dette? Er det kommet nye pro-

Konklusjon oganbefalinger

Beslutnings-problem

Problem-analyse

Informasjons-innsamling

Kvalitetstesting* estimeringer* hypotesetest

Beskrivendestatistikk

Markedsanalyse og statistikk

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 20: forstå_statistikk

SIDE 20 FORSTÅ STATISTIKK

kerne

orjon.l, og

rinfor-nnetonser,ørernorsk

rinfor-

v for åfeltettativede

enulasjo-

maerm kal-nalyser

i enessige

dukter på markedet eller har konkurrentene styrket sin innsats, enten direkte mot forbrueller i markedsføringen overfor distribusjonsapparatet?

I problemanalysen identifiserer vi ulike forklaringer som kan bidra til å belyse problemet. Få finne ut hvilke forklaringer vi bør tillegge mest vekt, må vi imidlertid ha mer informasDet naturlige er derfor først å vurdere forklaringer der tilgangen på informasjon er enkederetter vurdere alternative forklaringer der det er vanskelig å skaffe informasjon.

Figur 2.2. Typer informasjon

Forretningsin-formasjon

I tredje fase av markedsanalysen samler vi inn aktuelle data. Ulike former for sekundæmasjon finnes tilgjengelig gjennom publiserte statistikker, forskning/utredninger og amateriale. Bruk av mer spesialiserte kilder som for eksempel analyse av stillingsannkartlegging av konkurrentenes reklameutgifter, utvikling av nye produkter/patenter, tilhet spesialområde som kalles “business intelligence”. Det finnes ikke noe dekkende uttrykk for dette, men en del bedrifter kaller arbeidsfeltet forretningsinformasjon.

Eksplore-rende fors-kningsdesign

Når en er ferdig med å vurdere alle problemer som kan belyses ved hjelp av sekundæmasjon, kan situasjonen enten være at en har funnet en tilfredsstillende forklaring på proble-met og dermed er i stand til å utarbeide nødvendige løsninger, eller en kan ha behosamle inn mer informasjon. Avhengig av problemets art og ens kjennskap til problemanvendes kvalitative eller kvantitative metoder ved innsamlingen av primærdata. Kvalimetoder brukes mest når en ikke vet presist hva en skal undersøke. En slik framgangsmetokallesofte for et eksplorerende forskningsdesign.

Kvantitative teknikker

Ulike kvantitative teknikker brukes vanligvis når en har mer presise forestillinger om hvaskal undersøke, samt ønsker anslag for størrelser som gjennomsnitt og andeler i popnen.

Samfunnsvi-tenskapelig metodelære

Problemanalysen og utforming av måleinstrumenter for datainnsamlingen er typiske tesom blir behandlet i markedsanalysen. Hele arbeidsgangen bygger imidlertid på det soles samfunnsvitenskapelig metodelære. Denne boka tar bare for seg beskrivelser og aav kvantitative data, det som i figuren er kalt kvalitetssikring.

Det er imidlertid viktig å være oppmerksom på at en vesentlig del av kvalitetssikringenmarkedsanalyse foregår allerede i problemanalysen og i utformingen av hensiktsmmåleinstrumenter, dersom en velger å bruke egeninnsamlede data.

Informasjonsinnsamling

Sekundærinformasjon Primærinformasjon

Kvalitativ Kvantitativ

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 21: forstå_statistikk

FORARBEIDET: KLARGJØRING AV DATA SIDE 21

2.1. Fra spørreskjema til datamatrise

EnhetVi forestiller oss at du har samlet inn data ved hjelp av et spørreskjema. Foreløpig er dataenebare tilgjengelige ved å bla i skjemaene. Hvert skjema inneholder data om en person eller enenhet.

Enheten er det viktigste grunnelementet i all statistisk behandling av data. I vårt eksempel erenheten en person, men enheten kan også være ting, for eksempel varer, eller hendelser somfor eksempel en reise.

Figur 2.3. Fra spørreskjema til datamatrise

DatamatriseI spørreskjemaene er det alt for detaljert informasjon til at vi kan klare å nyttiggjøre oss den.Derfor må vi redusere mengden ved hjelp av ulike statistiske teknikker. For å klargjøre data-ene for videre bearbeiding, overfører vi dem til en datamatrise.

Dette er en stor tabell, der hvert spørreskjema får tildelt en linje. I kolonnene finner vi sva-rene som personene har gitt på hvert av spørsmålene.

VariablerDatamatrisen kan sammenlignes med et regneark. Linjene består av enhetene og kolonnenebestår av variablene.

Variablene er utvalgte dimensjoner som beskriver enhetene, altså de som har svart på spørs-målene i spørreskjemaet.

Dersom enhetene for eksempel er varer, kan variablene som beskriver disse være pris, stør-relse, funksjon, materiale, emballasje mm. Det er problemanalysen som forteller oss hvilkevariabler vi skal undersøke i en markedsanalyse.

ENHET : Person, objekt eller hendelse som er gjenstand for analyse.

Datamatrise

Kjø

nn

Ald

er

Bo

sted

Utd

ann

ing

An

t. b

arn

Siv

. st

atu

s

An

t. å

r g

iftIn

nte

kt

Nas

jon

alite

t

Enhet Nr.

001M 34 Oslo Uni 2 Gift 5 230 Sv

Enhet Nr.

002

Enhet Nr.

003

Nr. 003KjønnMAlder76BostedMossUtdanningYrkesskAnt. barn2SivilstatusEnkemAnt. år gift53Inntekt45NasjonalitetNo

Nr. 002KjønnKAlder53BostedBærumUtdanningVgsAnt. barn3SivilstatusGiftAnt. år gift22Inntekt110NasjonalitetNo

Nr. 001Kjønn MAlder 34Bosted OsloUtdanning UniAnt. barn 2Sivilstatus GiftAnt. år gift 5Inntekt 230Nasjonalitet Sv

DATAMATRISE : Systematisk oppstilling av data fra en gruppe enheter. Vanligvisslik at enhetene utgjør radene og variablene kolonnene i matrisen.

VARIABEL : En dimensjon som beskriver likheter og forskjeller mellom enhetene.

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 22: forstå_statistikk

SIDE 22 FORSTÅ STATISTIKK

g inn-e som

er påriabe-

rier

et”. Ier, 45

lom to 200vi haruelle

va vi

r

dene våre igsåtil-

rag åenkere av

er.

Verdier Når enhetene er personer, gjør vi ofte bruk av variabler som kjønn, alder, utdanning otekt. Disse variablene bruker vi når vi skal dele enhetene inn i grupper. De gruppenenhetene kan deles inn i på en variabel, kalles for verdier.

Fordi ulike enheter ofte har forskjellige verdier på en variabel, kan vi også se forskjelldem.Variabelen kjønn har verdiene mann og kvinne. Følgelig kan vi ut fra denne ene valen lett dele enhetene inn i to grupper.

Kontinuerlige variabler

Hvis vi studerer variabelen alder, er det imidlertid ikke like lett å finne tilsvarende kritefor å dele enhetene inn i grupper, siden alderen på mennesker kan variere svært mye. Iutgangspunktet er alder en kontinuerlig variabel.

Det vil si at vi i praksis kan måle alderen på et menneske med en “uendelig nøyaktightillegg til å oppgi at en person er 27 år, kan vi finne at hun er 3 måneder, 9 dager, 2 timminutter, 12 sekunder osv. gammel.

Avstand er et annet eksempel på en kontinuerlig variabel. Vi kan oppgi avstanden melpunkter til å være 100 mil, eller den kan oppgis til å være 997 kilometer eller til 997meter. Avstanden kan i prinsippet måles så nøyaktig vi bare vil, eller så nøyaktig som utstyr til å måle. En kontinuerlig variabel kan altså anta alle mulige verdier i det aktintervallet.

I praksis oppgir vi imidlertid verdien avrundet til et visst antall desimaler, avhengig av hskal bruke tallene til.

Diskrete varia-bler

En variabel som ikke er kontinuerlig er diskret.

Eksempler på diskrete variabler kan være: En familie består av 1, 2, 3, 4, 5 eller flere med-lemmer. Meieriet selger smøret bare i hel- og halvkilos pakninger. Karakterene til eksamenvarierer fra 1,0 til 4,0 med tiendels intervaller. Det er altså ingen betingelse at verdien e heletall.

Skillet mellom kontinuerlige og diskrete variabler hjelper oss til å velge de rette metonår vi skal analysere dataene våre. Derfor er det nyttig å kunne klassifisere variableneulike grupper. I tillegg til skillet mellom kontinuerlige og diskrete variabler, finnes det oandre måter å skille ulike typer variabler fra hverandre på. Dette skal vi komme nærmere bake til i kapittelet om målenivåer.

Eksempel 2.1.1

Anta at du er nytilsatt ved salgsavdelingen i et større bilfirma. Salgssjefen gir deg i oppdfinne ut hvor stor andel av bilene som blir solgt som firmabiler. Du setter deg ned og tgjennom problemstillingen. Hva er det du skal fram til? Jo, et tall som sier hvor mangbilene som registreres på et firma sammenlignet med biler som registreres på privatpersonHer er det bilene som er av interesse, altså må bilene være enheter. Deretter spør vi oss: hva

VERDI : Data som bestemmer en enhets tilstand på en variabel.

KONTINUERLIG VARIABEL : Variabel som kan anta alle mulige verdier innen etbestemt gyldighetsområde.

DISKRET VARIABEL : Variabel som bare kan anta et endelig antall verdier.

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 23: forstå_statistikk

FORARBEIDET: KLARGJØRING AV DATA SIDE 23

er det som gjør disse bilene forskjellige for oss? Det er at noen biler eies av et firma, mensandre biler eies av privatpersoner. Den dimensjonen ved bilene som vi studerer, er dermedvår variabel. Gruppene vi kan dele bilene inn i, privatbiler og firmabiler, blir følgelig verdier.Nå er du i stand til å løse problemet. Du trenger bare å telle opp antallet biler i hver gruppefor å finne andelen av bilene som er firmabiler. Dermed er du i mål.

Nå har du redusert informasjonsmengden i datamaterialet ditt, slik at resultatet er i samsvarmed det problemet du sto overfor. Du har “mistet” informasjon om hver av bilene, men har istedet fått informasjon om to grupper av biler. I dette tilfellet var du interessert i å sammen-ligne størrelsen på gruppene.

Det du har gjort nå er å lage en hyppighetsfordeling. Med utgangspunkt i datamatrisen, har dugjort en opptelling av enheter som har like verdier. Alle enheter som har samme verdier,utgjør en gruppe. Vi har følgelig beregnet hyppigheten eller frekvensen av biler som harsamme kjennetegn eller verdi. En slik oppstilling kalles en hyppighetsfordeling eller en fre-kvenstabell.

2.1.2 Å redusere informasjonsmengden

Vi har tidligere sett at det er behov for å redusere informasjonsmengden som spørreskjema-ene stiller til rådighet. Årsaken til dette er at vi ikke har kapasitet eller evne til å behandle alledataene separat.

Hyppighets-fordelinger eller nume-riske mål

I prinsippet finnes det to måter å redusere informasjonsmengden på. Vi kan enten aggregeredata om enkeltindivider ved å bruke hyppighetsfordelinger, eller vi kan bruke ulike nume-riske mål for å skaffe oss informasjon fra et datamateriale. Begge teknikkene brukes ofte, ogde vil bli gjennomgått i denne boken.

Hyppighetsfordelinger kan presenteres både som tall og som grafiske framstillinger. Bak-grunnen for de fleste grafiske framstillinger er nettopp hyppighetfordelinger.

Gjennomsnitt av en variabel er eksempel på en numerisk forenkling av et datamateriale.

I de neste kapitlene skal vi gå gjennom bruken av både hyppighetfordelinger, grafiske fram-stillinger og en del numeriske mål.

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 24: forstå_statistikk

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 25: forstå_statistikk

3. Fra datamatrise til informasjonNår vi samler inn data for eksempel ved hjelp av spørreskjemaer, får vi inn flere data enn vikan nyttiggjøre oss direkte. Derfor må vi finne teknikker for å skape informasjon ut av denstore datamengden. Dette kan vi gjøre på to måter. Enten ved å telle opp enheter som har likeverdier på en eller flere variabler eller ved å beregne nøkkeltall. Nøkkeltallene sier oss noeom hele den gruppen vi undersøker.

Hyppighets-fordeling og nøkkeltall

Det enkleste er å lage en hyppighetsfordeling.

Da kan du gå fram på følgende måte: Registrer enhetenes verdier slik de er oppgitt i datama-trisen eller slå sammen flere verdier i en gruppe. Dette siste er det vanlig å gjøre når vi arbei-der med kontinuerlige variabler eller diskrete variabler som har svært mange verdier.

Hyppighetsfordelingen danner også utgangspunktet for ulike grafiske framstillinger. Disseteknikkene er spesielt godt egnet når en skal framstille resultatene for personer som ikke ertrenet i statistisk analyse.

Den andre metoden er å bruke nøkkeltall som beskriver fordelingen av enheter på en variabelved å se på dimensjoner som sentraltendens og spredning.

Sentraltendensen ses ofte i de grafiske framstillingene som opphoping av enheter rundt visseverdier, mens spredningen gir uttrykk for hvor forskjellige enhetenes verdier er.

3.1. Hyppighetsfordelinger

Hyppigheten h, angir antall enheter som har samme verdi, x

En hyppighetsfordeling gir en oversikt over hvor mange enheter som har de samme verdiene.Hyppigheten eller frekvensene betegnes med h. Verdiene betegnes vanligvis med x. Rådata-ene til hyppighetsfordelingen hentes fra datamatrisen. For diskrete variabler teller en førstopp antallet enheter som har hver av verdiene. Dersom det er svært mange forskjellige ver-dier, grupperes disse på en hensiktsmessig måte.

Fra datama-trise til hyp-pighetsfordeling

Figur 3.1 viser et utdrag av datamatrisen, samt en hyppighetsfordeling for variabelen kjønn. Idatamatrisen teller en opp antallet enheter som har verdien mann. Tilsvarende gjøres for ver-dien kvinne. Legg merke til at vi nå reduserer datamengden fra å ha informasjon om hver per-son (i datamatrisen) til at vi i hyppighetsfordelingen får informasjon bare om gruppen avmenn og gruppen av kvinner. Vi kjenner bare størrelsen på disse gruppene. Alle variablersom er diskrete, kan i prinsippet behandles på denne måten. Dersom disse variablene ogsåhar svært mange ulike verdier, må de behandles etter samme prinsipp som kontinuerlige vari-abler.

HYPPIGHETSFORDELING : Systematisk oppsett som viser alle forskjellige verdier iet datasett, samt antall enheter som har hver av verdiene

NØKKELTALL : Tall som beskriver en egenskap ved en fordeling

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 26: forstå_statistikk

SIDE 26 FORSTÅ STATISTIKK

enr-forde-rfor er

sinter-atri-n kan

Kontinuerlige variabler bør grupperes før en lager hyppighetsfordelingen, ellers risikerer at alle enheter allerede i utgangspunktet har forskjellige verdier. I så fall blir det ingen foskjell på datamatrisen og hyppighetsfordelingen. Hensikten med å lage en hyppighetsling er jo å redusere mengden av informasjon, slik at det blir lettere å behandle den. Dedet viktig at ikke antallet grupper i hyppighetsfordelingen blir for høyt.

Figur 3.1. Et utdrag av datamatrisen

På en kontinuerlig variabel som alder, kan verdiene deles inn i grupper som omfatter årvall. Legg merke til at når hyppighetsfordelingen framstilles, “brennes broene” til datamsen. Fra hyppighetsfordelingen er det nemlig ikke mulig å gjenskape originaldataene. Egå fra datamatrisen til hyppighetsfordelingen, men ikke den andre veien.

Eksempel 3.1.1

Tabellen under viser alderfordelingen for 51personer.

Vi kan slå flere verdier sammen i grupper og framstille de samme dataene i en hyppighetsfor-deling.

x 20 21 22 23 24 25 26 27 28 29

h 1 2 1 4 2 0 3 1 6 2

x 30 31 32 33 34 35 36 37 38 39

h 0 1 3 1 1 1 0 2 4 2

x 40 41 42 43 44 45 46 47 48 49

h 1 5 3 0 1 2 1 1 0 0

x h

����� 22

����� 15

����� 14

x h

Menn 4

Kvin-ner

5

x

M

M

K

M

K

K

M

K

K

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 27: forstå_statistikk

FRA DATAMATRISE TIL INFORMASJON SIDE 27

Grupperte for-delinger

I eksempelet over ser du at hver gruppe rommer flere ulike verdier:. Både dem som er 20 årog 29 år havner i gruppen fra 20-29 år. Dette er årsaken til at en slik oppstilling kalles engruppert fordeling.

Målet er å få nok informa-sjon, ikke mest mulig

Gruppene består nå ikke lenger av de verdiene enhetene egentlig har, men av verdier vi kon-struerer. Verdien 20-29 år er mer eller mindre tilfeldig valgt. Vi kunne like gjerne ha valgtverdien 21-30 år dersom vi ville ha 10-års intervall. Det er imidlertid mest vanlig å grupperevariabelen alder på denne måten. Vi sier jo at vi er 29 år helt til den dagen vi fyller 30. Derforer alle i aldersgruppen 20 - 29 år i “20-årene”. Kanskje kunne vi ha klart oss med 20-årsintervall for gruppene også. Dette bestemmes av hva vi vil formidle og av hvor stor variasjoneller spredning det er blant enhetene. Jo større aldersintervaller vi velger for gruppene, jomindre informasjon får vi med oss fra datamatrisen. Hensikten er imidlertid ikke å presenteremest mulig informasjon, men å presentere nok for å kunne fatte gode beslutninger.

Siden alder er en kontinuerlig variabel, vil også tabellen øverst i eksempel 3.1 egentlig væreen gruppert fordeling. Alderen til personer som er 20 år er helt sikkert ikke nøyaktig 20 år.Kan hende er vedkommende 20 år, 2 måneder, tre dager og 9 timer.

Grupperte fordelinger skaper også problemer. Dersom variabelen vi grupperer er diskret, fårvi helt naturlige skiller mellom hver av gruppene. Dette kan illustreres ved å se på variabelen“hustandsstørrelse”. Vi kan gruppere husstandene i grupper med 1 person, 2-3 personer, 4-5personer og 6 eller flere. I dette tilfellet er det ingen tvil om grensene mellom gruppene, fordihver husstand bare kan ha et “helt” antall personer. Dersom vi ser på variabelen inntekt, opp-står imidlertid visse problemer. La oss gruppere denne i inntekter 0-100 000, 101-200 000,201 000 og mer. Her har vi tre grupper, men hva med en person som tjener 100 500? Hvilkengruppe skal denne plasseres i? Nå ser vi at svaret ikke gis like lett som i eksempelet over. Forkontinuerlige variabler går skillet mellom gruppenes verdier vanligvis “midt i mellom” deenkelte gruppene. Det vil i dette tilfellet si at inntektsskillet går ved en inntekt på 100 499.99.En person som tjener mer enn dette, vil klassifiseres i inntektsgruppen fra 101-200 000 kro-ner. Dette er kunnskaper vi vil ha nytte av når vi senere skal lage grafiske fordelinger pågrunnlag av hyppighetsfordelingene.

Unntaket fra denne regelen gjelder variabelen alder, som vi så på i et tidligere avsnitt. Her gårskillet mellom 29 og 30 år ikke ved 29 år og 6 måneder, men ved den dagen vedkommendefyller 30 år.

Ikke flere enn 7 grupper

Når vi reduserer informasjonsmengden ved å lage en slik gruppert fordeling, sørger vi for åpresentere bare så mye informasjon som vi har forutsetning for å kunne behandle. Erfarin-gene viser at antall grupper vanligvis ikke bør overstige 7. De fleste mennesker har nemligkapasitet til å huske 7 tall. Dette er en slags grense for korttidshukommelsens “kapasitet”.

GRUPPERT FORDELING : Hyppighetsfordeling, der flere enheters verdier er slåttsammen i en gruppe som omfatter et intervall av verdier.

Antall medlem-mer

h

� 40

��� 21

��� 36

13

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 28: forstå_statistikk

SIDE 28 FORSTÅ STATISTIKK

nen enkelt

r heleg hvorablenee skal

lleredeilligst.

mil,

“stan-ilen bilerilener mil.

veran-, gikkenne

på en

r stem-

meni totalttotalt

Hvis vi overbelaster korttidshukommelsen, klarer vi likevel ikke å utnytte den informasjosom presenteres. Derfor er det viktig å gjøre presentasjoner av statistisk materiale såsom mulig.

Hvordan skal vi så velge gruppestørrelsen? Her finnes det ingen generelle råd. Det etiden det aktuelle problemet som bestemmer hva som er optimal gruppestørrelse omange grupper (verdier) en bør ha på variabelen. Generelt bør vi forsøke å kode varislik at gruppene blir like store, dersom dette er mulig. Dette er en fordel når vi senerbruke variabelen til tabellanalyse.

3.2. Relative hyppighetsfordelinger

Sammenligner med noe vi kjenner

Når vi skal bedømme noe som er nytt, gjør vi ofte det ved å sammenligne med noe vi akjenner. Prisene på varer fra ulike butikker sammenlignes for å se hvor varene selges bBensinforbruket til biler sammenlignes for å se hvilken bil som bruker minst bensin prog studenter sammenligner ofte karakterene sine for å se hvem som har gjort det best.

Felles for alle disse eksemplene er at vi har noe å sammenligne med. Ut fra en slagsdard” blir vi i stand til å forstå forholdet mellom to tall. Hvis vi får oppgitt at den ene bhar brukt 110 liter bensin og den andre har brukt bare 75 liter, vet vi ikke om dette ersom generelt bruker mye eller lite bensin. Vi må i tillegg ha informasjon om hvor langt bhar kjørt på denne bensinen. Da kan vi regne ut det gjennomsnittlige bensinforbruket p

Standarder for sammenlignin-ger

På tilsvarende måte er det vanskelig å sammenligne ulike hyppighetsfordelinger med hdre. Vi må derfor finne en eller annen standard å regne ut fra. I eksempelet med bilenevi ut fra at hver av bilene bare hadde kjørt en mil. Deretter så vi på bensinforbruket for ddistansen. Når vi skal sammenligne ulike hyppighetsfordelinger, må vi også gjøre dettemåte som gir oss anledning til å sammenligne tallene med noe vi kjenner fra før.

For de fleste mennesker gir det antakelig liten mening å få vite at 300 av 1200 personemer Høyre. Dersom de får vite at 25% stemmer Høyre, er det straks lettere å forholde dette tilnoe vi kjenner fra før. Av denne grunn bruker vi ofte relative hyppighetsfordelinger sammed de observerte tallene. Relative hyppigheter tar utgangspunkt i at vi later som om vhar 100 personer, derfor blir alle grupper “transformert” eller omgjort til en størrelse på 100.

Tabellen under viser hvordan de relative hyppighetene beregnes.

x h %

1 40 36%

2-3 21 19%

4-5 36 33%

6+ 13 12%

Sum 110 100%

40 100⋅110

������������������� 36%=

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 29: forstå_statistikk

FRA DATAMATRISE TIL INFORMASJON SIDE 29

Relative tabel-ler og abso-lutte hyppigheter

Når vi presenterer relative tabeller, er det viktig at vi også presenterer grunnlaget for prosent-beregningene, altså de absolutte hyppighetene en finner i datamatrisen. Uten disse tallene erdet umulig å beregne hvilken troverdighet funnene i tabellen kan ha. Det holder imidlertid åoppgi det totale antallet ved siden av de relative hyppighetene.

3.3. Kumulative hyppighetsfordelingerHyppighetsfordelingene gir oss en god oversikt over hvordan enhetene grupperer seg på envariabels enkelte verdier. De relative fordelingene gjør det enkelt å bruke disse oversiktene,fordi tallene normeres i forhold til en “standard” som er velkjent for de fleste av oss. Debidrar rett og slett til å gjøre tallene mer “lesbare” for de fleste som ikke er godt trenet i mate-matikk eller tallbehandling.

Kumulative hyppighetsfor-delinger forut-setter logisk orden

Av og til kan vi ha behov for å finne ut hvor mange eller hvor stor prosent som ligger over enbestemt verdi. Til dette formålet er en kumulativ fordeling best egnet.

Den kumulative fordeling forutsetter at verdiene på variabelen kan ordnes i en logisk rekke-følge, som for eksempel går fra lav til høy, dårlig til god, og andre eksempler

Kumulative fordelinger kan være både absolutte, det vil si med tall fra datamatrisen, og rela-tive (prosenttall). Beregningsmåten er den samme. Denne skjer ved at hyppighetene summe-res (kumuleres) fortløpende for alle verdiene.

Tabellen over kumuleres ved å legge sammen hyppighetene fortløpende for alle verdier, sliksom vist i forklaringen. Vi kan dermed lese av direkte i tabellen at det i 61 av familiene er trebarn eller mindre. De kumulative fordelingene kan lages med absolutte tall, slik som i eksem-pelet over, og med prosenttall eller relative tall.

RELATIV HYPPIGHETSFORDELING : Hyppighetsfordeling som viser relative ande-ler av enheter som har hver av verdiene

KUMULATIV HYPPIGHETSFORDELING : Hyppighetsfordeling som viser summenav antall enheter som har den søkte verdi eller lavere verdi, eventuelt høyereverdi.

Antall medlem-mer

h h Forklaring

1 40 40 40

2-3 21 61 40+21=61

4-5 36 97 61+36=97

6+ 13 110 97+13=110

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 30: forstå_statistikk

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 31: forstå_statistikk

4. Grafikk

Grafiske framstillinger appellerer til “kunstneren” i oss, til å forstå bilder i motsetning tildirekte tallforståelse. En rekke fenomener er lettere å illustrere grafisk enn gjennom verbalebeskrivelser av tall. Grafiske bilder må imidlertid brukes med kløkt. Ulike typer variabler måbehandles på ulike måter. I tillegg er valg av graftyper avhengig av hva en vil formidle og tilhvem. Her gjelder også i sannhet Storm P´s visdomsord at det skal sterk moral til for å selgestrikk i metermål.

I dette kapittelet skal vi presentere de viktigste grafiske framstillingsteknikkene.

De grafiske framstillingene byr antakelig på de beste mulighetene til å “lyve” med statistikk.Årsaken til dette finner vi i måten hjernen organiserer sanseinntrykkene på. I høy grad gjeldernemlig munnhellet at “vi ser det vi vil se” og kanskje også det en forventer å se. La oss gjøreet eksperiment. Øverst på neste side finner du en figur som består av “tre trekanter”. I midtenav trekantene står det en kort tekst. Bla om til neste side, se på figuren i tre sekunder, lukkigjen boka og skriv ned teksten som står inne i trekantene. Når du er ferdig, blar du opp påfiguren en gang til og studerer den nøye. Er du sikker på at du så det som egentlig stod der?

Grafiske framstillinger brukes ofte i vår billedorienterte informasjonsverden. Mens det kanvære vanskelig for utrenede å forstå en hyppighetsfordeling eller en tabell, skjønner de flestegrafiske framstillinger. Dersom vi skal framstille statistiske data for personer som er utrenedei statistikk, bør vi derfor vurdere å bruke grafer for å anskueliggjøre for eksempel hyppighets-fordelinger.

4.1. Det gode diagramHva trenger vi for å lage et godt diagram? Først og fremst korrekte tall. Dersom noen oppda-ger at ett eller flere av tallene som er brukt i framstillingen er feil eller ikke nøyaktig nok,svekkes troverdigheten i arbeidet.

Budskapet må være klart

Det er også viktig å ha klare ideer om hva vi vil formidle i et diagram. Vi kan ikke vise altsamtidig. Budskapet må derfor framstå klarest mulig.

Diagrammet bør også være lettlest. Alle hjelpetekster bør skrives der de skal leses, slik at vi istørst mulig grad kan unngå forklarende “koder”. Dessverre er ikke alle dataprogram i standtil å gjøre dette.

Husk at presentasjonen skal hjelpe leseren til å forstå det budskapet en vil formidle.

Tabell mer tro-verdig?

Selv om bruk av diagrammer stort sett er en fordel, bør vi også være oppmerksomme på atdet av og til er situasjoner der data presentert i tabeller oppfattes som mer troverdige. I viten-skapelige artikler brukes oftere tall og tabeller enn grafiske framstillinger. Hva vi velger kom-mer an på hvem mottakerne er og hvilke typer data vi ønsker å beskrive.

Det finnes tre former for løgn: løgn, fordømt løgn og statistikkMark Twain

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 32: forstå_statistikk

SIDE 32 FORSTÅ STATISTIKK

er. det er varia-

eser

nandre

I pro-

relser

4.2. Typer av grafiske framstillinger

Grafiske fram-stillinger visu-aliserer helheten

Grafiske framstillinger er vanligvis visualiseringer av ulike typer hyppighetsfordelingHyppighetsfordelingene har den ulempen at de blir svært vanskelige å lese dersomsvært mange verdier på variabelen. Dette problemet oppstår spesielt ved kontinuerligebler.

En grafisk framstilling av fordelingen omgår dette problemet. Det skjer fordi vi nå ikke lhvert tall som grafen er framstilt av, men ser helheten i fordelingen på en annen måte.

Det finnes flere typer grafiske framstillinger og det er tre forhold som bestemmer hvilkemetode du skal velge. Det ene er knyttet til variabelen eller variablene du vil vise, det er knyttet til hva du vil framheve og det tredje til hvem som skal lese grafen.

Tradisjonelt omfatter grafiske framstillinger grafer som kake- og søylediagram, histogram ogfrekvenspolygon. Dette er også betegnelser som brukes i de fleste statistikkbøkene. grammene som brukes for å lage slike grafer, blir ofte andre betegnelser benyttet.

4.3. Kakediagram

Relative stør-relser og få verdier

Kakediagram (pie chart) brukes mest når en skal vise forskjeller mellom relative stør(prosent-tall).

Figur 4.1. Et kakediagram

Enfugl i

i hånden

Endag ii april

Påvei mot

mot Oslo

K AKEDIAGRAM : Diagram som viser hyppighetsfordelinger som andeler av en sir-kel.

��������������������

�����������������������������������������������������������������������������������������������������������������������������������������������������������������

��������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

��������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������

������ ���� � ��� ���

�������

��

���� ��

��

���������

��

��������

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 33: forstå_statistikk

GRAFIKK SIDE 33

De egner seg best når en vil vise relativt grove forskjeller, fordi det kan være vanskelig å seforskjell på kakestykker som er svært like i størrelse. Diagrammet viser relative andeler avulike typer bær en produsent leverte i løpet av en sesong.

Diagrammene kan vi lage i ulike varianter. Velg en type som er godt leselig, og dersom det erviktig å kunne se forskjeller på kakestykker som virker like, så sett prosenttallene på selvestykkene. Dette gjør det enklere å lese diagrammet.

Kakediagrammet bør fortrinnsvis brukes bare dersom det ikke er for mange verdier på varia-belen. Har du mange verdier på variabelen, er det bedre å bruke et søylediagram.

4.4. Søylediagram

Det mest brukte dia-grammet

Et av de mest brukte diagrammene er stolpediagrammet eller søylediagrammet. I søyledia-grammet kan en som oftest få med de samme opplysningene som i en tabell.

Figur 4.2. Eksempel på søylediagram

I dette diagrammet er det bare høyden på søylene som teller. Den grafiske utformingen blirderfor oftere bestemt av hva vi liker og hvordan vi skaper en flott presentasjon. I prinsippet ersøylediagrammet derfor bare en rett strek.

Det er vanlig å la X-aksen bestå av de enkelte undergruppene eller verdiene på variabelen.Hyppighetene eller antallet observasjoner i hver gruppe, framstilles langs Y-aksen. Det spilleringen rollefor høydeforskjellene på søylene om du bruker prosenttall eller absolutte verdiernår du lager diagrammet. Resultatet blir det samme. Bare prøv!

4.5. HistogramHistogrammet ligner på søylediagrammet av utseende, men skiller seg fra dette ved at det erarealet av søylene og ikke høyden som viser antall enheter fra hyppighetsfordelingen. Histo-grammet har sin særlige anvendelse på grupperte fordelinger, der lengden på intervallenesom omfattes av hver av gruppene er forskjellige. Dette kan illustreres med et eksempel.

SØYLEDIAGRAM : Diagram der antall enheter som har hver av verdiene symbolise-res med en rett strek (eller søyle) og lengden av streken angir hvor mange enhetersom har den bestemte verdien

��������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������

����������������������������������������������������������������������������������������������������������������

����������������������������������������������������������������������������������������������������������������������������������������������������������

����������� ���

��

��

��

��

��

��

��

���

�� ������ �� ������ �� ������ �� ������

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 34: forstå_statistikk

SIDE 34 FORSTÅ STATISTIKK

om del

t søy-øy-i barem are-

ene i

hel-erdier

-

k over

Figur 4.3. Et histogram

I denne hyppighetsfordelingen omfatter den siste klassen et dobbelt så langt intervall sandre klassene. Dette framstiller vi derfor best med et histogram. I histogrammet er antalenheter symbolisert ved arealet av søylen og ikke høyden som i søylediagrammet. Dersomalle verdiene består av like store intervaller i en gruppert fordeling, vil et histogram og elediagram bli helt like. I dette tilfellet blir høyden på intervallet 50 - 69 forskjellig fra et slediagram. Siden dette intervallet er dobbelt så langt som de andre, vil høyden blhalvparten a de andre intervallene. Arealet av denne søylen er imidlertid det samme soalet i gruppen 10 - 19, som også omfatter 10 enheter.

4.6. Linjediagram

Kontinuerlige variabler og flere datasett

Linjediagrammet kalles også frekvenspolygon, og angir i prinsippet midtpunktet til søylsøylediagrammet.

Det er likevel en viktig forskjell fra søylediagrammet. Siden linjen i dette diagrammet ertrukket, er dette en graf som er spesielt egnet for kontinuerlige variabler. Her kan alle vinngå direkte i grafen, uten at en behøver å gruppere dataene først, slik en må gjøre for åframstille en tabell.

Linjegrafen er også godt egnet dersom en vil framstille data for flere grupper eller for eksempel flere år. På denne måten kan en lett framstille og sammenligne flere dataserier.

Figur 4.4 viser antall besøkende ved et informasjonskontor fordelt på månedlige besøen to-årsperiode. Her er i alt 24 tall framstilt på en oversiktlig måte.

x 10-19 20-29 30-39 40-49 50-69

h 10 12 17 12 10

L INJEDIAGRAM : Diagram som former en linje gjennom midtpunktet i hver søyle isøylediagrammet.

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 35: forstå_statistikk

GRAFIKK SIDE 35

Figur 4.4. Eksempel på et linjediagram

4.7. Flatediagrammet.

Helhet og opp-deling

Flatediagrammet er nærmest en kombinasjon av et histogram og en linjegraf. I figur 4.5 er detårlige salget for hver av fire selgere framstilt kvartalsvis.

Figur 4.5. Et tredimensjonalt flatediagram

For bedriften er det selvsagt av interesse å se det samlede salget også. Det kan vi illustrere i etdiagram der arealene er stablet oppå hverandre, slik som i figur 4.6.:

Også dette diagrammet illustrerer forskjellene mellom selgerne, men nå kan en i tillegg sedirekte i grafen hvor mye det totale salget for de fire selgerne var. Legg merke til at den tredi-mensjonale framstillingen som er valgt i dette eksempelet framstiller selgere med et godtresultat i fjerde kvartal relativt gunstig, fordi “endeveggen” på grafen er rotert slik at densynes. Ved å rotere grafen den ene eller andre veien, kan en dermed framheve eller skjule deelementene en måtte ønske.

������ �������

���

���

���

���

���

���

���

��

���

���

���

��

���

� �

� �

����

���

���

��

��

��

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������

������������������������������������������

������������������������������������������

������������������������������������������

������������������������������������������

������������������������������������������

��

������� �

�������

���

�����

�����

����

��

��

��

��

���

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 36: forstå_statistikk

SIDE 36 FORSTÅ STATISTIKK

vise.ik den

mye., fordit min-

bellen

Figur 4.6. Et stablet tredimensjonalt flatediagam

Valg av framstillingsform er også i stor grad avhengig av hva vi ønsker at grafen skalDersom vi først og fremst er opptatt av å vise de relative forskjellene på selgerne, slframtrer ved hvert kvartal, kunne vi la arealene summeres opp til 100. Dette er vist i den nestegrafen.

Figur 4.7. Flatediagram med forholdstall

Her utgjør totalsalget for hvert kvartal 100%. I denne grafen får vi derfor ikke vite hvor salget varierer mellom de enkelte kvartalene, bare hvor mye forskjellene på selgerne variererI denne framstillingen av grafen favoriseres selgeren som ligger på toppen av “bunken”denne vil utgjøre toppflaten av kuben. Selv om den øverste selgeren totalt sett har solgdre enn den som er framstilt under, virker det ikke slik i diagrammet.

4.8. Kumulative frekvenspolygonDet kumulative frekvenspolygonet lages med grunnlag i den kumulative hyppighetsfordelin-gen. Vanligvis utgjør x-aksen verdiene, mens hyppighetene tegnes langs y-aksen. Ta

�� ������ � ������ �� ������ �� ������

�����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������ ���������������������������

������������������������������������������������������������������������������������������������������������

���������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������������

�����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

���

������

����

�����

���

������

����

�����

���

������

����

�����

���

������

����

�����

���

������

����

�����

��

���

���

��

��

�� ������ � ������ �� ������ �� ������

����������� ��� ��� ��� ��

�����

�������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

�������������������

����������������������������������������������������������������������������

����������������������������������������������������������������������������

����������������������������������������������������������������������������

���������������������������������������������������������

���������������������������������������������������������

���������������������������������������� ������ � ������ �� ������ �� ������

��������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

��������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

�������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������

�����������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

�� ������ � ������ �� ������ �� ������

�������������� ��� ��� �������

���������������������������������������

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 37: forstå_statistikk

GRAFIKK SIDE 37

fra kapittel 3.3 blir slik som i figur 4.8, gitt at høyeste verdi er 8. Dersom vi ikke vet hva høy-este verdi er, må vi utelate den siste gruppen (verdiene 6+) eller gjøre antakelser om verdiene,for eksempel at den høyeste verdien i dette tilfellet er 8.

Det vanligste er å bruke prosent i stedet for absolutte tall på y-aksen. Figurens grafiskeuttrykk blir imidlertid den samme. Ved å gå fra y-aksen i punktet y=50% og inn mot kurven,finner vi den verdien som deler fordelingen i to like store mengder. Halvparten av enhetenehar nå verdier som er mindre eller lik den verdien vi kommer fram til på x-aksen, og denandre halvdelen har verdier som er større eller lik den avleste verdien. Denne verdien kallesfor medianverdien.

Figur 4.8. Et kumulativt frekvenspolygon

Figur 4.9. Et kumulativt frekvenspolygon med prosentangivelser

4.9. Grafiske framstillingerGrafiske framstillinger brukes i ulike typer publikasjon for å vise informasjon som er skaptpå grunnlag av tall. Avisene bruker små grafer for å illustrere de siste dagers utvikling i rente-nivået.

Linjegrafen viser tendenser i renteutviklingen. Vi ser med et enkelt blikk om renten generelter stigende eller synkende, samt forskjellen i rentenivå for hver av dagene. I denne figuren serdet ut som om vi hadde et stort rentefall 9. august 1995, men ser vi på y-aksen, dreier det segfaktisk om en tidels prosent.

��������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������

������������������������������������������������������������

������������������������������

���������������������������������������������

���������������

���������������������������������������������

���������������������������������������������������������������������������

��

��

��

��

���

� � � � �

����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

��������������������������������

������������������������������������������������

����������������������������������������������������������������

����������������

��������������������������������

������������������������������������������������

� �

�� �

�� �

�� �

�� �

��� �

� � � � �

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 38: forstå_statistikk

SIDE 38 FORSTÅ STATISTIKK

r sidenirekte-

ne hart kur-

en til å

alererom du

esen iar fåttmto dia-del avpesifi-

Ellers brukes teknikken med å jukse med aksene i diagrammene svært ofte. For noen åskapte en lege en opphetet debatt fordi han hadde lansert noen nye slankepiller. I et dsendt TV-program trakk han fram figur 4.10 som «bevis» på at pillene var virksomme. Deviste at en kvinne hadde gått ned fra 72 kg til 69 kg. På kurven ser det ut som om kiloeforsvunnet som dugg for solen. Ved å tegne hele verdiaksen fullt ut, ser vi imidlertid aven får et helt annet uttrykk

Ved å manipulere med måleenhetene på aksene i diagrammene, ser vi at vi kan få kurvbli så bratt eller slakk vi vil.

Vær oppmerksom på at dataprogrammer som lager grafiske framstillinger ofte skaksene automatisk. Du må derfor selv bestemme hva du vil at grafen skal formidle og vil at kurven skal være bratt eller slakk.

Figur 4.10. Kurve med forkortet verdiakse.

Figur 4.11. Kurve med fullstendig verdiakse

Ulike typer kakediagrammer brukes også svært ofte. Dette eksemplet fra Statens VegvØstfold (figur 4.12), er et svært godt eksempel på bruk av kakediagram. Alle tekster hplass der de skal leses. Kakestykkenes relative størrelser er angitt med prosenttall, noe sogjør det lett å se forskjeller på kakestykker som er nesten like store. Egentlig er dette gram som er sammenstilt på en oversiktlig måte. Den ytterste delen viser hvor stor anleggsvirksomheten som var basert på privat eller offentlig innsats, mens den andre sserer ytterligere hva disse midlene ble brukt til.

������� �� ��� �� �� ������� ������������

��

��

��

� � � � ��

������� �� ��� �� �� ������� ������������

��

��

��

� � � � ��

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 39: forstå_statistikk

GRAFIKK SIDE 39

Figur 4.12. En uvanlig variant av et kakediagram

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 40: forstå_statistikk

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 41: forstå_statistikk

5. Ulike typer variablerDet finnes ulike typer variabler og det gjør at vi også trenger flere statistiske teknikker for åbearbeide dem. Variablenes målenivå er i mange tilfeller direkte bestemmende for valg avanalyseredskap.

Det er verdiene og forholdet mellom dem som bestemmer målenivået. I alt finner vi firemålenivåer, men i denne boken vil vi bare skille mellom tre av dem: Nominal, ordinal ogintervall/forholdstallnivå.

Kvalitative og kvantitative variabler

I kapittelet som omhandlet grafiske framstillinger, så vi at ulike typer variabler måtte behand-les ved hjelp av forskjellige grafiske teknikker. Linjediagrammet brukes til kontinuerligevariabler, mens søylediagrammet brukes til diskrete variabler. I tillegg til dette skillet skal vise på to andre måter å klassifisere variabler på. Et mer grunnleggende skille går mellom kva-litative og kvantitative variabler.

Alle variabler med verdier som naturligst angis med tall, kan kvantifiseres, mens alle varia-bler med verdier som naturligst angis med en navnekategori, er kvalitative.

Variabelen kjønn har verdiene mann og kvinne. Denne variabelen er følgelig kvalitativ. Detsamme er variabelen nasjon som har verdier som angir det enkelte land, for eksempel Norge,Sverige, Danmark etc. Variabelen tilfredshet, der verdiene “helt tilfreds”, “middels tilfreds”og “ikke tilfreds” vil imidlertid være en kvantitativ variabel, fordi de verbale merkelappenepå verdiene kan erstattes av verdiens rangering på en tilfredshetsskala. Rangeringene i dettetilfellet blir 1,2 og 3, der 1 er mest tilfreds og 3 er minst tilfreds.

Eksempel 5.0.1

Hvor tilfreds er du med denne læreboka? (sett kryss)

Det samme kan vi måle med en mer detaljert skala.

Eksempel 5.0.2

Hvor tilfreds er du med denne læreboka? (fra 1 til 7).

K VANTITATIV VARIABEL : Variabel der verdien på en meningsfylt måte angis medtall.

K VALITATIV VARIABEL : Variabel som ikke er kvantitativ.

Ikke tilfreds Middels tilfreds Helt tilfreds

Ikke tilfreds 1 2 3 4 5 6 7 Svært tilfreds

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 42: forstå_statistikk

SIDE 42 FORSTÅ STATISTIKK

blenestil fire

ntere

pper,hensyneluk-er skal

kjønninne.ne.e

yrdes.ro- bedre

pråk-alnivå.

el-

nn 4.0ingenr et til- kan

pera-

En annen måte å klassifisere variablene på tar utgangspunkt i forholdet mellom variaenkelte verdier. Med dette som utgangspunkt kan vi klassifisere variablene i henhold målenivåer.

Denne klassifiseringen er særlig praktisk når vi skal velge ulike nøkkeltall for å presesamt analysere et datamateriale.

5.1. Målenivåer

Nominalnivå, forskjeller og likheter

Ved å se på forholdet mellom variablenes verdier, kan vi klassifisere variablene i fire gruavhengig av hvordan verdiene kan ordnes innbyrdes. På det laveste nivået tar vi bare til grunnkravene som stilles til alle variabler, nemlig at verdiene skal være gjensidig utkende. I tillegg er det et krav at verdiene skal være uttømmende, det vil si at alle enhetkunne gis en verdi. Variabler som bare tilfredsstiller dette kravet er på nominalnivå.

Nominalvariabler sier oss kun noe om forskjeller og likheter. Fra eksemplene over er og nasjonalitet variabler på nominalnivå. Variabelen kjønn har verdien mann og kvDisse verdiene er forskjellige, og alle mennesker kan klassifiseres i en av de to gruppe

Ordinalnivå - innbyrdes rang

I tillegg til at variabelens verdier er gjensidig utelukkende, kan de også rangeres innbFolks preferanser for enkelte produkter er eksempel på slike variabler. En kan rangordne pduktene etter hvor populære de er hos kundene. En kan likevel ikke si noe om hvor myeett produkt er enn et annet. Variabler der verdiene ordnes i en innbyrdes rang, er på ordinal-nivå.

Alle variabler som har verdier av typen “god, middels, dårlig”, det vil si der det bare er slige nyanser i beskrivelsen av verdiene som gjør det mulig å rangere dem, er på ordinDet gjelder eksempel 5.1.

Interv allnivå - avstandsmål eller skala

På intervallnivå får en i tillegg til innbyrdes rangering, muligheter for å måle avstanden mlom de enkelte verdiene på en presis måte.

Karakterer er en type intervallvariabler. Det gir mening å si at 2.0 er en bedre karakter e(norske karakterskala). Vi kan til og med si at den er 2 poeng bedre. Men det gir mening å si at 2.0 er dobbelt så godt som 4.0. Årsaken til dette er at karakterskalaen hafeldig nullpunkt. Det klassiske eksempelet på en intervallvariabel er temperatur. Viutmerket godt si at 20 grader er 5 grader varmere enn 15 grader, men det gir ingen mening åsi at 20 grader er dobbelt så varmt som 10 grader. Årsaken er at nullpunktet til vår temturskala tilfeldigvis er satt til frysepunktet for vann.

MÅLENIVÅ : Metode for å skille mellom ulike typer variabler.

NOMINALNIVÅ : Variabel der enhetenes verdier bare kan skilles fra hverandre.

ORDINALNIVÅ : Variabler der verdiene kan rangordnes i henhold til et eller annetkriterium.

INTERVALLNIVÅ : Variabler der verdiene rangordnes og avstanden mellom verdi-ene bestemmes meningsfullt.

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 43: forstå_statistikk

ULIKE TYPER VARIABLER SIDE 43

Indikator - mål for indi-rekte observa-sjoner

Dette gjelder svært mange variabler der verdiene ikke kan observeres direkte. Vi kan foreksempel ikke stikke hodet ut av vinduet og med en gang kjenne hvor mange grader det er.Siden temperatur er en variabel som ikke kan observeres direkte, er vi avhengige av noe somkan gi oss en indikasjon på hva temperaturen er. Et slikt redskap kaller vi en indikator.

Indikatoren varierer sammen med det fenomenet vi vil studere. Termometeret er en indikatorpå temperatur.

Svært mange fenomener vi ønsker å måle opptrer slik at vi må bruke indikatorer for å måledem. Det gjelder alt som har med menneskers følelser, meninger og holdninger å gjøre. Ytrekarakteristika ved mennesker kan vi oftest observere direkte, mens personligheten bare kanavsløres ved hjelp av ulike typer indikatorer.

Forholdstall-variabler har “fast” null-punkt

Noen variabler, slik som avstand, alder, priser og størrelser har imidlertid naturlige nullpunk-ter. Slike variabler kaller vi forholdstallsvariabler. I denne boka vil vi ikke gjøre noen for-skjell på intervall- og forholdstallsvariabler. Forskjellene får først en praktisk betydningdersom vi skal regne sammen verdier fra flere variabler for å lage indekser, det vil si sam-menslåtte mål som brukes til å måle bestemte egenskaper. Dette temaet ligger imidlertidutenfor rammene for denne boka.

På samme måte som en snekker velger verktøy etter hva slags materialer han arbeider med oghvor fint eller grovt han skal gjøre jobben, så har vi innen statistikken ulike teknikker forulike formål. Målenivåene trenger vi for å bestemme hvilke metoder vi skal bruke på for-skjellige variabler.

5.2. Velg målenivå før undersøkelsen

Høyt målenivå gir flest valg-muligheter

Siden variablenes målenivå angir hvilke statistiske metoder vi kan bruke, er det viktig å tenkepå målenivået allerede fra begynnelsen av en undersøkelse. Når du for eksempel utformer etspørreskjema, må du også ta stilling til hvordan variablenes verdier skal angis. I eksempeletmed variabelen “tilfredshet” tidligere i kapittelet, så vi hvordan vi kan bruke to ulike skalaerfor å måle samme fenomen. Som vi senere skal se, lønner det seg å konstruere variablene pået så høyt målenivå som mulig (helst intervallnivå), for da har du de største valgmulighetenenår du senere skal analysere dataene.

INDIKATOR : En variabel som varierer proporsjonalt med en annen variabel somikke er direkte observerbar.

Målenivå Egenskaper

Nominal Uttømmende og gjensidig utelukkende

Ordinal Verdiene ordnes etter rang

Intervall Meningsfull avstand mellom verdiene

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 44: forstå_statistikk

SIDE 44 FORSTÅ STATISTIKK

lenivå.

I de kommende kapitlene skal vi se på sammenhengen mellom metodevalg og måMetodene du skal lære i de neste kapitlene omfatter teknikker som er beregnet for alle de tremålenivåene. Sammenhengen mellom teknikk og målenivå er framstilt i figuren under.

Målenivå Sentral-tendens Spredning Samvariasjon

Nominal Typetall Variasjonsbredde Tabell

Ordinal Median Kvartilavvik Rangkorrelasjon

Intervall/forholdstall

Gjennomsnitt Standardavvik Korrelasjon og regresjon

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 45: forstå_statistikk

6. Oppgaver til seksjon 1

Oppgaver til kapittel 1:

Oppgave 1.1Diskuter hva som er forskjellen på data, informasjon og kunnskap.

Oppgave 1.2Statistikk består i å omforme data til informasjon, slik at vi kan øke vår kunnskap. Gi et kon-kret eksempel på hvordan dette kan skje.

Oppgaver til kapittel 2:

For hver av oppgavene under skal du finne ut følgende:

a) Hva er enhetene for undersøkelsen?

b) Hvilke variabler undersøkes?

c) Lag forslag til verdier for variablene.

Oppgave 2.1Vi ønsker å finne ut hvor stor andel av kundene i en bedrift som er forbrukerkunder.

Oppgave 2.2Lederen i et mindre datafirma ønsker å vite hvordan salgsutviklingen for konkurrerende virk-somheter har vært de tre siste årene.

Oppgave 2.3Ved et supermarked skal det innføres ny skiftordning. Butikksjefen vil gjerne ta de enkelteansattes reise mellom hjem og arbeidssted med i vurderingen når planen settes opp. Hun berderfor de ansatte fylle ut et spørreskjema som gir opplysninger om reisevaner.

Oppgave 2.4Regnskapssjefen ønsker å finne ut hvor mye penger hver av kundene skylder bedriften.

Oppgave 2.5I en markedsundersøkelse for Galaxy gym ønsker en å finne ut hvem som kunne tenke seg åtrene i lokalene på dagtid.

Oppgave 2.6En sammenligner to bilers bensinforbruk med tanke på å finne ut hvilken som bruker minstbensin.

Oppgave 2.7Du skal levere kjørebok for firmabilen.

Oppgave 2.8Et meieri ønsker å finne ut hvilket produkt som er mest populært i utlandet.

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 46: forstå_statistikk

SIDE 46 FORSTÅ STATISTIKK

nder-

alleneulativ

5.

er tek-tive

abel-

Oppgaver til kapittel 3:

Oppgave 3.1 100 forbrukerkunder har kjøpt et bestemt produkt følgende antall ganger pr år.

Grupper opplysningene i en hyppighetstabell. Finn selv passende intervall for hver ugruppe. Lag også en kumulativ fordeling på bakgrunn av observasjonene i tabellen.

Oppgave 3.2 Tallene i tabellen under viser daglig antall gjester i en liten restaurant. På grunnlag av tskal du lage en hyppighetsfordeling der materialet er delt i 9 grupper. Lag også en kumfordeling.

Oppgave 3.3 Lag relative tabeller for oppgave 3.2.

Oppgave 3.4 Et dokumentasjonssenter i en bedrift produserer årlig statistikk som viser bruken av tjenes-tene. Tallene under viser antall oppdrag (i 100) fra tjenesten startet opp, og fram til 198

Framstill utviklingensom prosenttall.

Oppgave 3.5 I tabellen under vises resultatene i en vasketest av tekstiler. Verdien x viser antall gangstilene tålte vask i 60°C før fargene falmet. Grupper tallene i tre grupper og beregn de relahyppighetene (prosenttall). Lag en kumulativ hyppighetsfordeling med utgangspunkt i tlen over.

1 2 6 2 6 5 21 4 1 10

2 6 2 41 44 8 8 24 9 46

10 14 13 5 8 7 4 27 7 18

5 1 6 9 8 11 24 9 6 3

15 1 10 12 13 1 8 6 4 19

6 7 10 3 44 33 3 13 34 4

42 14 6 2 2 2 7 15 23 11

9 1 4 19 1 6 38 1 8 9

19 2 11 5 6 14 27 4 19 2

8 11 6 41 25 19 11 42 5 27

51 54 51 52 51 52 66 51 59

56 51 61 54 56 53 63 43 55

49 54 45 48 48 54 60 58 57

48 54 44 48 62 55 44 50

År: 79 80 81 82 83 84 85

Antall oppdrag: 6 9 4 4 6 9 17

x 6-10 11-15 16-20 21-25 26-30 31-35 36-40

h 90 201 174 160 109 79 57

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 47: forstå_statistikk

OPPGAVER TIL SEKSJON 1 SIDE 47

Oppgaver til kapittel 4:

Oppgave 4.1Et dokumentasjonssenter i en bedrift produserer årlig statistikk som viser bruken av tjenes-tene. Tallene under viser antall oppdrag (i 100) fra tjenesten startet opp og fram til 1985.

Framstill utviklingen ved hjelp av et søylediagram.

Oppgave 4.2I tabellen under vises resultatene i en vasketest av tekstiler. Verdien x viser antall ganger tek-stilene tålte vask i 60% før fargene falmet. Framstill tallene i et søylediagram.

Oppgaver til kapittel 5:

Oppgave 5.1Finn målenivået for følgende variabler og verdier:

6

År: 79 80 81 82 83 84 85

Antall oppdrag 6 9 4 4 6 9 17

x 6-10 11-15 16-20 21-25 26-30 31-35 36-40

h 90 201 174 160 109 79 57

Variabel Verdi

Alder 1, 2, 3,........n

Aldersgruppe Barn, ungdom, voksen, gammel

Kjønn Mann, kvinne

Inntekt Eks. 100 000 kroner

Magasintemperatur Eks. 25°C

Bosted By, land

Bokstørrelse Høyde i cm.

Tilfredshet God, middels, lav

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 48: forstå_statistikk

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 49: forstå_statistikk

Seksjon 2

Nøkkeltall for univariate for-delinger

Når vi arbeider med en kolonne i datamatrisen, er det enhetenes verdier på en variabel vi stu-derer. Dette er vanligvis det første vi gjør når vi skal analysere et datamateriale. Vi studererhver variabel for seg, ser på hyppighetsfordelinger og nøkkeltall for sentraltendens og spred-ning. Dette er en del av den beskrivende statistikken. I kapittel 6 lærer vi å beregne tre mål forsentraltendens, mens kapittel 7 angir tilsvarende mål for spredning.

Det er variablenes målenivå som i utgangspunktet bestemmer hvilket av målene det er mestkorrekt å bruke. For hvert målenivå finnes en metode som viser fordelingens spredning.

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 50: forstå_statistikk

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 51: forstå_statistikk

7. Sentraltendens

Mye data, lite informasjon

Hvor ofte har du ikke sett detaljerte presentasjoner av data, sirlig oppsatt i rader og kolonnereller framstilt i ulike typer grafer. Likevel har du ikke fått svar på det du egentlig lurte på.Derfor må du fram med kalkulatoren for å beregne de tallene du savner. Informasjonen dutrenger for å øke din kunnskap om det området du studerer, er blitt borte i alle dataene.

Likheter og forskjeller

Når vi undersøker hvilke verdier enhetene har på en variabel, kartlegger vi likheter og for-skjeller mellom enhetene. I praksis tjener ikke alle like mye, de er ikke like høye, de stemmerikke samme parti og de kjøper ikke de samme varene eller ser de samme TV-programmene.Disse forskjellene er vi interesserte i å måle, og da trenger vi andre redskaper enn dem vi harsett på i de første kapitlene.

Sentralten-dens og spred-ning

Hittil har vi presentert data på to måter. Hyppighetsfordelingene tok utgangspunkt i datama-trisen, og de grafiske framstillingene tok utgangspunkt i hyppighetsfordelingene. I tillegg erdet mulig å bruke ulike nøkkeltall for å formidle informasjon om grupper av enheter. De mestbrukte nøkkeltallene er knyttet til sentraltendens eller lokalitet, og spredning.

Dette kan vi illustrere ved å se på de to linjegrafene i figuren under. Linjene viser hvordanhøyden er fordelt for henholdsvis en gruppe menn og en gruppe kvinner. Vi ser at formen påkurvene er omtrent lik, men kurven for menn er forskjøvet mot høyre på x-aksen, sammenlig-net med kurven for kvinner. Denne forskjellen er det selvsagt lett å se når vi observerer forde-lingen grafisk, men vi kan også se den ved å bruke nøkkeltallene.

Figur 7.1. Linjegraf med høydefordeling

Hvor er all kunnskapen?Den er tapt i informasjonHvor er all informasjonen?Den er tapt i data.

Mark Twain

SENTRALTENDENS : Nøkkeltall som angir hva som er den vanligste verdien i enhyppighetsfordeling.

Høydefordeling

��

��

��

��

��

�� ��� ��� ��� ��� ��� ��� ��� ��

Høyde (cm)

KvinnerMenn

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 52: forstå_statistikk

SIDE 52 FORSTÅ STATISTIKK

r-koor- på en

en det “van-

tte kanSpred-

Allemen- denbilenen viings-

ss si atsalde-e for-

en antall

e hen-

asjon.ble-å de

Sentralten-dens måler tyngdepunktet i fordelingen

Det mest kjente nøkkeltallet er gjennomsnittet. I diagrammene har de to fordelingene foskjellige gjennomsnitt. Dette er årsaken til at fordelingene er lokalisert på ulike steder i dinatsystemet. Lokaliseringsmål eller mål for sentraltendens er en samlebetegnelsegruppe mål som skal angi nettopp hvor tyngdepunktet eller den vanligste verdien i en forde-ling ligger. Dette er den verdien alle enhetene ville ha, dersom alle hadde vært like. Sider forskjeller på enhetenes verdier, trenger vi egnede mål for å kartlegge hva som er deligste” verdiene i den gruppen av enheter som vi studerer.

Målene for spredning sier noe om hvor store forskjeller det er på enhetenes verdier. Deillustreres ved å se på hvor langstrakt eller sammenpresset en grafisk fordeling er. ningsmålene blir behandlet i neste kapittel.

7.1. Aritmetisk gjennomsnitt

Sammenlig-ninger med gjennomsnittet

Aritmetisk gjennomsnitt er det målet de fleste vanligvis forbinder med sentraltendens.har vi vel en eller annen forestilling om gjennomsnittet, fordi dette ofte brukes som samligningsgrunnlag for andre tall. Vi sammenligner lønnen vår med gjennomsnittet forgruppen vi tilhører, tar utgangspunkt i gjennomsnittspriser (listepris) når vi skal selge og lurer på hvor mye vi kan få for den, eller vi spekulerer på om prisene i den butikkvanligvis handler i, er høye eller lave. I alle slike situasjoner trenger vi et sammenligngrunnlag, og svært ofte kan vi bruke et gjennomsnitt som referanse eller sammenlignings-grunnlag.

Det aritmetiske gjennomsnittet beregnes på grunnlag av tallene i en datamatrise. La ovi har fem studenter på henholdsvis 24, 32, 19, 21 og 34 år. Hvis vi sier at gjennomsnittren i gruppen er 26 år, betyr det at vi kommer vi fram til tallet 26 på grunnlag av følgendmel:

Eksempel 7.1.1

Studentenes alder settes inn i formelen og vi får:

Σ betyr sum Den greske bokstaven ∑ (sigma) betyr “summen av” det som følger etter, det vil si summav studentenes alder. N står for antallet enheter vi regner gjennomsnittet av, det vil sistudenter.

Alle enhetenes verdier danner grunnlag for beregningen av gjennomsnittet og verdientes fra datamatrisen.

Gjennomsnit-tet gjelder for gruppen

Legg merke til at gjennomsnittet bare sier noe om hele gruppen av studenter og ikke noe omhver enkelt student. Når vi foretar denne type beregninger, kaster vi altså bort informDette gjør vi som oftest fordi det er for mye informasjon vi må forholde oss til. Dette promet løser vi ved å aggregere data, det vil si å se på grupper av enheter i stedet for å se penkelte enhetene.

GJENNOMSNITT : ��∑

�����������=

�∑�

����������

�� �� �� �� ��+ + + +�

���������������������������������������������������������� �= = =

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 53: forstå_statistikk

SENTRALTENDENS SIDE 53

Av og til kan det være ønskelig å beregne gjennomsnittet på grunnlag av en hyppighetsforde-ling i stedet for “grunndataene”. Dette er også mulig, men da må vi bruke en annen formel.

7.2. Veid gjennomsnittEt veid gjennomsnitt er analogt med forholdet mellom datamatrisen og hyppighetsfordelin-gen. Dersom du skulle beregne gjennomsnittlig antall barn pr husholdning, måtte du leggesammen alle enhetenes verdier (ikke bare de forskjellige verdiene, men verdiene for hverenkelt enhet, merk forskjellen!) og så dele på totalt antall enheter.

Eksempel 7.2.1

Fra tabellen over antall barn i husholdningen ser du at det er tre mødre som hver har 5 barn(x=5 og h=3). Etter den “vanlige” beregningsmåten ville du ha lagt sammen verdiene slik

Eksempel 7.2.2

Når du bruker et veiet gjennomsnitt, tar du verdien og multipliserer med hyppigheten, du tardermed

Resultatet blir imidlertid det samme. Det veide gjennomsnittet kan du beregne etter formelenunder.

Eksempel 7.2.3

Vi setter tallene fra tabellen inn i formelen og får

Antall barn i husholdningen

x h h·x

1 35 35

2 10 20

3 8 24

4 6 24

5 3 15

Sum 62 118

VEID GJENNOMSNITT :

� � �+ + ��=

� �⋅ ��=

�⋅( )∑�

�����������������������

�⋅( )∑∑

�����������������������= =

� ∑=

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 54: forstå_statistikk

SIDE 54 FORSTÅ STATISTIKK

iden vii hver skal.

er enrrekteheteniske

7.3. Gjennomsnitt i grupperte fordelingerEn kan også forestille seg et datamateriale der verdiene er delt i grupper eller klasser. Sda ikke lenger kjenner enhetenes egentlige verdier, vil vi som oftest bruke midtpunktet gruppe som anslag for den virkelige verdien av x. Dette blir dermed den x-verdien dubruke i de videre analysene. Deretter beregner vi gjennomsnittet på den vanlige måten

Eksempel 7.3.1

Når vi setter inn i formelen, får vi

I en gruppert fordeling kjenner vi ikke enhetenes eksakte verdier. Vi vet bare at verdienav de mulige verdiene i intervallet. Forutsetningen for at denne metoden skal gi koresultater, er at enhetene fordeler seg likt på alle verdier i hver av gruppene. I virkeligvil det ikke alltid være slik. I så fall vil det være et lite avvik mellom det veide og aritmetgjennomsnittet. Dette ser vi for eksempel ved å gruppere tallene i eksempel 7.2.1:

Ved å sette inn i formelen, får vi:

�⋅( )∑∑

�����������������������

���

����������� ���= = =

Antall ordre

Midt-punkt

Antall kun-der

Ordre·kunde

m h h·m

1 - 2 1.5 27 40.5

3 - 4 3.5 55 192.5

5 - 6 5.5 35 192.5

7 - 8 7.5 13 97.5

Sum 130 523

Antall barn i husholdningen

x h m h·m

1-2 45 1.5 67.5

3-4 14 3.5 49

5 3 5 15

Sum 62 131.5

⋅( )∑�

�������������������������

���

������������� ���= = =

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 55: forstå_statistikk

SENTRALTENDENS SIDE 55

Vi får et litt høyere gjennomsnitt fra den grupperte fordelingen enn vi fikk ved å regne medalle enhetenes verdier.

7.4. Aritmetisk og veid gjennomsnitt

Aritmetisk gjennomsnitt en forenkling av veid gjen-nomsnitt

Formelen for det aritmetiske gjennomsnittet er en forenkling av det veide gjennomsnittet.Følgende lille eksempel viser dette.

Eksempel 7.4.1

I et utvalg på 10 barnefamilier har 8 av familiene ett barn, mens de resterende har 2 barn.

Siden det her er mange enheter som har akkurat de samme verdiene, vil det være enklere åframstille matrisen som en hyppighetsfordeling. Overgangen fra matrise til hyppighetsforde-ling er vist tidligere.

Når vi beregner gjennomsnittet, er forutsetningen at vi legger sammen verdiene til alle enhe-tene. I dette tilfellet blir det

Vi ser at dette blir det samme som

Det aritmetiske gjennomsnittet brukes når du kjenner alle enhetenes enkelte verdier (i prin-sippet fra datamatrisen), mens det veide gjennomsnittet brukes når du skal beregne gjennom-snittet fra en hyppighetsfordeling, for eksempel en tabell.

7.5. Median

Sentralten-dens på ordi-nalnivå

Gjennomsnittet er det mest brukte av målene for sentraltendens. Det forutsetter imidlertidvariabler som er på intervall- eller forholdstallsnivå. I en del tilfeller vil vi bruke skalaer somgir variabler på ordinalnivå. Dette omfatter for eksempel alle variabler som har verdier avtypen høy, middels, lav eller god, middels, dårlig.

⋅( )∑�

�������������������������

�����

���������������� ���= = =

x h

1 8

2 2

Beregningsprosedyre for gjennomsnitt

1. Summér alle enhetenes verdier eller multiplisér alle verdiene med hyppighe-tene av hver verdi og summen over alle verdier.

2. Divider summen på antallet observasjoner.

� � � � � � � � � �+ + + + + + + + + ��= �∑

� � � �⋅+⋅ ��= �⋅∑

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 56: forstå_statistikk

SIDE 56 FORSTÅ STATISTIKK

heten,

ste

alten-ge.

jelpe-

Eksempel 7.5.1

Datamatrise for 7 personer

La oss tenke oss 7 personer som kjøper bøker til påskeferien. De kjøper henholdsvis:

Enhet nr 4 utgjør den “midterste” enheten. Medianen er dermed verdien til denne endet vil si 9.

Figur 7.2. Illustrasjon av medianen

Hvis fordelingen består av et like antall observasjoner, tas gjennomsnittet av de to midterobservasjonene.

I dette eksempelet er medianen gjennomsnittet av 8 og 9, det vil si 8,5.

Medianen har den fordel at den krever lite eller ingen regning for å få et anslag for sentrdensen i et materiale. Til gjengjeld må fordelingen være ordnet i stigende verdirekkeføl

Dersom du har mange enheter, finner du riktig enhetsnummer ved å bruke følgende hformel:

MEDIAN : Rent teknisk er medianen den verdien som deler en fordeling der enhe-tene er ordnet etter stigende verdier, i to like deler.

Person nr. 1 2 3 4 5 6 7

Antall (x) 7 8 8 9 10 12 14

Person nr. 1 2 3 4 5 6

Antall (x) 7 8 8 9 10 12

ENHETSNUMMER : Enhetsnummeret angir hvilken rang en enhet har i en fordelingsom er ordnet etter stigende eller synkende verdier.

Medianen

� �+�

��������������

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 57: forstå_statistikk

SENTRALTENDENS SIDE 57

Dersom du da får et heltall, er medianen verdien til dette enhetsnummeret. Får du ikke et hel-tall, beregnes medianen ved å ta gjennomsnittet av de to tall som ligger på hver side av dettallet du regnet ut. I eksempelet over var det 6 enheter.

I følge hjelpeformelen skal du da se på verdiene til enhetsnummer 3 og enhetsnummer 4, slikvi også gjorde i eksempelet.

Median i kumulert for-deling

Du kan også finne medianen i en kumulert fordeling. Tabellen over viser alderen til 101 per-soner. For å finne medianen må vi først finne fram til den midterste enheten. Denne finner vived å sette inn i hjelpeformelen:

Enhet nummer 51 har den verdien som utgjør medianen.Ved å se på kolonnen for enhetsnum-mer finner vi at nummer 51 er i gruppen som går fra nummer 44 til 60. Alle disse enhetenehar verdien 25. Medianen er derfor 25.

Figur 7.3. Median og kumulativ grafisk framstilling

x hkumulert

hEnhetsnr.

21 10 10 1-10

22 15 25 11-25

23 11 36 26-36

24 7 43 37-43

25 17 60 44-60

26 20 80 61-80

27 11 91 81-91

28 10 101 92-101

� �+�

��������������

�+�

������������� ���= =

� �+�

��������������

��� �+�

������������������� ��= =

� �

� �

��� �

�� �� �� � �� � �� �� ��

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 58: forstå_statistikk

SIDE 58 FORSTÅ STATISTIKK

så bru-t lett å

msnit-lings-

Inves-t rasktnner

på detkt, noer inn-l andrelfelletegnelemet

n påtte er

Medianen kan også finnes direkte fra en kumulativ grafisk framstilling. Ved å gå rett ut fra50% på y-aksen og fra kurven ned på x-aksen finnes verdien. Denne metoden kan ogkes når du skal finne medianen i grupperte fordelinger. I denne typen fordelinger er dese hvor stor andel av enhetene som ligger over eller under en gitt verdi.

7.6. Median eller gjennomsnitt?

Gjennomsnitt kan bare beregnes av variabler på intervall-/for-holdstallsnivå

Det er to grunner for å bruke medianen som mål for sentraltendens i stedet for gjennotet. Det ene argumentet er knyttet til variablenes målenivå, det andre er knyttet til fordeformen. Dette siste illustreres best med et eksempel.

Eksempel 7.6.1

I et borettslag lurer formannen på om de kan ta opp et nytt lån for å renovere fasaden.teringen vil i praksis medføre at beboerne i en periode får fordoblet husleien. For å få eoverblikk over økonomien til dem som bor der, slår han opp i ligningsoversikten og fiinntekten til hver enkelt. Den viser følgende tall for de syv beboerne (tall i 1000 kr):

Han beregner gjennomsnittsinntekten og finner at denne blir 1 280 000. Forklaringen høye tallet finner vi hos den siste personen. Dette er en person med svært høy inntesom i denne sammenhengen gjør at gjennomsnittet blir helt ubrukelig som anslag fotektsnivået i gården. Her er det bedre å bruke medianen, fordi denne ikke tar hensyn tiverdier enn den verdi den “midterste” enheten i den sorterte fordelingen har. I dette tiblir medianen 150 000. Statistikken gir oss tilgang til teknikker som gjør at vi kan berhva som er den “vanligste” inntekten, men den kan ikke hjelpe oss til å avgjøre det probsom var grunnlag for beregningene.

7.7. Typetall

Dette enkle målet brukes vanligvis på variabler som er på nominalnivå. Fra tabellepage 53 finner vi at 35 av husholdningene hadde 1 barn. Typetallet blir derfor 1, fordi deden verdien som forekom hyppigst. Typetallet kalles også for modus.

90 125 140 150 190 270 8000

Beregningsprosedyre for median

1. Observasjonene ordnes etter stigende verdi.

2. Den eller de midterste observasjoner undersøkes.

3. Medianen avleses direkte som verdien til den midterste enheten i fordelinger med ulike antall observasjoner og regnes ut dersom fordelingen består av et like antall observasjoner.

TYPETALL : Typetallet angir den eller de verdiene som forekommer oftest i enhyppighetsfordeling.

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 59: forstå_statistikk

SENTRALTENDENS SIDE 59

7.8. Sentraltendens og målenivåVanligvis er det variablenes målenivå som bestemmer hvilket mål som skal brukes for å angisentraltendensen.

Dersom fordelingen er svært skjev, det vil si at noen enheter har verdier som avviker sværtmye for de andre enhetene, kan det være et argument for å bruke medianen som mål for sen-traltendens, selv om gjennomsnittet er det målet som egentlig passer best. I fordelinger somer symmetriske, som for eksempel normalfordelingen, blir gjennomsnittet og medianen heltlike. Jo skjevere fordelingen er, jo mer avviker gjennomsnittet fra medianen.

Målenivå Mål Målenivå Mål Målenivå Mål

Intervall Gjennomsnitt Ordinal Median Nominal Typetall

Figur 7.4. Symmetrisk fordeling

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������

������������������������������������

������������������������������������

������������������������������������

����������

�����

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 60: forstå_statistikk

SIDE 60 FORSTÅ STATISTIKK

som

Ved skjeve fordelinger kan forholdet mellom gjennomsnittet og medianen også brukesmål for skjevhet.

Figur 7.5. Positivt skjev fordeling

Figur 7.6. Negativt skjev fordeling

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

��������������������������������������������������������

��������������������������������������������������������

��������������

��������������

�����

����������

���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

��������������������������������������������������������

��������������������������������������������������������

������������������������������������������

������������������������������������������

�����

����������

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 61: forstå_statistikk

8. SpredningMålene for sentraltendens uttrykker de verdiene enhetene ville hatt dersom alle enheterhadde vært helt like. I praksis er vi imidlertid ikke særlig interesserte i å undersøke slikefenomener, eller rettere sagt: vi trenger ikke å gjøre det. Dersom det ikke er forskjeller, vet vijo hva verdiene til hver enkelt er.

Spredningsmålene forteller oss hvor store forskjeller det er på enhetene. I likhet med målenefor sentraltendens, trenger vi også flere mål for spredning. Vi trenger i prinsippet ett spred-ningsmål for hvert av målene for sentraltendens.

Sentraltendensen angir likhet, mens målene for spredning viser forskjeller i enhetenes ver-dier. Dette kan illustreres i et diagram:

Figur 8.1. Samme gjennomsnitt med forskjellig spredning

Anta at kurvene viser høyden til to grupper rekrutter. Gjennomsnittet er likt i begge grup-pene, men i gruppe 2 er det større forskjeller i høyde. Vi sier at det er større spredning.

Spredningsmålene gir et numerisk uttrykk (nøkkeltall) for disse forskjellene. Spredningen erderfor større i gruppe 2 enn i gruppe 1. Dette kan vi også regne ut på forskjellige måter.

VariasjonsbreddeHøyeste minus laveste verdi

I en klasse av kursdeltakere varierer alderen mellom 23 og 35 år. Variasjonsbredden er 35 år- 23 år = 12 år. Det vil si at aldersforskjellen mellom eldste og yngste deltaker er 12 år. Dettemålet sier oss noe om hvor store forskjeller det er på deltakerne, men det tar ingen hensyn tilalderen på de andre deltakerne.

SPREDNING: Nøkkeltall som angir hvor store forskjeller det er på enhetene i enhyppighetsfordeling.

������ �

������

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 62: forstå_statistikk

SIDE 62 FORSTÅ STATISTIKK

r fra er et

et til årer

et av

den. Init-viker

ttet er

t franestert fra som

Derfor trenger vi også mål som tar hensyn til flere av kursdeltakernes alder.

8.1. Gjennomsnittsavvik

Gjennom-snittsavvik og standardavvik

Gjennomsnittsavviket forteller oss hvor mye hver av enhetene i gjennomsnitt avvikegjennomsnittet, det vil si hvor store forskjeller det er på enhetene vi undersøker. Dettemål som i praksis ikke brukes særlig mye som spredningsmål, men som er godt egnintrodusere standardavviket. Det er derfor mest pedagogiske grunner til at vi presentegjennomsnittsavviket i denne framstillingen.

Tabellen under viser antall bøker som hver av 10 kunder i en bokklubb har kjøpt i løpmedlemstiden. Enhetsnummeret forteller oss hvilken enhet vi har med å gjøre, og i kolonne xoppgis verdien til enheten, dvs antall bøker personen har kjøpt i løpet av medlemstikolonnen finner vi et uttrykk for hvor mye hver enkelt kunde avviker fra gjennomstet. Ved å summere avvikene for alle kundene, får vi også et uttrykk for hvor mye de avtil sammen. I eksempelet ser vi at denne summen blir 0. Det blir den fordi gjennomsnilagt slik at det “utjevner forskjellene”.

Gjennomsnitt-lig avvik fra gjennomsnittet

Dersom vi skal kunne bruke dette målet videre, må vi derfor se bort fra hvorvidt avvikegjennomsnittet er positivt eller negativt. Vi må bare se hvor stort det er. Dette er gjort i kolonne. Der har vi tatt tallverdien av avviket. Ved å summere alle avvikene (vi ser boom det er positivt eller negativt) og dele på antallet enheter eller tall, finner vi et uttrykkbest tolkes som gjennomsnittlig avvik fra gjennomsnittet. Formelen blir altså

VARIASJONSBREDDE: Spredningsmål som viser forskjellen på høyeste og lavesteverdi i en hyppighetsfordeling.

Enhet nr

1 5 0 0

2 7 -2 2

3 3 2 2

4 6 -1 1

5 4 1 1

6 1 4 4

7 2 3 3

8 8 -3 3

9 9 -4 4

10 5 0 0

SUM 50 0 20

Gj. snitt 5

x x–

x x x– x x–

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 63: forstå_statistikk

SPREDNING SIDE 63

AbsoluttverdiUttrykket angir en “absoluttverdi”. Det betyr at alle tall som står mellom strekene skalbehandles som positive, uansett fortegn.

Dersom vi setter inn tallene fra eksemplet over inn i formelen, får vi

Tolkningen av dette er at enhetene i gjennomsnitt avviker fra gjennomsnittet med 2 bøker. Igjennomsnitt kjøper de undersøkte medlemmene fem bøker, og forskjellene i antall kjøptebøker er gjennomsnittlig 2.

Kreftene utjevnes i balansepunk-tet

Dette kan vises grafisk ved å framstille enhetene sittende på en dumpehuske. Fra fysikkeneller egen erfaring husker vi at dumpen balanserer når vekten på hver side harmonerer. Detvil si at kreftene som påvirker dumpen må være like på begge sider. I fysikken måles dettesom kraft ganger arm. Vippepunktet tilsvarer sentraltendensen og den gjennomsnittligeavstanden fra enhetene til midtpunktet er gjennomsnittsavviket.

Figur 8.2. Sentraltendens og avvik

Gjennomsnittsavviket er et mål for den gjennomsnittlige lengden på pilene i figuren over.

8.2. Standardavvik

Standardavvi-ket har flere matematiske egenskaper

I praksis brukes gjennomsnittsavviket lite som spredningsmål, og i denne framstillingen erdet altså tatt med utelukkende fordi det letter forståelsen av hva standardavviket egentlig er.

Eksempel 8.2.1

Da vi beregnet gjennomsnittsavviket, valgte vi å se bort fra fortegnet på de enkelte avvikenefra gjennomsnittet. I stedet for å ta absoluttverdien, kunne vi også ha kvadrert avvikene for åkvitte oss med de negative fortegnene. Dette har vi gjort i tabell 8.1.

De kvadrerte avvikene er summert og et slags gjennomsnitt av de kvadrerte avvikene erberegnet. Det er litt vanskelig å se direkte hva standardavviket forteller oss bare ut fra forme-len, så det greieste er å “late som om” det er et gjennomsnittsavvik når vi skal tolke det. Nårvi likevel bruker standardavviket som spredningsmål, er det fordi det har en del matematiske

GJENNOMSNITTSAVVIK : GAx x–∑N

����������������������=

x x–

GAx x–∑N

����������������������

2010������ 2= = =

x-x

x-x

x-x

x

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 64: forstå_statistikk

SIDE 64 FORSTÅ STATISTIKK

ittelet

pståronen, N er

stan-

-v føl-

.

egenskaper som gjennomsnittsavviket mangler. Dette skal vi gjøre videre bruk av i kapom normalfordeling.

Varians og for-mel for varians

Når vi beregner standardavviket, får vi også et mål fra en “mellomregning” som er mye bruktsom spredningsmål. Dette kalles for varians, og beregnes etter denne formelen:.

Grunnen til at vi deler med N-1 og ikke med N, er knyttet til den usikkerheten som opnår vi beregner standardavviket i et utvalg. Dersom vi regner på tall fra hele populasjkan vi dele bare på N. Forøvrig blir forskjellen på å dele med N eller N-1 svært liten nårstor.

Dersom vi setter inn tallene fra tabellen i formelen, får vi følgende:

Til tross for at gjennomsnittsavviket er lettere å forstå intuitivt, er altså variansen og dardavviket mer brukt i statistikken.

Standardav-vik og forme-len for standardavvi-ket

Standardavviket betegnes med s når det beregnes i et utvalg og σ når det beregnes i populasjonen. Standardavviket er lik kvadratroten av variansen (Var) og finnes ved hjelp agende formel:

Hvis vi bruker tallene fra forrige eksempel til å beregne standardavviket, får vi følgende

Tabell 8.1. Beregning av standardavvik

Enhet

1 10 2.5 6.25

2 5 -2.5 6.25

3 11 3.5 12.25

4 9 1.5 2.25

5 9 1.5 2.25

6 7 -0.5 0.25

7 6 -1.5 2.25

8 3 -4.5 20.25

Sum 60 0 52

Gj. snitt 7.5

x x x– x x–( )2

VARIANS : Varx x–( )2∑

N 1–��������������������������=

Varx x–( )2∑

N 1–��������������������������

528 1–������������ 7.43= = =

STANDARDAVVIKET : sx x–( )2∑

N 1–��������������������������=

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 65: forstå_statistikk

SPREDNING SIDE 65

Hva forteller så dette oss? Jo omtrent det samme som om du fikk vite at et gjennomsnitt er på120. Uten at du har noen andre tall å sammenligne med, har du altså liten nytte av dennetypen nøkkeltall. I senere kapitler vil du imidlertid se at standardavviket er svært viktig når viskal teste kvaliteten på de dataene vi samler inn fra utvalgsundersøkelser.

Standardavviket hører logisk sammen med gjennomsnittet. Begge målene kan bare beregnespå variabler som er på intervall eller forholdstallsnivå. Formelen for å beregne standardavvi-ket i populasjonen, parameteren σ blir i henhold til argumentasjonen på forrige side slik:

Teoretisk stan-dardavvik

Denne formelen for σ betegnes ofte som det teoretiske standardavviket, mens formelen forstandardavvik i utvalg kalles det empiriske standardavviket. I fortsettelsen bruker vi formelenfor det empiriske standardavviket.

8.2.2 Regneformler for standardavvik

I formelen for standardavviket inngår også gjennomsnittet. Ved å sette inn formelen for gjen-nomsnittet, samt bruke 2. kvadratsetning får vi:

Ved å bruke tallene fra eksempel 8.2.1 ser vi at standardavviket også kan finnes ved å setteinn i denne formelen:

sx x–( )2∑

N 1–��������������������������

528 1–������������ 7.43 2.7= = = =

σx x–( )2∑N

��������������������������=

sx x–( )2∑

N 1–��������������������������=

sx2 2 x x x( )2+⋅ ⋅–( )∑

N 1–����������������������������������������������������������=

sx2∑ 2x x∑– x( )2 1∑+

N 1–����������������������������������������������������������������=

sx2∑ 2x Nx⋅– x( )2 N⋅+

N 1–���������������������������������������������������������������=

sx2∑ N x( )2–

N 1–����������������������������������=

sx2∑ N x( )2–

N 1–����������������������������������

502 8 7.52⋅–8 1–

��������������������������������

527������ 2.7≈= = =

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 66: forstå_statistikk

SIDE 66 FORSTÅ STATISTIKK

gent-

aller enhe-å duhets-

erstetsnum-

dnedevi kan

Formelen forenkler regningen, men ikke den intuitive forståelsen av hva standardavvik elig er. Vi vel derfor kalle dette for en regneformel. For hyppighetsfordelinger blir formelen

Tilsvarende kan standardavviket regnes ut for klassedelte eller grupperte fordelinger

8.3. Kvartilavvik

Kvartiler Kvartilavviket sier noe om spredningen til de midterste 50% av fordelingen. Kvartiler kvi verdiene til de tre enhetene som deler en ordnet fordeling i fire deler med like mangeter i hver del. Kvartilene finner du etter samme prinsipp som du fant medianen. Først mfinne hvilket enhetsnummer som utgjør kvartilen, deretter lese av verdien til dette ennummeret.

Formel for kvartilavvik

Kvartilavviket (Q) utgjør halvparten av differansen mellom den øverste og den nedkvartilen. I tabellen betegner q1 enhetsnummeret mens Q1 angir verdien til dette enhemeret.

Det er flere måter å beregne kvartilene på. Vi kan enten finne kvartilene direkte i den orfordelingen, og da bruker vi samme metode som når en skulle finne medianen, eller bruke den kumulative fordelingen til å finne kvartilene.

Medianen er identisk med Q2 d.v.s. den midterste observasjonen i fordelingen.

Observasjon nr q1 og q3 finner du slik:

der N er totalt antall enheter.

STANDARDAVVIKET : sh x⋅ 2∑ N x( )2–

N 1–�����������������������������������������=

sh m⋅ 2∑ N x( )2–

N 1–�������������������������������������������=

Enhet nr. - 1 2 ... q1 ... q2 ... q3 ... N

Verdi - x1 x2 ... Q1 ... Md ... Q3 ... xN

Område ←25%→ ←25%→ ←25%→ ←25%→

Akkumulert 0% 25%→ 50%→ 75%→ 100%→

K VARTILAVVIK : QQ3 Q1–

2�������������������=

q1N4����

12���+= q3, 3 N⋅

4�����������

12���+=

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 67: forstå_statistikk

SPREDNING SIDE 67

Eksempel 8.3.1

I eksempelet under er x månedslønn i 1000 kr for butikkansatte.

Først finner vi hvilke enhetsnummer kvartilene utgjør.

q1 er enhetsnummer 20 og q3 er enhetsnummer 58. Det vil i vårt eksempel si person nummer20 og 58 i fordelingen av lønn, der enhetene er ordnet etter stigende verdier.

Det mest korrekte ville være å ta gjennomsnittet av enhet nr 19 og 20 for å finne Q1, og til-svarende av enhet 57 og 58 for å finne Q3. Vi nøyer oss imidlertid med å gå til nærmeste heleverdi. I dette tilfellet ville resultatene blitt helt like, siden de aktuelle enhetene har akkurat desamme verdiene.

I den kumulative fordelingen finner vi enhetsnummer 19 i gruppen fra 8-20. Alle disse harverdien 12. Q1 blir derfor 12. Tilsvarende finner vi q3 i gruppen av enhetsnumre fra 50-60.Disse har verdien 15.

Dette forteller oss at halvparten av de ansatte har en månedslønn mellom 12000 og 15000kroner. En firedel har høyere lønn og en firedel har lavere lønn.

Kvartilavviket finner vi ved å sette inn i formelen for Q.

x h k·h Enhetsnummer

10 4 4 1 - 4

11 3 7 5 - 7

12 13 20 8 - 20

13 20 40 21- 40

14 9 49 41- 49

15 11 60 50 - 60

16 6 66 61- 66

17 3 69 67 - 69

18 5 74 70 - 74

19 1 75 75

25 1 76 76

q1N4����

12���+

764������ 0.5+ 19.5= = =

q33 N⋅

4�����������

12���+

3 76⋅4

�������������

12���+ 57.5= = =

QQ3 Q1–

2�������������������

15 12–2

������������������ 1.5= = =

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 68: forstå_statistikk

SIDE 68 FORSTÅ STATISTIKK

en-mme

urven.ppig-

Kvartilavviket gir et normert mål for avstanden mellom øvre og nedre kvartil. Å sammligne ulike kvartilavvik gir bare mening dersom en sammenligner ulike grupper på savariabel, for eksempel kvartilavviket for lønnen til markedssjefer og salgssjefer (figur 8.3).

Vi kan beregne kvartilene på en enkel måte ved å bruke den kumulative hyppighetskFor å finne kvartilene, trenger vi bare å trekke horisontale linjer fra 25% og 75% på hyhetsaksen.

Figur 8.3. Avledning av kvartilene fra kumulativ hyppighetskurve

��� ������ ����� ��� ���������������

��

��

��

���

�� �� �� �� �� �� �� �� � � ��

�� ���

��� �

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 69: forstå_statistikk

9. Oppgaver til seksjon 2

Oppgaver til kapittel 7:

Oppgave 7.1En bedrift har en begynt med et nytt faktureringssystem. For å teste systemets effektivitet,d.v.s. den tiden det tar å effektuere en faktura, måles ekspedisjonstiden ved 10 tilfeldigeekspederinger. En finner følgende resultater (i sek).

a) Finn gjennomsnittlig ekspedisjonstid.

b) Finn medianen

c) Hvis du sammenligner resultatene fra pkt a og pkt b, hva finner du? Hvordan vil duforklare forskjellen?

Oppgave 7.2En informasjonsmegler søker etter referanser i samme database 10 ganger i løpet av en uke.Søketidene er som følger (antall minutter)

a) Hva er gjennomsnittlig søketid?

b) Finn medianen.

c) Du skal fortelle hva som er den “vanligste” søketiden ved søk i denne databasen. Hvaville du si til en ny kunde, og hvordan vil du begrunne svaret?

Oppgave 7.3I forbindelse med planer om utvidelse av lageret i en bokhandel, har en trukket et utvalg på75 hyller for å finne ut hvor mange bøker som gjennomsnittlig står på hver hylle.

Sum av antall hyller er 61.

a) Beregn median og gjennomsnitt

b) Tegn et histogram med hyppighetskurve.

20 27 29 36 40 55 69 70 70 100

12 14 45 19 9 11 21 20 17 14

Antall bøker (x) 15 16 19 21 22 23 24

Antall hyller (h) 3 2 4 2 6 4 7

Antall bøker (x) 25 27 28 29 30 31

Antall hyller (h) 11 5 8 4 3 2

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 70: forstå_statistikk

SIDE 70 FORSTÅ STATISTIKK

er:

sva-

e hvem “Hvor

Oppgave 7.4 20 kunder i et salgsregister har i løpet av foregående år notert følgende antall bestilling

a) Finn aritmetisk gjennomsnitt.

b) Finn median.

c) Hvis ikke gjennomsnitt og median er like, hvordan vil du forklare forskjellen?

d) Hva vil du svare hvis du ble bedt om å angi “typisk antall bestillinger”? Begrunn ret.

e) Ved å gruppere data, får vi følgende fordeling:

f) Finn gjennomsnittet i den grupperte fordelingen.

g) Tegn et kumulativt diagram og finn medianen ved avlesning i diagrammet.

Oppgave 7.5 En dataforhandler har gjennomført en markedsundersøkelse for blant annet å kartleggsom kommer til å kjøpe PC i året som kommer. Tallene under er hentet fra spørsmåletmye tror du en rimelig hjemme-PC koster? (i 1000 kroner).

1 2 6 2 6 5 21 4 1 10

2 6 2 41 8 9 46 8 44 24

Antall salgHyppig-

het

x h

��� �

��� �

����� �

����� �

����� �

����� �

����� �

����� �

����� �

����� �

SUM ��

Pris 1 2 3 4 5 6 7 8 9 10 11 mer

Frekv. 1 1 3 5 26 11 9 22 6 31 4 18

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 71: forstå_statistikk

OPPGAVER TIL SEKSJON 2 SIDE 71

Finn medianen. Fremstill fordelingen grafisk og finn kvartilene ved avlesning på grafen.Hvorfor kan vi ikke beregne gjennomsnittet av denne variabelen?

Oppgave 7.6(Denne oppgaven løses etter at du er ferdig med kapittel 13)

En leverandør av datamaskiner finner at antall ukentlige reklamasjoner er normalfordelt medgjennomsnitt 15 og standardavvik 4.

a) Hva er medianen?

b) Finn øvre kvartil (Q3)

c) Tegn den kumulative hyppighetsfordelingen.

Oppgaver til kapittel 8:

Oppgave 8.1Beregn standardavviket for oppgave 7.1 til og med oppgave 7.4. Finn kvartilene og beregnkvartilavviket.

Oppgave 8.2Ut fra tallene i oppgave 7.5 skal du:

a) Finne kvartilene og beregne kvartilavviket.

b) Beregne standardavviket. Sett opp regnestykket slik du finner det i boka. Sammenlignformelen for standardavvik i boka med den du finner i veiledningen til kalkulatoren.

c) Beregne standardavviket til tallene ved hjelp av kalkulatoren. Sett opp formelen ogbruk kalkulatoren til å finne de tallene som skal settes inn.

Oppgave 8.3a) Finn standardavviket for følgende fordeling

b) Tegn en kumulativ hyppighetsfordeling og finn median og kvartiler ved å lese av pådiagrammet.

9

x h

��� 25

����� 30

����� 20

����� 10

�� 0

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 72: forstå_statistikk

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 73: forstå_statistikk

Seksjon 3

Nøkkeltall og hyppigheter for bivariate fordelinger

Anta at du ønsker å finne ut om det er gutter eller jenter som drikker mest øl. Du studerervariabelen “øldrikking” og finner at av de jentene som blir spurt svarer 19% at de har smaktøl siste måned, mens tilsvarende tall for gutter er 37%. Tallene indikerer at det er sammen-heng mellom variablene kjønn og øldrikking. Dette kan vi undersøke nærmere ved hjelp avulike bivariate teknikker. I denne delen av boken skal du lære om tabellanalyser og ulike målfor samvariasjon. Tabellanalysen angir hvor mange enheter som har hver av de to kombinerteverdiene, for eksempel at de er kvinner og at de har smakt øl. Tabellene angir dermed hyppig-heter, mens samvariasjonsmålene er nøkkeltall.

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 74: forstå_statistikk

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 75: forstå_statistikk

10. Univariat og multivariat analyseEn eller flere variabler

I bokens innledende kapitler så vi på en og en variabel, og ut fra datamatrisen konstruerte vihyppighetsfordelinger og nøkkeltall. I mange sammenhenger trenger vi imidlertid å se påflere variabler samtidig. Dette gjør vi dersom vi for eksempel ønsker å se om en gruppe mennog kvinner er like eller forskjellige på en variabel.

En enkel måte å gjøre slike analyser på, er å se på målene for sentraltendens for de to grup-pene. Dersom gjennomsnittsalderen for menn er annerledes enn gjennomsnittsalderen forkvinner, har vi vist at gruppene er forskjellige med hensyn til den variabelen vi undersøker.Vi kan også gjøre tilsvarende undersøkelser med standardavviket, for å se om forskjellenemellom de to gruppene på variabelen kjønn er like eller forskjellige.

Bivariat ana-lyse

Hyppighetsfordelingene vi har sett på hittil i boka, samt målene for sentraltendens og spred-ning, er eksempler på de viktigste analyseredskapene for univariate fordelinger. I praksis servi imidlertid raskt at vi har behov for å analysere flere variabler samtidig. Den enkleste for-men for slik analyse er bivariat analyse.

I de neste kapitlene skal vi se på bivariate hyppighetsfordelinger (tabeller), samt på nøkkeltallfor denne type beskrivelser.

Fra kapittelet om målenivåer husker du kanskje at det er variablenes målenivå som for en stordel forteller hvilke av de ulike metodene vi skal bruke. I de tre neste kapitlene skal vi anvendevariabler på alle de tre brukte målenivåene, og finne metoder som kan brukes på alle typervariabler. Selvsagt er det også her slik at metoder som kan brukes på et lavt målenivå (nomi-nal), også kan brukes på høyere målenivåer, men den motsatte bruk av metodene er ikke til-latt. Du kan ikke regne gjennomsnittet av en ordinalvariabel.

I praksis betyr det at tabellanalysen kan gjøres på alle typer variabler, mens korrelasjon ogregresjon bare kan benyttes på variabler som er på intervall- eller forholdstallsnivå. Til varia-bler på ordinalnivå kan vi bruke rangkorrelasjon. Siden det er svært vanlig å bruke variablerpå ordinalnivå innen markedsanalyse, er denne metoden også spesielt nyttig ved analyser avslike tallmaterialer.

Multivariate analyseteknikker angir at det er flere enn to variabler som analyseres samtidig.Mest brukt er tabellanalyse med tre eller i prinsippet enda flere variabler, samt multippelregresjon. Vanligvis brukes lineær regresjon. Det vil si at dataene blir forsøkt tilpasset en rettlinje. Denne teknikket er mest benyttet, ikke fordi at de fleste fenomener vi studerer i virke-ligheten er lineære, men fordi det er lett å regne med lineære sammenhenger. Når vi har data-maskiner som utfører regningen, er det også lett å undersøke dataenes tilpasning til andrefunksjoner enn de lineære. Prinsippet for kurvelineær tilpassing er det samme som lineærregresjon, men regnestykkene vil se annerledes ut.

BIVARIAT ANALYSE : Sammenligning av enhetenes verdier på to variabler.

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 76: forstå_statistikk

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangivelse.

Page 77: forstå_statistikk

11. TabellanalyseTabeller er den vanligste måten å presentere enhetenes samtidige verdier på to variabler på. Ipraksis sammenligner vi hyppighetsfordelinger for flere grupper, for å se om det er systema-tiske forskjeller mellom gruppene. Tabellanalysen gir en metode for å gjennomføre slike ana-lyser.

11.1. Hva er en tabell?

En tabell er en hyppighetsfor-deling med to eller flere vari-abler

En tabell er prinsippet ikke annet enn en hyppighetsfordeling, der hyppighetene telles opp pågrunnlag av de kombinerte verdiene på to eller flere variabler. La oss for eksempel spørre engruppe menn og kvinner om de har lagt merke til en bestemt annonse som har vært rykket inni dagspressen i løpet av den siste uka. Resultatene er framstilt i tabellen under.

Figur 11.1.

Dermed har vi to variabler: “Kjønn” med verdiene mann og kvinne og“kjennskap tilannonse” som har verdiene ja og nei.

Bivariate vari-abler

Siden variablene har to verdier hver, kan enhetene i alt ha fire unike kombinasjoner av ver-dier. Disse fire kombinasjonene finner du i eksempelet hos de fire første enhetene i datamatri-sen. Alle andre enheter må ha en av disse fire unike kombinasjonene. Dermed ser vi at detogså er bare fire kombinerte verdier i tabellen. Dette er grunnen til at tabeller som har bare tobivariate variabler (hver variabel har bare to verdier) kalles firefeltstabeller.

11.2. Prinsippet for tabellanalysePrinsippene for tabellanalyse kan best illustreres ved et eksempel:

�����

��������

����� ���������

���

������

�� ���

���

���

���

���

������

������

������

���

��

��

��

��

��

���

���

���

�����������

� �

� �

������ �����

����� ����������

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 78: forstå_statistikk

SIDE 78 FORSTÅ STATISTIKK

k fra blant om de

ortereres- i de to

eller av

etid til

r.

ingsti-e bare

berørt

Eksempel 11.2.1

En liten dagligvareforretning ville undersøke om det blant dem som bodde lengst vekbutikken var flere som hadde problemer med å komme i vanlig åpningstid 9-17, enndem som bodde nært. De undersøkte brukernes reisetid (over/under en halv time) oghadde problemer med å komme i åpningstida (ja/nei).

Av “råtallene” ser vi at det er nesten tre ganger så mange som bor en halvtime eller kfra butikken, som antallet som bor lengre enn en halv time vekk. Her er vi imidlertid inteserte i å sammenligne andelene som har problemer med å komme i ordinær åpningstidgruppene med ulik reisetid.

For å gjøre tallene for de to gruppene direkte sammenlignbare, regner vi om til prosent. Viprosentuerer tabellen med utgangspunkt i summene for hver av gruppene.

Prosentdiffe-ranse

I praksis sammenligner en prosentsatsene for de to gruppene, for å se om det er forskjbetydning. Dette gjør en best ved å beregne prosentdifferansen.

I dette eksempelet finner vi at det er 9% flere i gruppen med mer enn en halv times reisbutikken som har problemer med å komme i ordinær åpningstid fra 9-17.

Samvariasjon Prosentdifferansen i tabellen gir oss et mål for samvariasjonen, eller sammenhengen mellomde to variablene.Den angir hvor store forskjeller det er mellom de variablene vi studere

Dersom vi skulle bruke disse dataene til å fatte en beslutning om eventuelt å endre åpndene, er det naturlig også å ta hensyn til hvor mange som er berørt av problemet og ikkandeler, slik vi regner ut i tabellanalysen. I dette tilfellet er det få personer (10) som er av problemet. Det virker derfor ikke særlig fornuftig å endre åpningstiden.

Proble-mer i

åpnings-tida

Avstand til butikken

≤½ time >½ time Sum

Ja 18 10 28

Nei 69 23 92

Sum 87 33 120

Proble-mer i

åpnings-tida

Avstand til butikken

≤½ time >½ time % diff

Ja 21 30 -9

Nei 79 70 9

Sum 100 100 0

PROSENTDIFFERANSE: Prosentvis forskjell mellom ulike grupper på den uavhen-gige variabelen.

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 79: forstå_statistikk

TABELLANALYSE SIDE 79

11.3. Tolkning av tabeller

Forskjeller og absolutt nivå

Når vi skal tolke en tabell, er det i prinsippet to forhold vi er interesserte i. Det viktigste erknyttet til forskjellene på de ulike gruppene vi studerer. I tillegg er vi også interesserte i hvil-ket “nivå” verdiene ligger på, det vil si om det er en stor eller liten andel som har de egenska-pene vi undersøker. I tabellen over finner vi at 21% av dem som bor nært butikken oppgir atde har problemer med å komme i åpningstida. Dette er 9% mindre enn i gruppen som borlangt unna butikken.

Denne tolkningen kunne like gjerne tatt utgangspunkt i det største tallet. Da ville tabellen hafortalt oss at 30% av dem som bor langt unna butikken har problemer med å komme iåpningstida. Dette er 9% mer enn tilsvarende tall for dem som bor nært butikken.

Tilsvarende kunne en også tatt utgangspunkt i andelene som ikke hadde problemer med åkomme i åpningstida. Hvilket av alternativene vi velger, er blant annet avhengig av hva vi vilat mottakerne av informasjonen skal feste seg ved.

11.3.1 Hva er en stor prosentdifferanse?

En kan sjelden si noe generelt om hva som vil være en stor eller liten prosentdifferanse. Deter blant annet avhengig av hvor mange enheter som ligger til grunn for tabellen.

I tabellen på forrige side var antallet personer med mer enn en halv times reisetid til butikken33. Det betyr at hver person utgjør omlag 3%. Dersom 3 personer av de 33 hadde “ombe-stemt seg” og sagt at de ikke har problemer med å nå butikken i åpningstida, ville det ikkevært noen prosentdifferanse. Da hadde vi konkludert med at det ikke var noen sammenhengmellom reisetid til butikken og problemer med å komme i ordinær åpningstid.

SignifikanstestDet finnes imidlertid statistiske tester som kan hjelpe oss å svare på dette spørsmålet. Vedanalyse av tabeller, er det en fordel å benytte en signifikanstest før en trekker slutninger frainnholdet i tabellen. En slik test er omtalt i kapitlet om kjikvadrat.

11.4. Større tabellerI eksempelet over illustreres tabellanalysen med firefeltstabeller. Prinsippene for analyse erde samme også på større tabeller. Prosentdifferansene regnes vanligvis ut mellom de verdienesom er mest forskjellige. Vi kan imidlertid også kommentere forskjellene mellom de enkeltegruppene direkte. Forutsatt at det er relativt store forskjeller mellom gruppene, får vi merinformasjon ved å kommentere forskjellene mellom alle gruppene. Også her er det bruken avtabellen som er bestemmende for hvordan vi analyserer den.

Eksempel 11.4.1

Innholdet i tabell 11.1 kan tolkes slik: Totalt har 30% høy motivasjon og hele 50% lav moti-vasjon for å slutte å røyke. Det synes å være en klar sammenheng mellom motivasjonsnivå ogutdanning, i det 40% av dem med den høyeste utdanningen er høyt motivert mot bare 22% avdem i gruppen med lav utdanning.

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 80: forstå_statistikk

SIDE 80 FORSTÅ STATISTIKK

er denålet erne.

ntuert.n

ngige ulike

forår-

påvir-ldbar,r røy- godt

Tabellen viser mye mer enn dette, for eksempel at andelen som er middels motivert samme for alle utdanningsnivåene. Kanskje bør du ta med denne opplysningen. Mimidlertid ikke å formidle mest mulig av informasjonen fra tabellen, men hovedtendense

11.5. Om prosentuering og analyseHusk at du skal sammenlikne prosenttallene på tvers av den retningen tabellen er proseFor at analysene dine skal bli korrekte, er det viktig at du beregner prosenttallene i tabelleden riktige veien.

Avhengig og uavhengig variabel

De to variablene i tabellen kalles for avhengig og uavhengig variabel. Det er den avhevariabelen vi egentlig er interessert i å studere. Vi ser om det er forskjeller mellom degruppene (verdiene) på den uavhengige variabelen.

Dersom det er en årsakssammenheng mellom de to variablene, vil den variabelen somsaker en effekt være den uavhengige. Den variabelen som blir påvirket er avhengig.

I eksempel 11.4.1 er utdanning uavhengig variabel, siden vi antar at utdanningsnivåetker motivasjonen for å slutte og røyke. For å teste om logikken i resonnementet er hokan du prøve det motsatte forholdet. Her ser du at verdien på variabelen motivasjon fokestopp ikke kan påvirke utdanningsnivået. En får ikke høyere utdanning ved å væremotivert, men en kan få bedre motivasjon av å ha høy utdanning.

Tabell 11.1.

Utdanning

TotaltGrunn-skole

Videre-gående

Univer-sitet /

høyskole

Motiva-sjon for å slutte å røyke

Høy 22 31 40 30

Middels 18 19 20 20

Lav 60 50 20 50

100 100 100 100

Avhe

ngig

var

iabe

l

Sammen-

Uavhengig variabel

Pros

ente

rings

-re

tnin

g

lignings-retning

Uavhengig variabel Avhengig variabel

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 81: forstå_statistikk

TABELLANALYSE SIDE 81

At det er sammenheng mellom to variabler, betyr ikke automatisk at det er en årsakssammen-heng eller kausalitet mellom de samme variablene. Det skulle følgende eksempel vise:

Eksempel 11.5.1

Under Lofotfisket viste det seg å være korrelasjon mellom antall kilo oppfisket torsk og antalltilfeller av kjønnsykdommer. Dette kunne indikere følgende sammenheng:

Selv om kan regne ut korrelasjonen, er ikke dette bevis for at det er en årsakssammenheng.Denne korrelasjonen kan bli påvirket av en tredje variabel som er direkte korrelert med hverav de to andre variablene over.

Kontroll for tredje variabel

For å teste om det er kausalitet, måtte vi derfor kontrollere for effekten eller påvirkningen fraen tredje variabel. I praksis gjør vi dette ved å analysere samvariasjonen separat for hver avgruppene på den tredje variabelen. Du kan lese mer om hvordan dette gjøres i bøker somomhandler samfunnsvitenskapelig metodelære. Selve metoden for å kontrollere for 3. varia-bel vil vi ikke gjennomgå her, men det er viktig å være oppmerksom på denne problemstillin-gen,

For at det skal være en kausalsammenheng mellom to variabler, må de to variablene værekorrelerte. Det er imidlertid ikke nødvendigvis en kausalsammenheng mellom to variabler,selv om de er korrelerte.

Dersom vi skal påvise en kausal- eller årsakssammenheng mellom to variabler, må vi ha enteori om hvorfor det er en slik sammenheng. Den statistiske analysen kan bare indikere at deter et årsak-virkningsforhold mellom to (eller flere) variabler, men ikke bevise det.

Uavhengig variabel Avhengig variabel

Utdanning Motivasjon

Fiskemengde Kjønnssykdommer

Fiskemengde Kjønnssykdommer

Menns aktiviteter

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 82: forstå_statistikk

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 83: forstå_statistikk

12. Korrelasjon og regresjonMålene for korrelasjon eller samvariasjon viser i hvilken grad det er systematiske sammen-henger mellom enhetenes verdier på to eller flere variabler. I denne boka vil vi holde oss tilbivariate analyser, dvs analyse av to samtidige variabler. Korrelasjonene kan vises på tomåter, enten som grafiske framstillinger av variablenes samtidige verdier i et spredningsdia-gram, eller som nøkkeltall.

Pearsons r er et nøkkeltall som viser grad av samvariasjon mellom to variabler på intervall-nivå. Dette er det mest brukte målet for denne typen analyser.

Samvariasjonen mellom to variabler kan beskrives ved de tre dimensjonene form, retning ogstyrke. I dette kapitlet vil vi behandle en metode som tar utgangspunkt i at det er en lineærsammenheng mellom variablene, det vil si at formen kan tilpasses en rett linje.

Figur 12.1. Regresjon og korrelasjon

Pearsons r og regresjonsana-lyse

Pearsons r eller Pearsons produktmomentkorrelasjonskoeffisient, er et mål som sammen medlineær regresjon angir et datamateriales tilpasning til en lineær sammenheng. Ved hjelp avregresjon kan vi bestemme retningen på linjen helt nøyaktig, og korrelasjonen gir oss et målfor tilpasningen til linjen. Dette er derfor teknikker som hører nært sammen, men som har littulike bruksområder.

Det finnes ulike mål for samvariasjon mellom variabler. Disse forutsetter forskjellige betin-gelser for eksempel med hensyn til type linearitet. Figur 12.2 gir en grafisk illustrasjon av etdatamateriale med henholdsvis positiv og negativ korrelasjon. Figur 12.3 viser hvordan detkan se ut dersom det ikke er noen sammenheng i det hele tatt eller hvis det er en ikke-lineærsammenheng. Det kan altså være en sammenheng mellom variablene, selv om denne ikkeblir målt med Pearsons r som jo forutsetter at sammenhengen er tilnærmet lineær.

Figur 12.2. Datasett med positiv og negativ korrelasjon

Korrelasjons-koeffisient

Styrken på sammenhengen viser tilpasningen til den rette linjen. Korrelasjonskoeffisienten eret mål som forteller hvor god tilpasning det er mellom datamaterialet og den rette linjen.

Form Retning Styrke

KorrelasjonRegresjon

������� ����� ��

���

���

���

��

���

���

� ��� � ���

������ ����� ��

���

���

� ��� � ���

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 84: forstå_statistikk

SIDE 84 FORSTÅ STATISTIKK

t er

e linjen.gen er

er har pr på tal-

Målet varierer mellom -1og +1, der 0 angir at det ikke er korrelasjon, mens -1 angir at deperfekt negativ korrelasjon og +1 perfekt positiv korrelasjon.

Figur 12.3. Datasett uten (lineær) korrelasjon

Når sammenhengen er sterk, er observasjonene samlet enten på eller like ved den rettDess større spredningen rundt linjen er, dess mindre er samvariasjonen. Når spredninså stor at en ikke kan finne noen sammenheng, sier vi at variablenes verdier er uavhengige avhverandre.

Eksempel 12.0.1

En salgssjef mener å se at det er en sammenheng mellom antall salgssamtaler en selgdag og bestillinger fra de berørte kundene. Han undersøker sammenhengen ved å selene for 10 selgere. Resultatene er framstilt i tabellen under.

For å få et første overblikk over dataene, har han også tegnet et spredningsdiagram.

KORRELASJONSKOEFFISIENT : Mål som varierer mellom ±1 og som viser et data-setts tilpasning til en kurve.

Telefoner 7 10 6 8 9

Ordre 5 8 3 6 8

Telefoner 12 9 11 5 8

Ordre 7 7 8 4 6

������� ����� ��

���

���

���

��

� ��� � ���

���� ����� ��

���

� ��� �

� � � � �� ��

���������

�����

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 85: forstå_statistikk

KORRELASJON OG REGRESJON SIDE 85

Spredningsdiagrammet viser at det er en systematisk sammenheng, på den måten at de sel-gerne som har flest salgssamtaler også gjennomgående har flest ordre.

12.1. Samvariasjon og Pearsons rDet mest brukte målet for samvariasjon er Pearsons r. Dette målet forutsetter at variablene erpå intervallnivå, eller at en bruker dikotome variabler (variabler med bare to verdier, ekskjønn). Verdien på den dikotome variabelen kodes 0 og1.

Pearsons r mellom -1 og +1

Pearsons r er en koeffisient som varierer mellom -1 og +1. -1 betyr perfekt negativ korrela-sjon, 0 viser at variablene er uavhengige av hverandre og +1 viser perfekt positiv korrelasjon.

Prinsippet for beregningen er at en sammenligner avstanden mellom enhetenes verdier oggjennomsnittet for hver av de to variablene.

Korrelasjonskoeffisienten (Pearsons r) beregnes etter følgende formel:

der er gjennomsnittet av variabel x, er gjennomsnittet av variabel y, sx er standardavviketav variabel x og sy er standardavviket av variabel y.

For å forenkle utregningene kan vi benytte en regneformel. Den framkommer ved at vi setterinn formelen for og . Da får vi

Pearsons r, regneformel

Eksempel 12.1.1

I tabellen under har vi beregnet korrelasjonskoeffisienten for tallene i eksempel 12.0.1.

PEARSONS R:

Enhet nr Antall tlf Antall besøk

1 17 30 3.9 4.6 17.94

2 6 20 -6.1 -6.4 39.04

3 6 19 -7.1 -6.4 45.44

4 14 27 0.9 1.6 1.44

5 12 25 -1.1 0.4 -0.44

rx x–( ) y y–( )∑

sx sy N 1–( )⋅ ⋅�����������������������������������������=

x y

x y

r

n x y⋅( )∑⋅ x∑ y∑

⋅–

n x2∑⋅ x∑ 2

– n y2∑⋅ y∑ 2

–⋅

��������������������������������������������������������������������������������������������������������������=

x y y y– x x– x x–( ) y y–( )

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 86: forstå_statistikk

SIDE 86 FORSTÅ STATISTIKK

ssam-nomgå-

erer for

t

Vi finner at r blir 0,93.

Verbalt kan vi uttrykke dette ved å si at antallet ordre er proporsjonalt med antallet salgtaler. Eller sagt på en annen måte: De selgerne som har mange salgssamtaler, har gjenende flere ordrer en de selgerne som har få salgssamtaler.

12.1.2 Begrensninger ved Pearsons r

Alle statistikkprogrammer for datamaskiner kan beregne korrelasjonskoeffisienter. Tallene det derfor lette å framskaffe. Vær imidlertid oppmerksom på begrensningene som gjeldprodukt-momentkorrelasjonen (Pearsons r).

6 19 36 9.9 6.6 65.34

7 12 26 -0.1 0.4 -0.04

8 11 21 -5.1 -1.4 7.14

9 13 26 -0.1 0.6 -0.06

10 14 31 4.9 1.6 7.84

N=10 124 261 184.60

a) Pearsons r gir bare uttrykk for lineære sammenhenger mellom variablene.D.v.s. at det kan være en sterk sammenheng mellom variablene uten aPearsons r “fanger” opp dette.

b) Pearsons r kan bare brukes når begge variablene er på intervallnivå. Diko-tome variabler (variabler med bare to verdier) kan likevel brukes. På varia-belen “nasjon” kan f.eks verdien “norsk” kodes 1, mens verdien “ikkenorsk” får koden 0.

c) En må være forsiktig med å tolke koeffisientens styrke. Denne avhengerogså av antallet observasjoner. Vanligvis brukes koeffisienten i sammen-heng med en signifikanstest (se kapittel 18 om hypotesetesting)

Enhet nr Antall tlf Antall besøk

x y y y– x x– x x–( ) y y–( )

x 12.4= y 26.1=

sx 4.1= sy 5.3=

rx mx–( ) y my–( )∑

sx sy N 1–( )⋅ ⋅�������������������������������������������������

184.69 5.3 4.1⋅ ⋅��������������������������� 0.93= = =

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 87: forstå_statistikk

KORRELASJON OG REGRESJON SIDE 87

12.2. RegresjonVi har sett at observasjonene samlet seg langs en rett linje dersom korrelasjonen mellom vari-ablene var høy. Med mindre alle observasjonene var samlet nøyaktig på den rette linjen, villedet imidlertid bli svært vanskelig å tegne bare én rett linje gjennom observasjonene.

Minste kva-draters metode

Den rette linjen gjennom observasjonene kan imidlertid beregnes på en enkel matematiskmåte. Minste kvadraters metode gir oss den linjen som best mulig opphever negative og posi-tive kvadrerte avvik fra gjennomsnittene på de to variablene.

Etter minste kvadraters metode plasseres linjen slik at summen av de kvadrerte avstandenefra linjen til hver av observasjonene blir minst mulig.

Selve linjen beskrives med formelen

der a er linjens skjæringspunkt med y-aksen, og b er stigningstallet, det vil si stigningsforhol-det vis a vis x-aksen. Det angir hvor mange enheter vi må øke y-verdien med for hver verdi xøker med.

Figur 12.4. Regresjonslinjen.

Denne linjen kaller vi regresjonslinjen eller regresjonskurven.

Den bruker vi til å beregne hvilke verdier enheter med en gitt verdi på x variabelen har på denavhengige variabelen y.

a og b kaller vi regresjonskoeffisientene. Disse beregnes etter følgende formler.

REGRESJON: metode til å bestemme formen på en kurve som beskriver dataenesform i spredningsdiagrammet.

y a b x⋅+=

� � �

��

bx x–( ) y y–( )⋅[ ]∑sx

2 n 1–( )⋅��������������������������������������������������= a y b x⋅( )–=

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 88: forstå_statistikk

SIDE 88 FORSTÅ STATISTIKK

t. For

klesteen. I

Eksempel 12.2.1

Vi følger problemstillingen fra eksempel 12.0.1 videre. Først beregner vi regresjonskoeffisi-entene.

Av tabellen får vi:

Regresjonslinjen kan dermed skrives som

12.2.2 Tegne kurven

Når vi har beregnet regresjonskoeffisientene, kan vi tegne regresjonslinjen i diagrammeå tegne linjen må vi kjenne to punkter på linjen.

Skjæringspunktet med y-aksen er gitt (x=0). Det andre punktet kan vi regne ut. Det ener å velge en tilfeldig x-verdi, og så regne ut tilhørende y-verdi ved å sette inn i ligningvårt eksempel velger vi x = 20. Når vi setter inn i ligningen får vi

Enhet nr Antall tlf Antall besøk

1 17 30 3.9 4.6 17.94

2 6 20 -6.1 -6.4 39.04

3 6 19 -7.1 -6.4 45.44

4 14 27 0.9 1.6 1.44

5 12 25 -1.1 0.4 -0.44

6 19 36 9.9 6.6 65.34

7 12 26 -0.1 0.4 -0.04

8 11 21 -5.1 -1.4 7.14

9 13 26 -0.1 0.6 -0.06

10 14 31 4.9 1.6 7.84

N=10 124 261 184.60

x y y y– x x– x x–( ) y y–( )

x12410��������� 12.4= =

y26110��������� 26.1= =

sx2 154.4

9������������� 17.16= =

b184.6

17.16 9⋅��������������������� 1.2= =

a 26.1 1.2 12.4⋅( )– 11.2= =

y 11.22 1.2 x⋅+=

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 89: forstå_statistikk

KORRELASJON OG REGRESJON SIDE 89

Nå kjenner vi de to punktene vi trenger å kjenne og kan tegne linjen gjennom disse.

Hva brukes regresjonslinjen til?Anta at vi trekker et utvalg på N enheter fra en populasjon. Disse enhetene grupperes i etspredningsdiagram. Dersom vi nå trekker en ny enhet fra samme populasjon og en kjenner x-verdien (x1) for denne, hvordan kan vi finne den tilhørende y-verdien (y1)?

Den beste gjetningen eller estimatet for y-verdien, får vi ved å ta gjennomsnittet av y-verdi-ene for vedkommende x-verdi (x1). På denne måten kan en beregne gjennomsnittlig y-verdifor alle x-verdiene.

Denne beregningsmåten er praktisk gjennomførbar, men selvfølgelig svært arbeidskrevendedersom vi har mange x-verdier.

I stedet for å regne ut de gjennomsnittlige y-verdiene for hver av verdiene på x-variabelen,kan vi få samme opplysninger ved å bruke regresjonsligningen, dersom det er en lineær sam-menheng mellom variablene. Ved å sette inn for x i ligningen, kan vi på en enkel måteberegne tilhørende y-verdi.

Nå kan vi for eksempel estimere hvor mange besøk i skranken vi må regne med å få, dersomvi tror antallet telefoner en bestemt dag vil være 30.

Vi setter inn x = 30 i ligningen:

Dersom antallet telefoner er beregnet til å være 30, må vi regne med at antallet besøkende er47.

Dersom vi i et utvalg fra en populasjon har beregnet regresjonskurven, kan vibruke denne til å estimere y-verdien for enheter med kjent x-verdi.

y 11.2 1.2 x⋅+ 11.2 1.2 20⋅+ 35.2= = =

��

��

��

��

� � �� �� ��

y 11.27 1.2 x⋅+ 11.27 1.2 30⋅+ 47.22= = =

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 90: forstå_statistikk

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 91: forstå_statistikk

13. RangkorrelasjonRangkorrelasjon sammenlignes med Pearsons r. Den varierer mellom -1 og 1. Verdien 0 betyrat det ikke er noen samvariasjon mellom variablene. Da sier vi at variablene er uavhengige avhverandre. Rangkorrelasjonen brukes når variablene vi studerer er på ordinalnivå. Det vil siat vi kjenner bare enhetenes rangeringer på de to variablene, men vet ikke hvor store forskjel-ler det er mellom enhetene.

Av og til vil vi stå overfor problemet med å sammenligne ulike rangeringer av de sammeenhetene. Dette kan for eksempel gjelde to eller flere eksperter som skal uttale seg om hvasom er best eller viktigst.

Rangkorrelasjonskoeffisienten gir oss opplysninger om hvor samsvarende eller avvikende toeller flere rangering av de samme enhetene er. Dette kan vi illustrere med et praktisk eksem-pel.

Eksempel 13.0.1

I innkjøpsavdelingen i en motebutikk ønsker de å sammenligne to innkjøperes vurderingermed hensyn til mulig salg av 15 gensere fra en leverandør. De ønsker å finne ut om de to leg-ger noenlunde samme kriterier til grunn ved rangeringen, og dermed kommer fram til sammeresultat.

Tabell 13.1. To innkjøperes rangering av 15 gensere

Genser Person A Person B d d2

1 1 5 -4 16

2 2 1 1 1

3 3 3 0 0

4 5 2 3 9

5 4 4 0 0

6 10 10 0 0

7 9 8 1 1

8 7 7 0 0

9 8 6 2 4

10 11 12 -1 1

11 15 15 0 0

12 13 13 0 0

13 14 11 3 9

14 12 14 -2 4

15 6 9 -3 9

Sum 54

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 92: forstå_statistikk

SIDE 92 FORSTÅ STATISTIKK

erin-

antall

r. Denne avne er

at de

er enbelen

ør femariabe-

bereg-

erer som i

Prinsippet ved beregning av rangkorrelasjonen, er at vi sammenligner de parvise ranggene av hver enhet. Kolonne d viser differansen mellom de to innkjøpernes rangeringer,kolonne d2 viser den kvadrerte differansen.

Formel for rangkorrela-sjon

Rangkorrelasjonen (ρ) beregner vi etter følgende formel:

der Σd2 er summen av de kvadrerte differansene mellom de to rangeringene, og n erenheter. I vårt eksempel er Σd2 = 54, n = 15.

Vi setter tallene inn i formelen og får

Rangkorrelasjonen ρ blir altså 0.91

ρ (uttales rho) er en korrelasjonskoeffisient som tolkes på samme måte som Pearsonsvarierer mellom +1 og -1, der +1 er perfekt positiv korrelasjon, det vil si at begge rekkeenheter er rangert nøyaktig likt. Her er - 1 perfekt negativ korrelasjon, det vil si at enheterangert i nøyaktig motsatt rekkefølge.

Dersom ρ er 0, vil de to rangeringene være uavhengige av hverandre. Det betyr i praksisto som vurderer gensere, legger helt forskjellige kriterier til grunn for vurderingen.

Rho brukes i de tilfellene begge variablene er på ordinalnivå, eller den ene variabelenordinalvariabel og den andre en intervallvariabel. Vær oppmerksom på at intervallvariamå kodes om til en ordinalvariabel før den kan brukes til å beregne rangkorrelasjoner.

Anta at vi har fem personer med alder på henholdsvis 20, 21, 24, 22, 27 år. Dette utgjenheter på variabelen alder. Variabelen er på intervallnivå. For å kunne bruke denne vlen i beregning av rangkorrelasjon, må vi regne verdien om til rangeringer.

Rangkorrelasjonen benytter altså rangeringen og ikke variablenes egentlige verdier i ningen.

Eksempel 13.0.2

De fem personene fra avsnittet over, søker et idrettsstipend. Komitéen somskal vurdsakene, innstiller kandidatene ved følgende rangering (samme rekkefølge på personeavsnittet over):

RANGKORRELASJON :

Verdi 20 21 22 24 27

Rang 1 2 3 4 5

5 4 3 2 1

ρ �

��∑⋅

� �� �–( )⋅����������������������������–=

ρ � ��⋅( )

�� ��� �–( )⋅�����������������������������������–=

ρ ����

� ���⋅�����������������– � ����–= =

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 93: forstå_statistikk

RANGKORRELASJON SIDE 93

Nå kan vi regne ut rangkorrelasjonen mellom variablene alder (x) og innstilling til stipend(y).

Vi setter inn formelen og får

Rho blir i dette tilfellet -1, hvilket indikerer at samvariasjonen mellom variablene er perfekt,med negativt fortegn. Sjansen for å få idrettstipend ut fra komitéens vurderinger, er altsåomvendt proporsjonal med søkerens alder. I dette tilfellet kunne vi ha gjettet oss til resultatetbare ved å se på tallene i datamatrisen. Her ser vi jo at det er en perfekt omvendt rangering avenhetene på de to variablene.

x y d d2

1 5 -4 16

2 4 -2 4

3 3 0 0

4 2 2 4

5 1 4 16

Sum 40

ρ �

��∑⋅

� �� �–( )⋅����������������������������–=

ρ � ��⋅

� �� �–( )⋅����������������������������

– � �– �–= = =

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 94: forstå_statistikk

SIDE 94 FORSTÅ STATISTIKK

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 95: forstå_statistikk

14. Oppgaver til seksjon 3

Oppgaver til kapittel 10:

Oppgave 10.1I Lilleby har en funnet ut at 20 av i alt 35 menn handler i rabattvarehus. De resterende handleri nærbutikken. Tilsvarende tall for kvinner er 21 av i alt 51.

a) Lag en firefeltstabell på bakgrunn av tallene.

b) Prosentuer tabellen og beregn prosentdifferansene.

c) Hvordan vil du tolke resultatet fra pkt. b?

Oppgave 10.2Tallene i denne tabellen viser hvor mange av gruppen med henholdsvis lav og høy utdanningsom kjøper plater gjennom en bokklubb.

a) Er det noen forskjell i andelen som kjøper plater av dem med henholdsvis lav- og høyutdanning? Prosentuer tabellen og beregn prosentdifferansen.

b) Hva er enheter, variabler, verdier og hyppigheter i denne tabellen?

c) Hvordan ville du framstille resultatene grafisk? Tegn grafen.

Oppgave 10.3Bruk prosentdifferanser til å analysere følgende tabell. Dataene er fra en markedsundersø-kelse der en undersøkte om forbrukernes subjektive tilfredshet med et produkt hadde noensammenheng med “innpakningen” av produktet. Forklar hva tabellen sier oss.

Høy utdanning Lav utdanning Sum

Kjøper plater 116 148 264

Kjøper ikke plater 88 56 144

SUM 204 204 408

Subjektiv tilfredshet

Ikke/delvis til-freds

Svært tilfreds Sum

Kjøper fikk produktet levert

i “ny” emballasje49 1536 1585

Kjøper fikk gammel embal-

lasje292 280 572

Sum 341 1816 2157

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 96: forstå_statistikk

SIDE 96 FORSTÅ STATISTIKK

iste 10

e hvemkelsener sam-

seme-

r planerøkelse

Oppgave 10.4 Et markedsanalysefirma samlet inn informasjon fra et tilfeldig utvalg av 144 bilførere somble kategorisert på bakgrunn av alder og hvor mange nye biler de hadde kjøpt de sårene.

Prosentuer og kommenter.

Oppgave 10.5 En dataforhandler har gjennomført en markedsundersøkelse for blant annet å kartleggsom kommer til å kjøpe PC i året som kommer. Den som utførte markedsundersøønsket også å finne ut om en bør satse på annonser i Aftenposten. Tabellen under vismenheng mellom lesing av Aftenposten og planer om kjøp av PC.

Tolk tabellen. Gi datafirmaet råd om hvorvidt de skal satse på Aftenposten som annondium, forutsatt at du bare skal bruke denne tabellen som grunnlag for rådgivningen.

Oppgave 10.6 Et kredittselskap ønsker å finne ut hvor mange av de nåværende lånetakerne som haom å refinansiere sine lån eller kjøpe ny bolig det nærmeste året. En foretar en undersblant i alt 106 kunder og finner følgende:

20 - 29 år 30 - 39 år 40 og overTotal

t

0 19 5 12 36

1 23 13 12 48

2 11 18 7 36

mer enn 2 7 12 5 24

Totalt 60 48 36 144

Planer om kjøp av PC

SumJa Nei

LeserAftenposten

Nei 37 35 72

Ja 44 21 65

Sum 81 56 137

Planer om kjøp eller refinansiering

SUMNei Ja

Leier bolig 33 41 74

Eier egen bolig 7 25 32

SUM 40 66 106

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 97: forstå_statistikk

OPPGAVER TIL SEKSJON 3 SIDE 97

I planleggingen av en markedskampanje er de i tvil om de skal profilere seg overfor dem someier boligen selv eller dem som leier bolig.

Hva vil du anbefale selskapet å gjøre dersom du bare skulle ta hensyn til funnene i tabellen?(Tolk tabellen).

Oppgaver til kapittel 11:

Oppgave 11.1I en dagligvareforretning er en interessert i å finne ut hvilken sammenheng det er mellomantallet ganger folk benytter forretningen og de besøkendes boavstand til butikken. En harinntrykk av at folk som bor nær butikken bruker den oftere enn dem som bor lengre unna.

For å undersøke dette spør en 10 tilfeldige kunder og finner at avstanden til butikken (i km)og antall besøk (siste uke) for disse personene er som følger:

a) Framstill resultatene i et spredningsdiagram

b) Beregn korrelasjonskoeffisienten.

c) Gi en verbal tolkning av resultatet

Oppgave 11.2Avstand fra biblioteket innvirker på bruken. Men gjelder dette også for små avstander? Dettespørsmålet er av betydning når en skal ta stilling til plassering av bibliotek/informasjonssen-ter i et nybygg.

Det gjennomføres en undersøkelse i et større bibliotek som ligger i øverste etasje i et høy-bygg. 8 tilfeldige forskere som bruker biblioteket blir spurt om avstanden til biblioteket, oghvor mange ganger de har vært innom biblioteket i løpet av de siste 14 dagene. Resultatet bleslik:

Gjennomsnittet for hver variabel er 4, standardavvikene er 2, det vil si at , , sx= 2 og sy = 2.

a) Hva er enhetene i undersøkelsen?

b) Hvilke variabler blir undersøkt?

c) Tegn et spredningsdiagram for variablene.

d) Finn korrelasjonskoeffisienten mellom de to variablene.

Avstand til butikken � � � � � � � � � �

Antall butikkbesøk � � � � � � � �

Ansatt nr. 1 2 3 4 5 6 7 8

Avstand i etasjer. (x): 2 4 1 7 6 4 5 3

Ganger innom biblioteket. (y): 5 3 6 1 4 2 4 7

� �= � �=

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 98: forstå_statistikk

SIDE 98 FORSTÅ STATISTIKK

er

ng?

aringeratur

ttertid det sal-

il duettel-

Oppgave 11.3 Ved lagring av papir i et papirmagasin er det viktig å kontrollere/regulere både temperatur ogrelativ fuktighet. Tenk deg at vi måler både temperaturen og fuktigheten i magasinet, og som det er noen sammenheng mellom disse to målene. Et mulig resultat er:

Temperaturen har et gjennomsnitt ( ) på 20°C, standardavviket (sx) er 3°C. Fuktigheten haret gjennomsnitt ( ) på 60%, standardavviket (sy) er 15%.

a) Hva er enhetene i undersøkelsen?

b) Hvilke variabler blir undersøkt?

c) Tegn et spredningsdiagram for variablene. Ser det ut til at det er noen sammenhe

d) Finn korrelasjonen mellom de to variablene. Hvordan kan du tenke deg en forklpå sammenhengen? Kan en av variablene virke inn på den andre (optimal temp16°C - 24°C, optimal fuktighet 50% - 60%)?

Oppgave 11.4 Personaldirektøren i Super Salg A/S har brukt en test ved intervjuet av nye selgere. I eønsker han å undersøke hvorvidt det er sammenheng mellom resultatene fra testen ogget som de nyansatte oppnår første året etter ansettelsen. Resultatet for 5 selgere blir:

a) Tegn et spredningsdiagram

b) Regn ut korrelasjonskoeffisienten r.

c) Anta at dette resultatet gir et korrekt bilde av sammenhengen mellom X og Y. Vråde direktøren til å bruke testen som det viktigste evalueringskriterium ved ansser?

Observasjon nr: 1 2 3 4 5 6 7 8 9

Temperatur i °C (x): 20 22 20 16 17 23 20 25 17

Relativ fuktighet i %

(y):70 45 60 85 75 60 45 40 60

Selger Testresultat (X) Salg (i 1000) (Y)

A � �

B � ��

C � �

D �

E �� ��

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 99: forstå_statistikk

OPPGAVER TIL SEKSJON 3 SIDE 99

Oppgave 11.5En dataforhandler har gjennomført en markedsundersøkelse for blant annet å kartlegge hvemsom kommer til å kjøpe PC i året som kommer. Tallene under er hentet fra spørsmålet “Hvormye tror du en rimelig hjemme-PC koster? (i 1000 kroner).

Målene for samvariasjon forteller oss noe om sammenhengen mellom enhetenes samtidigeverdier på 2 variabler. I undersøkelsen har en funnet ut at samvariasjonen mellom variabelenover “forventninger til pris på PC” og variabelen “opplæring bør være inkludert i prisen”(verdier 1 = ja og 0 = nei) er 0,45. Dersom vi forutsetter at analysen er korrekt gjennomført,hvilket samvariasjonsmål er benyttet? Hvordan ville du beskrive sammenhengen for en per-son som ikke kan statistikk?

Oppgave 11.6Tallene under viser bestandsutviklingen for et bibliotek for årene 1992 - 1995.

Bibliotekaren ønsker på bakgrunn av tallene å framskrive bestanden for 1996.

a) Beregn regresjonslinjen

b) Tegn et spredningsdiagram og tegn inn regresjonslinjen.

c) Beregn hva bestanden i biblioteket vil være i 1996.

Hint: Betrakt bestanden som enhet. Tid og lagerbeholdning er variablene.

Oppgave 11.7En eiendomsmegler har studert forholdet mellom salgstakst og oppnådd pris for boliger iulike prisklasser. Hun har beregnet regresjonskurven for variablene verditakst og salgssum ogfått følgende:

y = 10 + 0,9x

Tegn kurven og sett riktig navn på aksene i koordinatsystemet. Angi om følgende påstanderer gale eller korrekte. Påstanden må begrunnes.

a) Boligene selges vanligvis til verditakst

b) Boliger som har et høyt prisnivå, oppnår gjennomgående lavere salgspriser sammen-lignet med verditakst enn boliger som har lav verdiktakst

c) Korrelasjonen mellom verditakst og salgssum er negativ

Oppgaver til kapittel 12:

Oppgave 12.1En større bedrift ønsker å kartlegge hvorvidt søkere kan vurderes på bakgrunn av en psykolo-gisk test i stedet for et ordinært intervju. For å sammenligne de to evalueringsalternativene,

Pris 1 2 3 4 5 6 7 8 9 10 11 mer

Hyppighet. 1 1 3 5 26 11 9 22 6 31 4 18

År: 1992 1993 1994 1995

Bestand: 89848 93054 96108 98810

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 100: forstå_statistikk

SIDE 100 FORSTÅ STATISTIKK

ringen

gjennomførte syv av arbeidssøkere både den psykologiske testen og et intervju. Vurdeav kandidatene ble som følger (i rangert rekkefølge):

Beregn rangkorrelasjonen og kommenter resultatet.

Oppgave 12.2 Ved en produktlansering vurderer to eksperter 10 desserter og rangerer dem etter hvor godtde tror de vil slå an blant barn. Resultatene er framstilt i tabellen under.

a) Hvor godt samsvar er det mellom ekspertenes vurderinger?

b) Beregn rangkorrelasjonskoeffisienten og tolk resultatet.

c) Hvilke opplysninger gir rangkorrelasjonskoeffisienten oss?

13 14

Søker Intervju Psykologisk test

A 4 5

B 1 2

C 7 7

D 6 4

E 2 1

F 3 3

G 5 6

Smaksprøve nr Rang A Rang B

1 3 5

2 1 1

3 4 2

4 2 4

5 5 7

6 10 10

7 9 8

8 8 6

9 6 3

10 7 9

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 101: forstå_statistikk

Seksjon 4

Sannsynlighet og sannsynlig-hetsfordelinger

De tre første delene av boken har tatt for seg den beskrivende statistikken. Sammen med sek-sjon 7 inneholder disse delene eksempler på metoder som er særlig nyttige når vi skal arbeidemed data fra en populasjon eller når vi skal beskrive det karakteristiske ved et utvalg. Vedbivariat analyse finnes det også en rekke andre teknikker enn den vi omtaler her. I denneboken er det lagt vekt på å vise grunnprinsippene for slik analyse, samt å demonstrere demest brukte teknikkene. Seksjon 5 og 6 omhandler analytisk statistikk. Denne delen av statis-tikken er nødvendig når du arbeider med utvalgsundersøkelser. Da må du kunne tallfeste denusikkerheten som oppstår fordi du ikke har kjennskap til alle enhetene i populasjonen, menbare et utvalg. Dette teorien har sitt grunnlag i sannsynlighetslæren.

I seksjon 4 gir vi derfor en innføring i ulike begreper om sannsynlighet og i en del problem-stillinger teoriene om sannsynlighet tar for seg. Vi gjennomgår de to mest brukte sannsynlig-hetsfordelingene, binomial- og normalfordelingen.

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 102: forstå_statistikk

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 103: forstå_statistikk

15. Litt sannsynlighetsregning Å beregne sannsynligheten for en hendelse, vil si det samme som å finne et tallmessig uttrykkfor sjansen for at hendelsen skal inntreffe. Kaster vi en mynt i været, er det 50% sjanse for atden havner med “kronesida” opp. Sannsynligheten for dette utfallet er 0,5. Mye av vår kunn-skap om sannsynligheter er blitt utviklet i forbindelse med ulike typer spill. I både kort- ogterningspill er det viktig å ha kjennskap til sannsynlightene for de enkelte utfallene.

Sannsynlighe-ter i hverdagen

I det daglige forholder vi oss hele tiden til sannsynligheter. Dersom vi kommer til bussholde-plassen ett minutt etter at bussen skulle ha gått, blir vi likevel stående å vente, for det er jo enviss sannsynlighet for at bussen er forsinket. Det skyldes at bussens ankomsttid til holdeplas-sen varierer, mye eller lite avhengig av hvor godt sjåføren greier å holde ruten, og noen gan-ger vil han komme for sent. Når vi har skaffet oss erfaring fra holdeplassen, får vi en intuitivfølelse av hvor mye for sent det går an å komme, og samtidig rekke bussen. Vi kan også målehvor mye for sent bussen kommer hver dag og lage en grafisk framstilling av dette. Ut fraslike erfaringstall vil vi kunne beregne sannsynligheten for at bussen kommer to minutter forsent på en tilfeldig valgt dag.

En annen situasjon der vi forholder oss til sannsynligheter, er når vi tegner forsikringer. Bil-forsikringer er dyrere for unge førere enn for eldre. Selskapenes erfaringer tilsier at det erstørre sjanse for at en ung fører er innblandet i en ulykke, enn tilsvarende eldre og mer ruti-nerte sjåfører. Siden sannsynligheten for at unge sjåfører skal bli blandet inn i en ulykke erstørre enn for rutinerte sjåfører, får de yngste førerne høyere forsikringspremier enn de eldre.

Eksemplene over forutsetter at vi kan observere et fenomen og siden bruke observasjonene tilå anslå hva som vil skje i samme eller tilsvarende situasjoner ved senere tilfeller. Dersom viønsker å spå morgendagens vær, holder imidlertid ikke slike modeller. Da må vi som lek-menn bruke skjønn. Ut fra gamle værtegn og egne erfaringer kan vi anta at det for eksempelblir godt vær i morgen. Dette bygger også på tidligere erfaringer, men forskjellen er at vi ikkekan lage et tallmessig uttrykk som viser sannsynligheten for å få sol, basert på de gamle vær-tegnene eller basert på hvordan været har vært den siste tiden.

Erfaring som grunnlag for sannsynlighet

Disse eksemplene viser alle ulike måter å forholde seg til sannsynlighet på. I eksempelet medmynten visste vi allerede før vi kastet at det var 50% sjanse for å få “krone”. Tilsvarende hvisvi kaster en terning, vet vi at det er 1/6 sjanse for å få en sekser. Vi trenger ikke kaste mangekast for å skaffe oss erfaring med terningen, på samme måte som ventetidene på bussen. Førvi har erfaring fra situasjonen, kan vi ikke vite hvor stor sannsynlighet det er for at bussenkommer to minutter for sent eller for at en bilfører på 29 år skal påføre bilen en skade. Vi bru-ker imidlertid disse erfaringstallene til å lage anslag for sannsynligheter

15.1. Hendelser og utfallsrom

UtfallsromFor å kunne lage anslag for sannsynligheter, trenger vi å vite hvilke utfall som er mulige veden bestemt hendelse. På tippekupongen skal vi angi om kampen blir vunnet av hjemmelaget(H), om den ender uavgjort (U) eller om den blir vunnet av bortelaget (B). Utfallsrommet forhendelsen (fotballkampen) er enten H, U eller B.

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 104: forstå_statistikk

SIDE 104 FORSTÅ STATISTIKK

utfal-aster

ntral-44 sekette

en

uliget eller

bruke

utfallng avsyn-

nsyn-ne forynlig-

kkersitua-ler av 1.

n påp oms inn-e. I

Avgrenset utfallsrom

Noen hendelser har et klart avgrenset antall utfall. I et slikt avgrenset utfallsrom kan vi førhendelsen finner sted, angi hvilke utfall som er mulige. I tippekampen er det bare de trelene H, U og B som er mulige, dersom vi ser bort fra at en kamp kan bli avlyst. Når vi kmed terning, består utfallsrommet av resultatene 1, 2 3, 4, 5 eller 6.

Kontinuerlig utfallsrom

I andre tilfeller er utfallsrommet uendelig stort. For eksempel kan tiden det tar før sebordbetjeningen i en bedrift tar telefonen når den ringer, være 1,2 sek, 4,37 sek, 3,5osv. Teoretisk finnes det et uendelig antall utfall av handlingen. I slike tilfeller kaller vi dfor et kontinuerlig utfallsrom.

For å beregne sannsynligheter i slike ulike situasjoner, må vi bruke ulike typer modeller. Dunderliggende logikken i analysene er imidlertid den samme.

Tre typer sannsynlighet

I utgangspunktet kan vi finne tre typer sannsynlighet, klassisk sannsynlighet, relativ hyppig-het og subjektiv sannsynlighet.

15.2. Klassisk sannsynlighet

Utfall Klassisk sannsynlighet tar utgangspunkt i at vi allerede før handlingen kjenner alle mutfall av en hendelse eller et eksperiment. Utfallet av å slå mynt/krone er enten mynkrone. Vi vil få mynt i halvparten av tilfellene og krone i den andre halvparten.

P betyr Proba-bility

Rent generelt bruker vi bokstaven P for å angi sannsynlighet. Uttrykket

forteller oss at sannsynligheten for at variabelen x skal anta verdien 5 er . Vi kan ogsåandre betegnelser på variabelen enn x.

Utfallsrommet angir det totale antallet mulige utfall, mens det vi søker å finne, er antall som tilfredsstiller et bestemt krav. Vi sier at disse utfallene er gunstige. Under forutsetniat alle utfall er like sannsynlige, det vil si at utfallsfordelingen er uniform, finner vi sannligheten som forholdet mellom antall mulige og antall gunstige utfall.

Summen av sannsynlighe-tene er alltid 1

Kaster vi mynten i været, vet vi at P(krone) = 0,5 og at P(mynt) = 0,5. Summen av sanligheten for disse to mulige utfallene er 1. Legg merke til at summen av sannsynlighetealle mulige utfall alltid skal være 1. Dermed ser du også sammenhengen mellom sannshetsbegrepet og prosent.

Fra sannsyn-lighet til pro-sent

Når vi regner med prosent, går vi alltid ut fra at 100% er “fullt hus”, det vil si at de dealle mulige utfall. Det er 50% sjanse for å få krone og tilsvarende sjanse for å få mynt i sjonen over. Mens prosent regnes som deler av 100, regnes sannsynlighet som andeVed å multiplisere sannsynlighetene med 100, får du dermed prosenttall.

I slike tilfeller med klassisk sannsynlighet, trenger vi ikke å kaste terningen eller mynteforhånd for å finne ut hva sannsynligheten for et bestemt utfall er. Mye av vår kunnskaklassisk sannsynlighet stammer fra analyser av gamblingproblemer. Kortspill har gitt ossikt i slike situasjoner, der hvert utfall har en lik og kjent sannsynlighet for å forekomm

K LASSISK SANNSYNLIGHET :

P x 5=( ) 16���=

16���

Pantall gunstigeantall mulige�����������������������������������=

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 105: forstå_statistikk

LITT SANNSYNLIGHETSREGNING SIDE 105

forretningsverdenen og i dagliglivet er imidlertid de fleste situasjoner vi analyserer av enannen natur.

15.3. Relativ hyppighetAnta at du skal finne ut hvor stor andel av varene i en butikk som blir solgt til ordinær pris,forutsatt at alle varer som har ligget på lager mer enn tre måneder må selges til redusert pris.

Dette kan vi undersøke empirisk. Ved å telle opp alle varene som har ligget i en butikk i løpetav et år, finner vi for eksempel følgende tall:

Totalt er det 60 000 varer. Andelen varer som selges til full pris er

Vi kan dermed si at sannsynligheten for at en tilfeldig vare blir solgt til full pris, er 58%.

Relativ hyp-pighet som uttrykk for sannsynlighet

Når vi bruker relativ hyppighet som uttrykk for sannsynlighet, forutsetter vi at vi har under-søkt alle mulige hendelser i utvalgsrommet. Det er dermed den relative hyppigheten forpopulasjonen som betegnes som sannsynlighet. Vi skal siden se at vi også kan bruke den rela-tive hyppigheten fra et utvalg som anslag for sannsynligheten, men definisjonene av sannsyn-lighet er knyttet til populasjonstallene.

Eksempel 15.3.1

En bilforhandler gir tre års garanti på nye biler. I tabellen under er det vist hvordan feilene påialt 5760 1988-modeller fordeler seg over de fem første årene.

Sannsynligheten for at en tilfeldig bil skulle bli rammet av en feil som dekkes av garantien iløpet av de tre første årene, er altså 0,154 eller 15.4%.

Rent generelt kan vi skrive dette som

Antall varer som selges i løpet av tre måneder 35 000

Antall varer som må selges til redusert pris 25 000

3500060000��������������� 0.58 58%= =

År Antall feil Kum. feil Rel hyppigh

1988 130 130 0,023

1989 276 406 0,070

1990 480 886 0,154

1991 745 1631 0,283

1992 853 2484 0,431

P garantifeil( ) antall gunstigeantall mulige�����������������������������������=

P garantifeil( ) 130 276 480+ +5760

���������������������������������������

8865760������������ 0.154= = =

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 106: forstå_statistikk

SIDE 106 FORSTÅ STATISTIKK

ntalletyttet tilandø-

erist til situa- vår.

gheter.r som

nsyn-ller

fin-iner,

siden større

ene forlser ieres

den1000,

Resultatene av slike beregninger kan vi blant annet bruke til å lage prognoser for areklamasjoner på varer. Ved å lage tilsvarende oversikter over de totale kostnadene kngarantireparasjonene, kan vi finne ut hvor mye tre års garanti egentlig koster for leverren.

15.4. Subjektiv sannsynlighet

Subjektive metoder når erfaringsdata mangler

I en del situasjoner har vi verken tidligere erfaringsdata som vi kan bruke til å lage prognoseller oversikter over de mulige utfallene, slik som i klassisk sannsynlighet. Da er vi henvå bruke subjektive metoder for å beregne sannsynlighetene, eller vi kan forsøke å finnesjoner som ligner på den vi skal undersøke og så bruke disse som modell for analysen

I slike situasjoner har vi andre metoder enn de rent statistiske for å beregne sannsynliUlike typer markedsundersøkelser, delfistudier osv, er eksempler på kvalitative metodevi kan benytte.

Før vi setter i gang med å bore etter olje på et felt i Nordsjøen, må vi vite hvor stor sanlighet det er for å finne olje, slik at vi kan beregne risikoen for investeringen. I slike tilfeforsøker vi å få flere eksperter til å bli enige om et tall som angir sannsynligheten for at vi ner olje. Da bruker vi omfattende informasjon om havbunnen, samlet inn ved seismiske lvurderinger av kostnader ved utbygging, framtidige oljepriser med mer.

Det finnes teknikker som er slik at vi kan “regne på” denne typen situasjoner også, mendisse modellene bygger på informasjon som er beheftet med usikkerhet, er det ogsåusikkerhet knyttet til resultatene.

15.5. Sannsynlighetsfordelinger

Hva er en sannsynlig-hetsfordeling

I eksemplene så langt har vi for det meste sett på hvordan vi beregner sannsynlighetenkle hendelser. Dersom vi lager en oversikt over sannsynlighetene for alle hendeutfallsrommet, får vi en sannsynlighetsfordeling. I sannsynlighetsfordelingen summsannsynlighetene for de enkelte hendelsene til 1.

Tabellen under viser levetiden for lyspærer fra en fabrikant.

I oppsettet er alle mulige utfall i utfallsrommet gitt. Dette er mulig fordi vi har kodet om kontinuerlige variabelen tid til en variabel som bare kan anta en av seks verdier (0-1001-1500 osv).

Levetid i timer Sannsynlighet

0-1000 0,10

1001-1500 0,15

1501-2000 0,11

2001-2500 0,50

2501-3000 0,11

3001 + 0,03

SUM 1,00

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 107: forstå_statistikk

LITT SANNSYNLIGHETSREGNING SIDE 107

Forskjell rela-tiv hyppighet og sannsynlig-het

Dersom vi ikke har slike enkle situasjoner som beskrevet over, kan vi lage en generell mate-matisk modell som beskriver den situasjonen vi vil undersøke. En slik modell kalles en sann-synlighetsfunksjon (eller sannsynlighetsfordeling). I visse situasjoner kan den minne omfordelinger over relative hyppigheter, men forskjellen består i at relative fordelinger viserhvilke verdier en variabel har antatt, mens sannsynlighetsfordelinger viser hvilke verdiervariabelen med gitte sannsynligheter kommer til å anta i framtiden.

Sannsynlighetsfordelingene har kjente matematiske egenskaper som gjør at vi lett kan brukedem til å lage beregninger. De mest kjente fordelingene i statistikken er binomialfordelingenog normalfordelingen.

Normalfordelingen brukes til kontinuerlige variabler, mens binomialfordelingen brukes tildiskrete variabler, det vil si variabler som bare kan anta et endelig antall verdier. I tillegg bru-kes en rekke andre fordelinger som Poissonfordeling, t-fordeling, F-fordeling og kjikvadrat-fordeling.

I neste del av boka skal vi både bruke normalfordelingen og kjikvadratfordelingen.

15.6. Flere samtidige hendelserHittil har vi sett på sannsynligheter knyttet til en enkelt hendelse. I virkeligheten vil vi imid-lertid være opptatt av flere samtidige hendelser. I kortspill er det bestemte kombinasjoner avkort som er interessante, på tippekupongen skal du tippe minst 10 rette kamper for å få pre-mie og i Lotto skal du tippe 7 uttrukne av 34 tall korrekt. I prinsippet er vi interesserte i åfinne ut sannsynligheten for at flere hendelser finner sted samtidig eller for at minst en avflere mulige hendelser finner sted. Dette kan vi beregne ved hjelp av multiplikasjons- ogaddisjonsreglene i statistikken.

Uavhengige eller overlap-pende hendel-ser

To eller flere hendelser kan være gjensidig utelukkende eller helt eller delvis overlappende.

Figur 15.1. Overlappende og ikke overlappende områder

Et eksempel på dette har du når du søker litteratur i en database. Dersom ingen av dokumen-tene du finner når du søker (hendelse A) etter et bestemt emne er relevante for det temaet duønsker å finne litteratur om (hendelse B), er A og B gjensidig utelukkende. I fall noen avdokumentene du finner i søket også er de du leter etter, er mengdene A og B delvis overlap-pende. I denne siste situasjonen, er det ønskelig at alle dokumentene du faktisk finner også erde du søker, det vil si at det er helt overlapp mellom mengdene A og B.

Overlapper ikkeOverlapper

A

B

A

B

������������������������������������������

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 108: forstå_statistikk

SIDE 108 FORSTÅ STATISTIKK

elvist

at deutsatt at greierlitet.To

t ved-

holde

Addisjonsrege-len

Addisjonsregelen gir deg mengden av enten A eller B.

Dette gjelder i de tilfellene A og B er gjensidig utelukkende. Dersom det er helt eller doverlapping mellom mengdene, må vi trekke fra området som overlapper (A og B), slik adette ikke blir lagt til to ganger. Formelen blir dermed seende slik ut:

Eksempel 15.6.1

Ved et skipsverft som lager lystbåter har de innført en produksjonsbonus som er slikarbeiderne som klarer å lage en båt på den budsjetterte tiden, får utbetalt en bonus, forkundene ikke klager på arbeidet. I praksis viser det seg at 15 av de 100 arbeiderne ikkeå holde tidsplanen for sin arbeidsoperasjon, og 8 mottar senere klager på arbeidets kvapersoner greier verken å holde tidsplanen eller unngå klager.

Hva er sannsynligheten for at en tilfeldig arbeider ikke greier å holde tidsplanen eller akommende mottar klage på arbeidet etterpå?

I dette tilfellet er hendelsene ikke gjensidig utelukkende, fordi samme person både kantidsplanen og motta klager.

Figur 15.2.

Sannsynlighetene for de enkelte hendelsene beregnes slik:

Vi kan dermed sette tallene inn i formelen og finne:

P AellerB( ) P A( ) P B( )+=

P AellerB( ) P A( ) P B( ) P AogB( )–+=

Holder ikke tidsplan

15 82

Mottar klager

Holder ikke tidsplan og mottar klager

75

P ikke tidsplan( ) 15100��������� 0.15= =

P klage( ) 8100��������� 0.08= =

P klage og ikke tidsplan( ) 2100��������� 0.02= =

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 109: forstå_statistikk

LITT SANNSYNLIGHETSREGNING SIDE 109

Regnestykket forteller oss altså at det er 21% sjanse for at en tilfeldig valgt arbeider ved verf-tet ikke får utbetalt bonus.

Addisjonsregelen kan også utvides til å gjelde et vilkårlig antall hendelser, men her er bareprinsippene for beregningene vist.

Multiplika-sjonsregelen

Ved multiplikasjonsregelen beregner vi sannsynligheten for at to hendelser skal inntreffesamtidig.

På figur 1 er det snittet (A og B) mellom mengdene A og B vi finner. Dersom mengdenebestår av gjensidig utelukkende hendelser, vil selvsagt ingen hendelser kunne være del avbegge mengdene. Snittet består derfor av “den tomme mengde”.

I lærebøkene brukes ofte kast med to terninger som eksempel på denne regelen. Hva er sann-synligheten for at du får to seksere når du kaster to terninger? Hver av terningene har en sjet-tedel sannsynlighet for å få seks på ett kast.

P (6 første terning) = 1/6

P (6 andre terning) = 1/6

Den kombinerte sannsynligheten finnes ved

I vårt eksempel blir det

P(Tern. 1 = 6 og Tern 2 = 6)

= P(Tern 1 = 6)·P(Tern 2 = 6)

= 1/6·1/6 = 1/36

Sannsynligheten for å få to seksere er altså 1 mot 36.

Eksempel 15.6.2

Et bryggeri segmenterer kundene blant annet etter kjønn og bosted. For et bestemt brusmerkeviser det seg at 55% av kundene er kvinner og ialt 30% av kundene bor i Akershus. Hva ersannsynligheten for at en tilfeldig kunde er en kvinne bosatt i Akershus?

I henhold til mulitiplikasjonsregelen som gjelder når vi skal undersøke kombinerte sannsyn-ligheter (både hendelse A og B), får vi:

P(kvinne og Akershus)

= P(kvinne)·P(Akershus)

= 0.55·0.3 = 0.165

P klage eller ikke tidsplan( )P tidsplan( ) P klage( ) P klage og ikke tidsplan( )–+

0.15 0.08 0.02–+ 0.21

=

= =

P AogB( ) P A( ) P B( )⋅=

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 110: forstå_statistikk

SIDE 110 FORSTÅ STATISTIKK

hus.

il det siavhen-

n hen-gelsen

eogra-

e B eren tar

t ved

t. Hvaførster likeke en

r sort,

t, sidenynlig-

synlig-

nskap

ndelser

Det er med andre ord 16.5% sjanse for at en tilfeldig valgt kunde er en kvinne fra Akers

Dette forutsetter at de to hendelsene er gjensidig uavhengige av hverandre. I praksis vat den ene hendelsen ikke skal ha noen innflytelse på den andre. Dersom de ikke er ugige, er de mer eller mindre avhengige av hverandre, hvilket betyr at forekomsten av edelse påvirker sannsynligheten for at den andre hendelsen skal finne sted. For at betinom uavhengighet skal holde i dette eksempelet, må kvinneandelen være lik i alle de gfiske områdene.

Dersom det er avhengighet mellom de to variablene, slik at sannsynligheten for hendelsbestemt av at hendelse A allerede har funnet sted, må vi modifisere formelen slik at dhensyn til den betingede sannsynligheten for B.

Multiplikasjonsregelen for hendelser som ikke er uavhengige av hverandre er derfor git

der angir sannsynligheten for hendelse B gitt at hendelse A alt har funnet sted.

Eksempel 15.6.3

Dette kan illustreres ved et enkelt eksempel. Vi legger to sorte og to hvite kuler i en hater nå sannsynligheten for at vi skal trekke to like kuler? Trekk en kule i gangen. Den kulen vil være enten sort eller hvit, med 50% sjanse for hvert av utfallene siden det emange av hver farge. Anta at du trekker en sort kule. For å få to like kuler må du nå treksort kule til. I hatten ligger to hvite og en sort. Sannsynligheten for at den andre kulen eblir derfor 1/3. Det er følgelig 1/3 sannsynlighet for at du trekker to kuler av samme farge.

Dette kan vises med følgende regnestykke. Første kule kan være enten sort eller hvioppgaven er å trekke to like kuler. P(kule 1 hvit eller sort) = 1. For andre kule er sannsheten for at den har samme farge som første kule 1/3. Vi setter inn i formelen og får

P(2 sorte eller hvite kuler)

= P(1. kule sort eller hvit)·P(2. kule samme farge)

= 1·1/3 = 1/3

Hva er sannsynligheten for at du trekker to sorte kuler? Regn ut selv. Vis også at sannheten for å trekke én sort og én hvit kule er 2/3.

15.7. Permutasjoner og kombinasjonerVi definerte sannsynlighet som forholdet mellom antall enheter som har en ønsket egeog det totale antallet i populasjonen, på samme måte som vi tidligere beregnet relativ hyppig-het. Denne måten å regne sannsynlighet på, er enkel for slike enkle hendelser, men hekan skape en hel rekke ulike utfall som det ikke alltid er like enkelt å holde orden på.

P A og B( ) P A( ) P B A( )+=

P B A( )

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 111: forstå_statistikk

LITT SANNSYNLIGHETSREGNING SIDE 111

Eksempel 15.7.1

Et bedriftsstyre på fem personer skal velge styreformann og nestformann. I utgangspunktet eralle kombinasjoner like aktuelle. Hvis vi kaller personene A, B, C, D og E har vi følgendealternative måter å trekke ut to personer på:

AB, AC, AD AE, BA, BC, BD, BE, CA, CB, CD, CE, DA, DB, DC, DE, EA, EB, EC, EC

N angir totalt antall personer og r utvalget

Når vi lar N betegne antall personer totalt og r antall personer som skal velges ut, finner vi atutvalgsprosedyren som vi foretok over kan uttrykkes slik matematisk.

n! uttales “n-fakultet” og betegner alle tall opp til og med n multiplisert sammen. 5! er detsamme som 5·4·3·2·1

Vi setter tallene fra eksempelet inn i formelen og får

Permutasjon

Det er altså 20 ulike måter å velge ut en styreformann og en varamann på fra en gruppe påfem. I prinsippet trenger vi bare å kjenne verdiene på n og r for å gjøre slike beregninger vedhjelp av formelen.

I eksempelet over spilte rekkefølgen på valgene en viktig rolle. Det var ikke likegyldig hvemsom ble styreformann og hvem som ble varaformann. Vi kan imidlertid tenke oss at detsamme styret skal velge to personer som skal delta på et kurs for bedriftsstyrer. Da spillerikke lenger rekkefølgen på utvelgingen noen rolle.

KombinasjonI eksempelet over finner vi at det gjenstår 10 ulike utvalg på 2 personer. Dette er fordi AB någir samme resultat som BA. Det er bare 10 måter å kombinere utvalg på to personer fra engruppe på fem. Slike kombinasjoner kan vi generelt beregne med formelen

Ved å sette inn tallene fra eksempelet, får vi:

ANTALL PERMUTASJONER: Prn n!

n r–( )!�����������������=

5! 120=

Prn n!

n r–( )!�����������������

5!5 2–( )!

������������������

5 4 3 2 1⋅ ⋅ ⋅ ⋅3 2 1⋅ ⋅

��������������������������������� 20= = = =

ANTALL KOMBINASJONER : Crn n!

r! n r–( )!����������������������=

5!2! 5 2–( )!������������������������

5 4 3 2 1⋅ ⋅ ⋅ ⋅2 1⋅( ) 3 2 1⋅ ⋅( )

�������������������������������������� 10= =

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 112: forstå_statistikk

SIDE 112 FORSTÅ STATISTIKK

ne i enslik:

ngen.

lt 34

iden

e i

nlig- rik,

ynlig-

ange

n. Til-srege-

totale

BinomialkoeffisientenI foregående eksempel regnet vi ut hvor mange kombinasjoner av 2 personer vi kan fingruppe på 5. Vanligvis kalles denne formelen for binomialkoeffisienten, og den skrives

der n er antall mulige begivenheter og r er antall gunstige eller ønskede utfall av handli

Eksempel 15.7.2

Hva er sannsynligheten for å vinne i Lotto? Da skal du finne fram til 7 gunstige tall av i amulige. Dette kan du gjøre på følgende måte:

Sannsynlighet for å vinne i Lotto

Det er altså mer enn 5 millioner måter å trekke 7 tall tilfeldig fra en gruppe på 34 tall. Sdet er 5 379 616 mulige utfall og hvert av disse utfallene er like sannsynlige, men bare ett avutfallene faktisk vil forekomme (bli trukket ut), finner vi at sannsynligheten for å vinnLotto er:

Hvis du har slektninger som utvandret til Amerika i forrige århundre, er kanskje sannsyhetne for at du skal vinne i Lotto omtrent like stor som at du skal komme til å arve enukjent onkel i Amerika.

15.8. Kombinasjoner av flere begivenheterI en skoleklasse er det 12 gutter og 10 jenter. De skal velge to tillitsvalgte. Hva er sannsheten for at dette blir en gutt og en jente?

Bruk binomi-nalkoeffisien-ten

For å løse dette problemet må vi bruke multiplikasjonsregelen. Vi finner først ut hvor mmåter vi kan trekke en gutt fra utvalget på:

Rent intuitivt ser vi også at dette kan gjøres på 12 måter, siden det er 12 gutter i klassesvarende er det 10 mulige utfall når en jente skal trekkes ut. Ved å bruke multiplikasjonlen finner vi

at der er 120 kombinasjoner av 1 gutt og 1jente. Det var i alt 22 elever i klassen. Detantallet mulige kombinasjoner er derfor

BINOMIALKOEFFISIENT :n

r n!

r! n r–( )!⋅��������������������������=

n

r 34

7 34!

7! 34 7–( )!���������������������������

34!7! 27!⋅����������������� 5379616= = = =

P vinner( ) antall gunstigeantall mulige�����������������������������������

15379616���������������������= =

12

1 12!

1! 11!( )������������������ 12= =

12

1 10

1 ⋅ 12 10⋅ 120= =

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 113: forstå_statistikk

LITT SANNSYNLIGHETSREGNING SIDE 113

mulige kombinasjoner

Vi regner sannsynligheten som antall gunstige av antall mulige utfall

15.9. BinomialfordelingenHittil har vi sett på enkle eller sammensatte hendelser og regnet sannsynligheter som forhol-det mellom antall gunstige og mulige hendelser. Når vi bruker relativ hyppighet som anslagfor sannsynligheten, er det fare for at vi i praksis får resultater som avviker fra de korrektetallene. Dette kan vises med følgende eksempel.

Vi vet a priori, det vil si før hendelsen inntreffer, at det er 50% sjanse for å få kron når vi kas-ter en mynt. Det vil si at vi skulle få mynt i 5 av 10, eller 1 av 2 tilfeller. I praksis vil detteselvsagt ikke inntreffe. Vi får forskjellige anslag for sannsynligheten, avhengig av hvormange ganger vi kaster. Når vi kaster svært mange kast, viser det seg at de beregnede sann-synlighetene blir mer og mer like. Vi sier at de nærmer seg en grense. Den egentlige defini-sjonen av sannsynlighet er knyttet til denne grensen.

Slike rekker av gjentatte forsøk (for eksempel kast med terning) kan beskrives matematiskved hjelp av binomialfordelingen. Den kan uttrykkes på følgende formel.

der x er den søkte verdi av variabelen X, n er antall forsøk og p er sannsynligheten for å få x.

Ved å sette inn for får vi

x betegner antall gunstige utfall, p er sannsynligheten for å få utfallet og n er antall forsøk

Denne formelen kan vi bruke hvis følgende fire vilkår er oppfylt.

1. Vi foretar n antall repetisjoner av handlingen, for eksempel kaster en mynt 10 ganger

2. Resultatet av hvert forsøk eller handling har bare to muligheter, som for eksempel mynt eller kron, ja eller nei på et spørsmål.

3. Sannsynligheten for hvert utfall er den samme for alle forsøkene

4. Resultatet av en handling påvirker ikke resultatet av de påfølgende handlingene.

SANNSYNLIGHET er den relative hyppigheten vi kommer fram til, dersom vi kas-ter et uendelig antall kast.

22

2 22!

2! 20!⋅�����������������

22 21⋅2

���������������� 231= = =

P 1 gutt og 1 jente( ) antall gunstigeantall mulige�����������������������������������

120231��������� 0 52,= = =

P X x=( ) x n p,;( ) Cxn

px

1 p–( )n x–⋅ ⋅=

Cxn

P X x=( ) n!x! n x–( )!������������������������ p

x1 p–( )n x–⋅ ⋅=

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 114: forstå_statistikk

SIDE 114 FORSTÅ STATISTIKK

n, når

n med åt over

rmerr

Eksempel 15.9.1

Vi kaster en mynt 10 ganger og ønsker å finne sannsynligheten for å få akkurat 5 krosannsynligheten for å få kron er 0,5 i hvert av forsøkene.

Det er altså 25% sjanse for å få akkurat 5 kron når vi kaster en mynt 10 ganger. Fordeleen slik fordeling er at de ulike sannsynlighetene kan beregnes og stilles opp i en tabell. Vedbruke tabellen bakerst i boken finner vi at sannsynligheten for å få 4 mynt i eksempeleer 20%. Dette kan framstilles grafisk.

Figur 15.3. Binomialfordelingen ved 10 forsøk

Figur 15.4. Binomialfordelingen ved 100 forsøk

Vi ser at grafen får en stadig jevnere form når antallet eksperimenter øker. Kurven næseg formen til en normalfordeling eller Gausskurve, når n blir stor. Denne fordelingen etema for det neste kapittelet

P x 5=( ) 10!5! 10 5–( )!��������������������������� 0 5, 5

1 0 5,–( ) 10 5–( )⋅ ⋅ 0 25,= =

��

��

��

��

� � � � � ��

����

� � ���

� �� �� �� �� ���

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 115: forstå_statistikk

16. NormalfordelingenNormalfordelingen er en av de mest brukte “matematiske” fordelinger. Det skyldes at sværtmange fenomener i virkeligheten er normalfordelte, som for eksempel menneskers høyde.Som det framgår av figur 16.1, kan ulike normalfordelinger se forskjellig ut.

Figur 16.1. Ulike normalfordelinger

Det er forskjeller i sentraltendens og spredning som gjør forskjellen på kurvene.

16.1. Normalfordelingens egenskaper

Symmetrisk klokkefasong

Selv om fordelingene tilsynelatende ser svært forskjellige ut, har de likevel en rekke felles-trekk. De er alle symmetriske om gjennomsnittet. I tillegg har alle fordelingene en slags klok-kefasong, der flesteparten av enhetene vanligvis befinner seg i nærheten av gjennomsnittet.Spredningen i fordelingen angis med standardavviket. I alle fordelingene, uansett gjennom-snitt og standardavvik, befinner omlag to tredeler av enhetene seg innenfor en avstand avpluss/minus ett standardavvik fra gjennomsnittet.

Figur 16.2. Spredning og sentraltendens i normalfordelingen.

��������������

���

���

�� �� �� � � � �

������ �� �����������

���

���

�� �� �� � � � �

��� ��

������ ��������

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 116: forstå_statistikk

SIDE 116 FORSTÅ STATISTIKK

mens 68%nus ett

liserer

nom-ens og

abelen

95% av alle enhetene finnes i en avstand av ±1.96 standardavvik fra gjennomsnittet,99% befinner seg innen en avstand av ±2.58 standardavvik fra gjennomsnittet. Cirkaeller omlag to tredjedeler av enhetene, er å finne innenfor en avstand av pluss eller mistandardavvik fra gjennomsnittet.

For at det skal være enkelt for oss å sammenligne verdier på ulike fordelinger, normaeller standardiserer vi fordelingen.

Standardisert normalfordelingAlle fordelingene kan også transformeres eller overføres til en standardfordeling. Dennestandardfordelingen har følgende fasong.

Figur 16.3. Den standardiserte normalfordelingen

Troansforme-ring

Selve transformeringen foregår ved at vi for alle enheter i fordelingen må trekke fra gjensnittet og dele på standardavviket. Fordelingen standardiseres i forhold til sentraltendspredning. I den standardiserte fordelingen er gjennomsnittet 0 og standardavviket 1

I praksis skjer standardiseringen etter følgende formel. Den nye standardiserte varikalles z.

(Formel 16.1)

Avstand fra Andel av arealet

68%

95%

99%

99,9

x

1,0 s±

1,96 s±

2,58 s±

3,20 s(

���������� �������������

��

�� � �� � �

����� ����

zx x–

s������������=

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 117: forstå_statistikk

NORMALFORDELINGEN SIDE 117

.

Figur 16.4. Standardisering i forhold til gjennomsnitt.

Figur 16.5. Standardisering i forhold til standardavvik.

Formel for standardisert normalforde-ling

En av de store fordelene med å gjøre slike transformasjoner, er at ulike fordelinger da kangjøres direkte sammenlignbare.

Eksempel 16.1.1

En produsent av lyspærer har i gjennomsnitt 1000 feilvarer pr produksjonsdag, med et stan-dardavvik på 100. Dette kan vi regne ut på samme måte som vi vanligvis regner gjennomsnittog standardavvik. Dette er illustrert i figuren under. Her har vi tegnet inn både de observerteverdiene x og de transformerte verdiene z i samme diagram. Ved å bruke formelen for z, reg-ner vi ut de transformerte verdiene for alle aktuelle x-verdier.

�������������� �����

���

���

���

���

�� �� �� � � � �

x x–

x x–

x x–

�������������� �����

���

� �� �� � � �

STANDARDISERT NORMALFORDELING : Normalfordeling som er transformert slikat den har gjennomsnitt 0 og standardavvik 1.

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 118: forstå_statistikk

SIDE 118 FORSTÅ STATISTIKK

venger.

kjenteem-

feil-nom-

instiserin- og

Figur 16.6. Observerte verdier og transformerte verdier.

Variabeltrans-formasjon

Denne prosessen kalles en variabeltransformasjon. Vi regner ut en ny verdi på grunnlag aen observert verdi og en formel. Dette er du allerede vant til å gjøre i ulike sammenhTenk bare på hvordan du finner ut en persons alder når du kjenner fødselsåret. Ved å trekkefødselsåret fra det aktuelle årets verdi, finner du alder.

Hvor gammel er en person som er født i 1970 i 1995?

1995(år i år) - 1970(fødselsår) = 25(alder)

Variabeltransformasjonen gir oss altså alder, dersom vi kjenner fødselsåret. Andre variabeltransformasjoner er fra km/t til knop, tommer til centimeter, kroner til ECU og tperatur i Celsius til temperatur i Fahrenheit.

Ut fra normalfordelingen kan vi umiddelbart se at bedriften på 68% av dagene vil ha enproduksjon på mellom 900 og 1100 (figur 16.6), tilsvarende ± ett standardavvik fra gjensnittet. Hvis vi imidlertid spør hva sannsynligheten er for at en får en feilproduksjon på m1150, er det en fordel å standardisere fordelingen og finne standardverdien. Standardgen skjer i prinsippet ved at vi omformer x = 1150 til fordelingen med gjennomsnitt 0standardavvik 1. Vi setter inn i formelen for standardisering og får:

Vår x-verdi på 1150 fra denobserverte fordelingen svarertil den standardiserte normal-fordelingens z-verdi på 1.5.Det er vanlig å framstille demest brukte verdiene i denstandardiserte normalfordelin-gen i en tabell. Tabellen viserandel av kurven som har ver-dier mellom 0 og Z, slik detskraverte feltet på figuren tilhøyre viser.

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

����������������������������������������������������������������

��������������������������������

����������������������������������������������������������������

��������������������������������

����������������������������������������������������������������

��������������������������������

������� � ���� ����

�����

� � � � �� � �� �

� ��� �� � �

���� ��� ���� � �� ��

��

zx x–

s������������

1150 1000–100

������������������������������ 1.5= = =

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

���������������������������������������������

������������������������������������������������������������

���������������

������������������������������

���������������������������������������������

��

�� � �� � �

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 119: forstå_statistikk

NORMALFORDELINGEN SIDE 119

Å slå opp i tabellen

Når vi kjenner denne ver-dien, kan vi ved hjelp avtabellen finne ut at det er6.68% sannsynlighet for atbedriften vil få minst 1150ukurante produkter i løpetav en tilfeldig valgt dag. Forå finne dette er det lurt ålage en skisse av fordelin-gen og skravere det områdetdu skal finne. Siden forde-lingen er symmetrisk omgjennomsnittet, betyr det athalvparten av alle enhetene(50%) har verdier som lig-ger henholdsvis over ellerunder gjennomsnittet. Halv-parten av enhetene har føl-gelig verdier som liggerover z=0, svarende til x=1000.

I tabellen finner vi verdier mellom z=0 og en hvilken som helst z-verdi. Vi slår opp på z=1,5(som vi regnet ut) og finner at arealet under kurven mellom z=0 og z=1,5 er 43,32%, ellerandelen er 0,4332. Dersom vi trekker dette arealet fra 50%, som jo tilsvarer hele arealet medhøyere verdier enn z=0, står vi igjen med den delen av arealet som har høyere z-verdi enn 1,5.Dette tilsvarer at en har minst 1150 ukurante produkter på en tilfeldig dag. Dette får vi altså i6,68% av dagene.

16.2. Tegn fordelingenI praksis kan vi tegne alle normalfordelinger når vi kjenner gjennomsnitt og standardavvik.For oversiktens skyld lønner det seg også å tegne inn standardpoengene. Dette kan gjøresslik.

Figur 16.8. Mellom 925 og 975 feil

Når vi på forhånd vet at 68% av fordelingen befinner seg i en avstand av ± ett standardavvikfra gjennomsnittet, kan vi se av figuren at det i en tilsvarende andel av dagene vil være enfeilproduksjon som ligger mellom 900 og 1100. Normalfordelingens anvendelighet kan vises

������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

�������������������

���������������������������������������������������������

�������������������

���������������������������������������������������������

�������������������

���������������������������������������������������������

�����

��� ��� ���� ���� ����

� ��� �� � �

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

���

Figur 16.7. Fordeling av feilproduksjon

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

��������������������������������������������������������������������������������

������������������������������������������������

����������������������������������������������������������������

��������������������������������

����������������������������������������������������������������

��������������������������������

�����

��� ��� ��� ���� ���� ���� ����

��� ���� � �

��

������������������������������������������������������������������������������������������������������������������������������������������������

��

����

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 120: forstå_statistikk

SIDE 120 FORSTÅ STATISTIKK

5 pr

t stan-

nom-er at

ller atardav-A17000esvares

v sinederne iivt mernlaget iå mel-

ved nok et eksempel. Sett at vi vil vite hvor ofte feilproduksjonen er mellom 925 og 97dag.

Det vil det være vanskelig å finne ut dersom en ikke standardiserer. Først regner en udardverdiene til ytterverdiene for intervallet vi skal finne:

Dette arealet kan vi ikke finne direkte i tabellen. Vi må slå opp to ganger.

Fra tabellen finner vi at 27.34% av fordelingen befinner seg mellom z = -0.75 og gjensnittet. Tilsvarende er 9.87% mellom z = -0.25 og gjennomsnittet. Vi subtraherer og finndet på 17.47% av dagene er en feilproduksjon som ligger mellom 925 og 975.

16.3. Sammenligne ulike fordelingers verdierAnta at en dansk og en amerikansk lagerarbeider diskuterer sine respektive lønninger. De erinteresserte i å finne ut hvem av dem som relativt sett er best lønnet. Dansken fortegjennomsnittslønnen for lagerarbeidere i Danmark er 14000 kr pr måned med et standvik på 2000 kr. Amerikaneren forteller at gjennomsnittslønnen for tilsvarende gruppe i USer USD 800 pr uke og standardavviket USD 150. Den danske lagerarbeideren tjener kr, den amerikanske USD 1000. Spørsmålet om hvem av dem som er best lønnet, benklest ved å standardisere. Vi setter igjen inn i formelen og finner følgende z-verdier.

Ved hjelp av tabellen vil vi finne at den danske lagerarbeideren tjener mer enn 93.3% akollegaer i Danmark. Tilsvarende tjener den amerikanske mer enn 90.7% av lagerarbeiUSA. Vi ser også direkte av standardpoengene at den danske arbeideren tjener relatenn den amerikanske. Når dataene skal tolkes, må du huske at sammenligningsgrundenne analysen er de to yrkesgruppene. Det kan godt være store forskjeller i lønnsnivlom de to landene, uten at denne analysen avdekker dette.

z1

x1 x–

s��������������

925 1000–100

��������������������������� 0.75–= = =

z2

x2 x–

s��������������

975 1000–100

��������������������������� 0.25–= = =

��������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

��������������������������������

����������������������������������������������������������������

��������������������������������

����������������������������������������������������������������

��������������������������������

����������������������������������������������������������������

�����

��� ��� ��� ���� ���� ���� ����

��

��

����

����

�����

������

�������

zD

xD xD–

s������������������

17000 14000–2000

������������������������������������ 1.5= = =

zA

xA xA–

s������������������

1000 800–150

��������������������������� 1.33= = =

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 121: forstå_statistikk

17. Oppgaver til seksjon 4

Oppgaver til kapittel 15:

Oppgave 15.1Tre elever i en klasse på 25 skal trekkes ut til å delta i et radioprogram. Hvor mange muligekombinasjoner finnes?

Oppgaver til kapittel 16:

Oppgave 16.1Som salgssjef skal du sammenligne karakterene til to jobbsøkere, A og B. Begge har fått 4 ikarakter.

� I A’s årskull var gjennomsnittskarakteren 3.5, standardavviket var 1.1.

� I B’s årskull var gjennomsnittskarakteren 3.7 og standard-avviket var 0.6.

Hvis du bare skulle ta hensyn til karakterene, hvem ville du ansette? Begrunn valget.

Oppgave 16.2En rørlegger hevder at det daglige besøkstallet i butikken er normalfordelt og at det på to avtre dager (68%) er mellom 170 og 190 besøkende.

a) Tegn fordelingen. Bruk tegningen til å svare på b og c.

b) Hva er gjennomsnittet?

c) Hva er standardavviket?

d) Hvor stor andel av dagene har et besøkstall på over 200?

Oppgave 16.3Gjennomsnittlig antall arbeidstimer nedlagt på en prosjektoppgave i et utvalg av studenterved IHM er 36. Standardavviket er 10. Statistikklæreren hevder at antallet arbeidstimer stu-dentene nedlegger er normalfordelt og at bare 8.1% av studentene bruker mer enn 50 timer påå løse oppgaven. Har han rett? Svaret må begrunnes. Vi forutsetter også at antakelsen omnormalfordeling er holdbar.

Oppgave 16.4Vi har tilfeldig trukket et utvalg på 10 bedrifter fra en populasjon. Følgende antall ordre bleregistrert:

Beregn gjennomsnittlig antall ordre i utvalget.

Oppgave 16.5Et postordrefirma har funnet ut at de på årsbasis mottar gjennomsnittlig 50 ordre daglig. For-delingen er normalfordelt og standardavviket er på 10.

Finn ut hvor mange dager som har:

24 25 29 28 21 25 21 22 24 25

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 122: forstå_statistikk

SIDE 122 FORSTÅ STATISTIKK

inn ut

vet duer ogfeldig

nn-

lfordelt

er?

gvis ip.

a) mindre enn 40 ordre

b) flere enn 60 ordre

c) mindre enn 70 ordre

d) mellom 40 og 60 ordre

e) mindre enn 52 ordre

f) Dersom de mottar flere enn 68 ordre på en dag, må de innkalle ekstrahjelp. Fhvor stor andel av dagene (i %) de trengte å kalle inn en ekstrahjelp.

Oppgave 16.6 Anta at du står i kø i en forretning hvor det bare er en ekspeditør tilstede. Fra tidligere at ekspedisjonstiden pr. kunde er tilnærmet normalfordelt med gjennomsnitt 3 minuttstandardavvik 30 sekunder. Finn sannsynligheten for at ekspedisjonstiden for en tilvalgt kunde er:

a) under 3½ minutt

b) mellom to og fem minutter

Oppgave 16.7 I en normalfordeling der σ=5, hva må µ være for at de følgende betingelsene skal være ifridd?

a) 1,5% av fordelingen skal være under 40.

b) 33% av fordelingen skal være større enn 100.

c) 99,8% av fordelingen skal være større enn 20.

Oppgave 16.8 Et bakeri har funnet ut at den daglige etterspørselen etter napoleonskaker er normamed gjennomsnitt 125 og standardavvik 12.

a) Hva er sannsynligheten for at en på en tilfeldig dag vil selge mindre enn 107 kak

b) De dagene hvor salget er størst, må de tilkalle ekstrahjelp. Dette gjør de vanli10% av dagene. Hvor stor må produksjonen være for at de skal tilkalle ekstrahjel

17

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 123: forstå_statistikk

Seksjon 5

InferensEn viktig del av den analytiske statistikken handler om å kunne trekke slutninger om enpopulasjon på grunnlag av studier gjort i et utvalg. Fordi utvalgsstudier ikke omfatter alleenheter (hele populasjonen), vil det oppstå usikkerhet når resultatene skal generaliseres til ågjelde flere enn de enhetene som studiene omfattet.

Kapittel 14 viser hvordan vi kan kontrollere og beregne denne usikkerheten, som er kaltutvalgsfeilen.

Kapittel 15 viser hvordan vi benytter usikkerheten til å lage et intervallestimat når vi ønsker åberegne gjennomsnittet i populasjonen og bare kjenner gjennomsnittet for et utvalg fra popu-lasjonen.

Kapittel 16 viser hvordan vi kan bruke det samme resonnementet til å beregne hvor stortutvalg vi må ha, gitt at vi selv vil kontrollere usikkerhet og nøyaktighet på estimatene våre.

Kapittel 17 avslutter denne delen med å ta opp forholdet mellom to sannsynligehtesfordelin-gen som begge brukes ved denne typen analyser.

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 124: forstå_statistikk

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 125: forstå_statistikk

18. Utvalg og normalfordelingNår vi skal gjøre bruk av normalfordelingen i en praktisk undersøkelse, bruker vi vanligvis etutvalg eller stikkprøve fra populasjonen. Til ethvert utvalg er det knyttet usikkerhet. Denneusikkerheten kan vi imidlertid ha kontroll med.

I dette kapittelet skal vi lære å beregne utvalgsfeilen. Du skal også se hvordan utvalgsstørrel-sen og spredningen i populasjonen påvirker utvalgsfeilen.

Eksempel 18.0.1

I følgende eksempel forestiller vi oss at vi trenger å vite gjennomsnittlig antall ordrer somkundene i en bedrift legger inn i løpet av et halvt år. Opplysningene skal brukes i forbindelsemed overgangen til et nytt faktureringssystem. I eksempelet forestiller vi oss også at vi kjen-ner populasjonen. Den ser slik ut.

Tabell 18.1. Antall ordre pr kunde i en populasjon bestående av samtlige bedriftskunder

Antall ordre

Antall bedrifter (hyppig-het)

Enhetsnummer

x h

20 50 1-50

21 100 51-150

22 200 151-350

23 100 351-450

24 100 451-550

25 300 551-850

26 200 851-1050

27 250 1051-1300

28 250 1351-1550

29 100 1551-1650

30 100 1651-1750

31 100 1751-1850

32 50 1851-1900

35 50 1901-1950

h∑ 1950 n= =

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 126: forstå_statistikk

SIDE 126 FORSTÅ STATISTIKK

dersomegner1 og

opula-algets

etraktenhets-

fra en

kan vitval-

forde-rdier

r det

ingen ilin-

Populasjons-parametre µ og σ

Populasjonens gjennomsnitt (µ) er 26.15, mens standardavviket (σ) er 3.29. Dette kan duregne ut ved hjelp av de metodene du lærte tidligere i boken. La oss se hva som skjer vi trekker fire utvalg på henholdsvis 5, 10, 15 og 30 kunder fra populasjonen og bergjennomsnitt og standardavvik i hvert av utvalgene. Vi trekker tilfeldige numre mellom 1950, og finner følgende gjennomsnittsverdier i utvalgene.

Vi ser at ingen av utvalgene får nøyaktig samme gjennomsnitt og standardavvik som psjonen. Kvaliteten av et utvalg avhenger både av spredningen i populasjonen og utvstørrelse, forutsatt at utvalget trekkes tilfeldig.

Du kan selv gjøre de samme beregningene. Finn 5 tilfeldige tall mellom 1 og 1950. Btallene som enhetsnummere for 5 enheter og finn verdiene til enhetene ved å gå fra nummer til x i tabellen. Regn så ut gjennomsnitt og standardavvik for tallene.

18.1. Utvalgsfordelingen

Den teoretiske utvalgsforde-lingen

Det er det totale antallet mulige utvalg med et bestemt antall enheter vi kan trekke populasjon, som kalles den teoretiske utvalgsfordelingen eller samplingsfordelingen.

Figur 18.1. Populasjon og utvalgsfordeling

µ og σ beskriver gjennomsnitt og standardavvik i populasjonen. Det er disse størrelsene viønsker å finne estimater for ved hjelp av en utvalgsundersøkelse. Fra populasjonen trekke en hel serie med like store utvalg, slik at alle mulige utvalg er med. I hvert av ugene beregner vi gjennomsnittet ( ). Gjennomsnittet av alle gjennomsnittene i utvalgslingen er µ. Av vårt lille eksempel kan vi se at de enkelte utvalgs gjennomsnittsvevarierer rundt populasjonens sanne gjennomsnitt.

Når vi ser på utfallet av det enkelte utvalg, ser vi at gjennomsnittet ligger litt til siden fovirkelige gjennomsnittet. Vi får med andre ord en liten feil i forhold til gjennomsnittet i popu-lasjonen. Størrelsen av denne feilen er avhengig av størrelsen på utvalget og sprednpopulasjonen. Dersom vi beregner gjennomsnittet i mange like store utvalg, er altså fordegen av tallene vi får normalfordelt.

Utvalg nr 1 2 3 4

Størrelse (n) 5 10 15 30

Gjennomsnitt ( ) 24.6 27.5 25.7 25.9

Standardavvik (s) 3.4 3.8 3.4 3.3

x

µ σ

x x xx

x

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 127: forstå_statistikk

UTVALG OG NORMALFORDELING SIDE 127

18.2. Utvalgsfeilen

Utvalgsfeilen avhengig av utvalgets stør-relse

I praksis vil vi bare trekke ett utvalg fra en populasjon og undersøke dette utvalget. Vi vet atdette utvalget høyst sannsynlig vil ha en feil i forhold til gjennomsnittet i populasjonen og atfeilen er avhengig av størrelsen på utvalget og spredningen i populasjonen.

Feilen angis ved følgende formel.

Utvalgsfeilen gir oss standardavviket til den teoretiske utvalgsfordelingen. Dersom vi bereg-ner utvalgsfeilen i et utvalg på N = 5 i populasjonen av hyller i tabe 18.1 on page 125, finnervi:

Øker vi utvalgsstørrelsen til 30, blir utvalgsfeilen

Vi ser at spredningen i utvalgsfordelingen ( ) blir mindre når vi øker antallet enheter iutvalget fra 5 til 30. Det bør understrekes at selv om populasjonen ikke er normalfordelt, vilden teoretiske utvalgsfordelingen alltid være normalfordelt når N er stor nok.

Normalfordelt. Gjennomsnittet er µ, stan-dardavviket er

.σx

x

x

x

Utvalgsfordeling

UTVALGSFEILEN : Standardavviket til fordelingen av gjennomsnittene til flere likestore utvalg fra en populasjon. Gir uttrykk for hvor stor feilmargin som oppstårnår en benytter et utvalg i stedet for populasjonen til analysen

UTVALGSFEIL :σxσN

��������=

σx

σN

��������

3.29

5���������� 1.47= = =

σx

σN

��������

3.29

30���������� 0.60= = =

σx

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 128: forstå_statistikk

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 129: forstå_statistikk

19. Gjennomsnittet i populasjonenDet er bare sjelden at gjennomsnittet i utvalget er nøyaktig det samme som i populasjonen,derfor må vi estimere eller beregne gjennomsnittet i populasjonen på grunnlag av observasjo-nene i utvalget. Som oftest beregner vi et intervallestimat (konfidensintervall) for gjennom-snittet. Til dette gjør vi bruk av utvalgsfeilen og den standardiserte normalfordelingen.

19.1. Sikkerhetsnivå

Gjennomsnit-tet i utvalgs-fordelingen er lik populas-jonsgjennom-snittet

Vi har sett at vi fra en populasjon kan trekke flere like store utvalg. Gjennomsnittene i hvertav disse utvalgene vil variere, men gjennomsnittet av gjennomsnittene av alle mulige utvalgmed N enheter blir lik µ.

Siden fordelingen av disse gjennomsnittene er normalfordelte, vet vi også nøyaktig hvor storandel av utvalgene som har et gjennomsnitt som ikke avviker mer enn 1,96 standardavvik fraµ, nemlig 95%. Standardavviket i denne fordelingen er . Når vi skal beregne µ, ønsker viselvsagt at resultatet skal bli best mulig. Det kan vi til en viss grad ha kontroll over ved å ute-late de utvalgene med gjennomsnitt som avviker mest fra µ. Ved å ta bort 2.5% fra hver endeav fordelingen, står vi igjen med de 95% “beste” utvalgene. Når vi så trekker ett utvalg, vet vijo ikke om vårt utvalg er blant de 95% beste utvalgene. Det betyr at det er 95% sjanse for atet tilfeldig utvalg er innenfor ±1,96 standardavvik fra µ. Følgelig er det 5% sjanse for at detutvalget vi har trukket, er blant de utvalgene som avviker mest fra gjennomsnittet i popula-sjonen. I dette tilfellet sier vi at sikkerhetsnivået er 95%. Sikkerhetsnivået forteller hvor storandel av utvalgsfordelingen vi skal “godta”. Det er vårt valg av z-verdi som bestemmer sik-kerhetsnivået. En z-verdi på 1.96 gir sikkerhetsnivå på 95%. Øker vi z-verdien til 2.58, blirsikkerhetsnivået 99% og ved z = 3,27 er det 99,9%.

19.2. KonfidensintervallDersom vi bare kan velge en verdi som estimat for gjennomsnittet i populasjonen, er gjen-nomsnittet i utvalget det beste valget vi kan gjøre. Dette anslaget er imidlertid beheftet meden feil, utvalgsfeilen. I tillegg har vi sett at vi ved hjelp av z-fordelingen kan bestemme sik-kerhetsnivået selv. Når vi bruker som anslag for µ, må vi altså bestemme hvor høyt sikker-hetsnivå vi vil ha. Samtidig må vi korrigere for standardfeilen. Dette er gjort i formelenunder.

Konfidensin-tervall og intervallesti-mat

Vi sier at vi beregner et konfidensintervall for µ. I stedet for å bruke et punktestimat, bruker viet intervallestimat. Vi angir visse grenser som gjennomsnittet i populasjonen med en gittsannsynlighet vil ligge innenfor.

KONFIDENSINTERVALL ;

σx

x

µ x zσN

��������⋅±=

KONFIDENSINTERVALL : Intervallestimat for en parameter

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 130: forstå_statistikk

SIDE 130 FORSTÅ STATISTIKK

sonne-

nder”

ttet i utval-lisereble påirkelig

lderen og duker på

r på atker på på at

ellerte kravsstille

Sannsynligheten bestemmes av sikkerhetsnivået, altså av z-verdien vi velger. Dette rementet kan vi bruke i forhold til vårt tidligere eksempel. Hvis vi bruker utvalget med 30enheter (tabell “Antall ordre pr kunde i en populasjon bestående av samtlige bedriftskuon page 125), og et sikkerhetsnivå på 95% får vi:

Når vi finner et gjennomsnitt på 25.9 i utvalget, betyr det at det virkelige gjennomsnipopulasjonen med 95% sannsynlighet ligger i en avstand av ±1.18 fra gjennomsnittet iget. Hvis vi med samme utvalg ønsket et sikkerhetsnivå på 99%, måtte vi multiputvalgsfeilen med 2.58 i stedenfor 1.96. Vårt anslag for gjennomsnittet i populasjonen denne måten mer upresist, men til gjengjeld kunne vi være 99% sikre på at estimatet vomfatter µ, i stedet for bare 95% som i eksempelet over. Prisen for høyere sikkerhet på esti-matet, er et mer upresist estimat (videre konfidensgrenser).

Sikkerhet på bekostning av nøyaktighet

Prinsippet kan lett illustreres med et hverdagslig eksempel. Tenk deg at du skal gjette apå en person du ikke kjenner. Du synes vedkommende ser ut til å være i tjueårene,begynner med å si at du er 100% sikker på at hun er mellom12 og 60 år. Du er 99% sikat hun er mellom 15 og 50 år, 90% sikker på at hun er mellom 17 og 40 år, 50% sikkehun er mellom 20 og 30, 25% sikker på at hun er mellom 22 og 27 år og bare 10% sikat hun er 24 år. Som du ser, jo mer presist du skal gjette alderen, jo mer usikker blir dudu faktisk har gjettet riktig.

Når vi beregner et konfidensintervall, må vi derfor tenke på om kravene til nøyaktighetsikkerhet skal veie tyngst. Dersom dataene ikke allerede er samlet inn, kan du selv setbåde til nøyaktighet og sikkerhet, og så regne ut hvor stort utvalg du må ha for å tilfreddisse kravene.

µ x zσN

��������⋅± 25.9 1.963.29

30����������⋅± 25.9 1.18±= = =

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 131: forstå_statistikk

20. Utvalgets størrelseHvor stort et utvalg?

Ett av de sentrale spørsmål ved utvalgsundersøkelser, er hvor stort utvalg vi må ha. Detavhenger først og fremst av kravene til presisjon i de estimater vi ønsker å gjøre, det vil sihvor stor feilmargin vi kan godta når vi skal finne et anslag for µ. Dernest avhenger det avhvor store forskjeller det er blant enhetene vi vil undersøke. Satt på spissen: Dersom alleenheter er helt like, behøver vi bare å undersøke én av dem for å kunne uttale oss om allesammen. Dette gjør vi faktisk i praksis også. Når journalistene tester nye bilmodeller, prøve-kjører de bare én bil, men uttaler seg om hele klassen av biler.

Vi ønsker for eksempel å finne ut hva gjennomsnittsprisen på en on-linesøking er. I eksempe-let forestiller vi oss at vi kjenner standardavviket i populasjonen. Sikkerhetsnivået for estima-tet skal være 95%.Vi tar utgangspunkt i samme formel som for konfidensintervall.

Først løser vi ligningen med hensyn på N og får

Den feilen vi skal tillate i estimatet svarer til . Hvis vi for eksempel tillater en feil på 2kroner, setter vi = 2. Vi forestiller oss at standardavviket er 15. Ved sikkerhetsnivå 95%er z-verdien 1,96. Dermed kan vi sette inn i ligningen.

Ønsket sikker-hetsnivå bestemmer utvalgsstør-relse

Gitt at vi godtar en feil på 2 kroner, må et akseptabelt utvalg være på 216 enheter. Ut fraønsket sikkerhetsnivå og kjennskap til populasjonens spredning, kan vi altså selv bestemmeutvalgsstørrelsen i forhold til maksimalt ønsket feilmargin på estimatene. Det betyr at selvom vi arbeider med stikkprøver eller utvalg, kan vi til en viss grad ha kontroll over usikkerhetog feilkilder.

UTVALGSSTØRRELSE :

µ x zσN

��������⋅±=

Nz σ⋅µ x–������������

2=

µ x–µ x–

Nz σ⋅µ x–������������

2 1.96 15⋅2

��������������������� 2

216= = =

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 132: forstå_statistikk

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 133: forstå_statistikk

21. Når utvalget er svært liteSmå utvalg og t-fordeling

Når vi har brukt normalfordelingen hittil, har vi forutsatt at standardavviket i populasjonen(σ) er kjent. Denne forutsetningen holder imidlertid ikke alltid. Vanligvis vil σ være ukjent,siden vi arbeider med utvalgsundersøkelser.

I slike tilfeller kan vi likevel regne med s i stedet for σ. Ulempen med dette er at fordelingenda ikke lenger er normalfordelt, men t-fordelt. I motsetning til den standardiserte normalfor-deling som er entydig, finnes det mange t-fordelinger. Formen på t-fordelingen er avhengigav utvalgets størrelse. Når n er liten, er t-fordelingen “videre” enn normalfordelingen. Der-som vi beregner et konfidensintervall ved hjelp at t-fordelingen, blir feilmarginen derforstørre enn ved å bruke normalfordelingen. Dette virker logisk, fordi vi ikke kjenner denegentlige spredningen i populasjonen, men må basere oss på å bruke et estimat for denne,nemlig standardavviket i utvalget.

Figur 21.1. t-fordelingen og normalfordelingen

� Konfidensgrensen blir videre ved bruk av t-fordelingen enn ved bruk av normalfordelin-gen.

Når n blir større enn ca 30, blir t-fordelingen svært lik normalfordelingen. Vi kan derforbruke normalfordelingen i stedet for t-fordelingen, selv om vi ikke kjenner standardavviket ipopulasjonen allerede når størrelsen på utvalget er mer enn 30.

I denne boken skal vi ikke behandle bruken av t-fordelingen. Prinsippene for å bruke dennefordelingen er imidlertid de samme som for normalfordelingen. I stedet for å bruke en z-verdii beregningen, hentes en t-verdi ut fra tabellen.

Eksempel 21.0.1

Vi trekker et utvalg på 100 bedriftskunder for å finne gjennomsnittlig utsalgspris på en vare.Gjennomsnittet i utvalget er 110 kr, standardavviket er 30 kr. Vi ønsker å angi den virkeligegjennomsnittsprisen på denne type varer med 95% sikkerhet, det vil si et 95% konfidensin-tervall. Først setter vi inn i formelen.

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

��������������������������������������������������������������������

����������������������������������

��������������������������������������������������������������������

����������������������������������

��������������������������������������������������������������������

����������������������������������

�������������

���������

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 134: forstå_statistikk

SIDE 134 FORSTÅ STATISTIKK

.88.

Vi finner at den virkelige prisen vil variere mellom 110 ± 5.88, eller 104.12 < µ < 115Sannsynligheten for at µ ligger i dette intervallet er lik sikkerhetsnivået, det vil si 95%.

µ x zs

N��������⋅± 110 1.96

30

100�������������⋅± 110 5.88±= = =

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 135: forstå_statistikk

22. Oppgaver til seksjon 5

Oppgaver til kapittel 18:

Oppgave 18.1Bruk en tabell over tilfeldige tall og trekk et nytt utvalg på 10 bedrifter fra populasjonen ibegynnelsen av kapittelet. Beregn gjennomsnittlig antall ordrer i utvalget. Beregn ogsåutvalgsfeilen i et utvalg på 10 hyller fra samme populasjon. I tabellen over tilfeldige tall skaldu finne 10 tall som ligger mellom 0001 og 1950. Forkast alle tall som er høyere enn 1950.Skriv opp verdiene til de 10 enhetsnumrene kommer fram til når du foretar trekningen.

Oppgave 18.2Beregn utvalgsfeilen ut fra følgende opplysninger. Populasjonen er en bedrifts daglige salg.Standardavviket i populasjonen er 150 og utvalget er på 200 salg.

Oppgaver til kapittel 19:

Oppgave 19.1I et utvalg av bøker, er gjennomsnittshøyden på bøkene 23 cm. Anta at fordelingen er nor-malfordelt, og at standardavviket i populasjonen er 2.2. Beregn et 95% konfidensintervall forgjennomsnittshøyden på bøkene i populasjonen.

Oppgave 19.2Dokumentasjonsavdelingen i en bedrift ønsker å prøve en ny informasjonsmegler. En bestil-ler 100 dokumenter fra firmaet og finner at leveringstiden gjennomsnittlig er 10 dager. Stan-dardavviket i populasjonen er oppgitt til å være 8 dager. Beregn et 95% konfidensintervall forleveringstiden.

Oppgaver til kapittel 20:

Oppgave 20.1En bedrift er interessert i å finne ut gjennomsnittsprisen på en bestemt type råvarer. Enønsker en feilmargin på under 3 kr til hver side av gjennomsnittet i populasjonen. Sikkerhets-nivået skal være 99% og en har beregnet standardavviket i populasjonen til å være 22 kr. Finnut hvor stort utvalget må være.

Oppgave 20.212 mannlige studenter har følgende vekt:

Vi antar at dette er et tilfeldig utvalg, en stikkprøve. Bestem et 90% konfidensintervall forvekten av studentene. Vi antar at σ er kjent lik 3 kg. Hvor mange observasjoner måtte vi hargjort dersom den totale lengden av konfidensintervallet bare skulle ha vært 1.5 kg?

(Hint: Vær oppmerksom på uttrykket “den totale lengden”)

21

22

86 93 110 79 80 83 87 94 75 87 112 93

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 136: forstå_statistikk

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 137: forstå_statistikk

Seksjon 6

HypotesetestHypotesetesting er den andre hoveddelen av analytisk statistikk. Hypoteser testes etter enframgangsmåte som følger de samme trinnene, uansett hvilken metode som benyttes.

I denne delen skal du derfor først lære framgangsmåten for hypotesetest. Dernest blir meto-den først illustrert ved tester mellom to gjennomsnitt, der hensikten er å se om to grupper erforskjellige med hensyn til et bestemt karaktertrekk.

Samme teknikk gjennomgås for kvalitative variabler, samt for test av uavhengighet mellomto variabler i en tabell.

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 138: forstå_statistikk

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 139: forstå_statistikk

23. Generelt om hypotesetestingNår vi formulerer en hypotese, vil det si det samme som at vi formulerer en antakelse om“virkeligheten”. Vi bruker dataene fra utvalget og beregner sannsynligheten for at de forskjel-lene vi finner i utvalget kan skyldes rene tilfeldigheter. Jo mindre sjanse det er for at resulta-tene har framkommet på grunn av tilfeldigheter, jo større sjanse er det for at forskjellen ogsåfinnes i populasjonen.

I all hypoteseetesting er framgangsmåten den samme, og du går fram slik som beskrevetunder:

1. Formuler nullhypotesen og alternativhypotesen

Dette kan du gjøre ved et formelt oppsett, slik som når du tester forskjeller mellom gjennom-snitt ved hjelp av normalfordelingen:

Legg merke til at nullhypotesen (H0) sier at det ikke er forskjeller, mens H1 sier at det er for-skjeller. Vi formulerer også en alternativ hypotese, slik at vi vet hva vi skal tro på, dersomnullhypotesen må forkastes. Hypotesen kan også være at det ene gjennomsnittet er høyereenn det andre.

2. Bestem signifikansnivå og kritisk verdi

Signifikansnivået angir hvilken sannsynlighet det er for at du kunne fått resultatene du harfått, bare som en følge av tilfeldigheter, gitt at H0 er korrekt.

De mest brukte signifikansnivåene er 5%, 1% og 0,1%, men det er ingenting i veien for ågodta både 10% og 25% i situasjoner der spesielle forhold taler for det. Det er store forskjel-ler i kravene til signifikansnivå dersom du tester ut sannsynligheten for bivirkninger av et nyttlegemiddel og hvilken av to annonser du skal bruke i en kampanje. Det er konsekvensene avå fatte en gal beslutning som i praksis bestemmer hvor godt signifikansnivå vi kan godta.Derfor finnes det ingen fasitsvar for hva som er et korrekt signifikansnivå. Vanligvis vil viimidlertid ønske at signifikansnivået er best mulig, det vil si vi ønsker at sannsynligheten forå få de verdiene vi faktisk har fått bare som følge av tilfeldigheter, skal være minst mulig.

Forkastnings-kriterium

Når du har bestemt signifikansnivået, kan du enkelt finne forkastningskriteriet eller kritiskverdi i en tabell. Dersom du lar et statistikkprogram gjennomføre beregningene for deg, fårdu vanligvis oppgitt signifikansnivået som en “p-verdi”. Når det står under testen at p<0,01,betyr det at signifikansnivået er på 1% eller bedre. Når vi bruker normalfordelingen, er denkritiske verdien en z-verdi og i kjikvadratfordelingen en kjikvadratverdi.

3. Regn ut testobservator

TestobservatorEn testobservator er en standardisert variabel, der de observerte verdiene blir transformerteller overført til variabelen ved hjelp av en formel, for eksempel denne, som brukes i tilknyt-ning til normalfordelingen.

H0 µ1 µ2– 0H1 µ1 µ2 0≠–

= ==

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 140: forstå_statistikk

SIDE 140 FORSTÅ STATISTIKK

at viema- den

re påter vi

r avvi-est. Vikerhe-gjøre

eret stan-

For ulike fordelinger gjøres transformasjonen på forskjellige måter. Det betyr i praksismå ha forskjellige formler for å kunne foreta hypotesetesting, avhengig av hvilken mattisk fordeling verdiene våre er best tilpasset. Logikken bak beregningene er imidlertidsamme, uansett hvilken fordeling eller formel som brukes.

4. Sammenlign testobservatoren med forkastningskriteriet

5. Dersom den verdien vi regner ut (testobservator) er større enn den verdien vi fin-ner i tabellen (forkastningskriteriet), skal vi forkaste nullhypotesen (H0). I mot-satt fall beholdes H0.

Logikken er at dersom det er liten sannsynlighet for å få det resultatet vi har fått bagrunn av tilfeldigheter som skyldes at vi arbeider med et utvalg fra populasjonen, forkasnullhypotesen og godtar den alternative hypotesen. Konklusjonen kan formuleres slik:

� Konklusjon: Vi forkaster H0 og aksepterer H1

Å teste en hypotese vil si at vi må bestemme oss for om hypotesen skal beholdes elleses. Statistisk kan vi ikke bevise at en hypotese er riktig eller gal ved en slik hypotesetkan bare sannsynliggjøre at den er riktig, eventuelt sannsynliggjøre at den er gal. Usikten ved denne sannsynliggjøringen kan vi imidlertid bestemme selv.Vi kan anskueligproblemet ved et eksempel.

Eksempel 23.0.1

En bedrift bruker en bokbinder til å binde inn kompendier for et bibliotek. Vi vet fra tidligundersøkelser at hvert bind i gjennomsnitt tåler 50 utlån etter at det er bundet inn, og adardavviket er på 20. Et konkurrerende firma hevder at deres innbindinger tåler 60 utlån,

-1.96 ← 5% → 1.96

-2.58 ← 1% → 2.58

-3.27 ← 0.1% → 3.27

Figur 23.1. Forkastningskriterier

Zx µ–

����������=

���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

����������������������������������

���������������������������������������������������

���������������������������������������������������

��������������������������������������������������������������������

������������������� �� �� � � � ��

������� ��������� ��

������ ��

���������������������

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 141: forstå_statistikk

GENERELT OM HYPOTESETESTING SIDE 141

standardavviket er også her 20. Bakgrunnen for at de kan hevde dette, er en utvalgsundersø-kelse på 50 bøker.

NullhypoteseVed hypotesetesting kan vi finne ut om det er sannsynlig at det konkurrerende firmaet virke-lig leverer et bedre produkt. Først formulerer vi en nullhypotese. Nullhypotesen spør oss omhva sannsynligheten for at en får = 60 i et utvalg på 50 enheter, der spredningen er 20, der-som det virkelige gjennomsnittet i populasjonen er 50. Nullhypotesen er at det ikke er noenforskjell på de to gjennomsnittene. Nullhypotesen spør faktisk om hvor stor sannsynlighet deter for at gjennomsnittet i et utvalg vil gi en verdi som avviker svært mye fra µ. Dette spørs-målet er en “ny vri” på konfidensintervallet.

Fordi vi i dette eksempelet kjenner alle verdiene, bortsett fra z, løser vi denne ligningen medhensyn på z, og finner

Dersom vi setter inn tallene fra eksempelet over, finner vi følgende.

Fra normalfordelingstabellen finner vi at z er større eller lik 3.5 bare i 0.02% av tilfellene. Vikan derfor konkludere med at sannsynligheten for å få en z-verdi på 3,5 forutsatt at nullhypo-tesen er sann, er 0.02%. Når vi først har funnet en z-verdi på 3.5, vet vi at sannsynligheten forå få denne verdien, forutsatt at nullhypotesen er sann, er bare 0.02%, det vil si svært liten.Sannsynligheten for at vi har fått dette resultatet fordi nullhypotesen faktisk er feil, er derformye større. Vi konkluderer vanligvis med at nullhypotesen skal forkastes, dersom vi får en z-verdi som er større enn 1.96. Da sier vi at resultatet er signifikant på 5%-nivået. Vi forkasteraltså vår nullhypotese som sier at det ikke er noen forskjell mellom holdbarheten til de to fir-maenes innbinding.

Det betyr i praksis at dersom du regner ut z til å være 1,96 eller større (eller -1,96 eller min-dre), skal H0 forkastes.

23.1. Fordelingen standardiseres

Formel for standardise-ring av utvalg

Det vi gjør i praksis er at vi omformer utvalgsfordelingens gjennomsnitt til normalfordelin-gen med standardavvik 1 og gjennomsnitt 0. Vi standardiserer fordelingen. Dette gjør vi ipraksis etter følgende formel.

HYPOTESETEST:

x

µ x zσN

��������⋅ ±=

zx µ–

σN

�������� ��������������=

zx µ–

σN

�������� ��������������

60 50–20

50����������

������������������ 3.5= = =

zx x–

s������������=

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 142: forstå_statistikk

SIDE 142 FORSTÅ STATISTIKK

( ). inn i

att at

gjen-

bare

er visynlig-ne kan

to vari-

De enkelte verdiene (x-ene) i vårt tilfelle er gjennomsnittene til de enkelte utvalgeneGjennomsnittet av gjennomsnittene er µ og standardavviket er . Når vi setter detteformelen, får vi samme formel som over:

, der .

Nullhypotesen sier alltid at det ikke er noen forskjell mellom størrelsene vi tester. Forutsdette er sant, at det ikke er noen forskjeller i populasjonenes parametre (σ og µ), bruker vinormalfordelingen til å finne sannsynligheten for at vi skal få utvalg med nettopp det nomsnitt og den spredning vi har funnet.

Hvis vi finner en forskjell som det ut fra normalfordelingstabellen er lite sannsynlig å få på grunn av tilfeldigheter, forkaster vi nullhypotesen.

23.2. Forskjeller mellom to gjennomsnitt

Hypotesetes-ting som sam-menlikning av to gjennom-snitt

I eksempelet over forutsatte vi at vi kjente parametrene i populasjonen. Vanligvis brukhypotesetesting til å sammenligne størrelser fra to utvalg. Deretter undersøker vi sannheten for at de to populasjonenes parametre er de samme, eller om de to stikkprøvetenkes å komme fra samme populasjon.

Eksempel 23.2.1

Under arbeidet med neste års budsjett, undersøker en bedrift gjennomsnittsprisene påanter varer. De trekker to utvalg og får følgende resultater.

Nullhypotesen er at det ikke er noen forskjell i de gjennomsnittlige prisene, det vil si

Dette tester vi ved hjelp av følgende formel

xσx

zx µ–

σN

�������� ��������������= σ

xσN

��������=

Gjennomsnittspriser

Variant 1

Variant 2

Gjennomsnitt 110 115

Standardavvik 20 30

Utvalg (N) 40 50

HYPOTESETEST FOR GJENNOMSNITT :

H0 µ1 µ2–: 0=

zx1 x2–

σ12

N1������

σ22

N2������+

������������������������=

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 143: forstå_statistikk

GENERELT OM HYPOTESETESTING SIDE 143

Dersom N i utvalgene er større enn 30, kan vi erstatte σ med s. Vi setter inn tallene fra vårlille empiriske undersøkelse og finner:

z-verdien vi regner ut er innenfor grensene på ± 1.96. Derfor godtar vi nullhypotesen. Det vilsi vi aksepterer at det ikke er noen forskjell på de gjennomsnittlige prisene for variant 1 ogvariant 2.

Når du skal teste en hypotese om forskjeller mellom to gjennomsnitt, går du fram slik:

1. Formuler nullhypotesen og alternativhypotesen

2. Regn ut testobservator: Testobservator er i dette tilfellet en normalisering av for-skjellene på de to gjennomsnittene: Hvor stor er forskjellen omregnet til stan-dardavvik, altså til z-verdi?

3. Velg signifikansnivå og finn forkastningskriteriet. Signifikansnivået velges ut frapraktiske hensyn.

zx1 x2–

s12

N1������

s22

N2������+

������������������������

115 110–

90050���������

40040���������+

����������������������������� 0.95= = =

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

��������������������������������

��������������������������������

������������������������������������������������

����������������������������������������������������������������

��������������������������������������������������������������������������������

��

�� � �� � �

������������������������������������������������������������������������

������������������������������������������������������������������������

����� ��

����� ����

H0 µ1 µ2–: 0=

H1 µ1 µ2 0≠–:

zx1 x2–

s12

N1������

s22

N2������+

������������������������=

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 144: forstå_statistikk

SIDE 144 FORSTÅ STATISTIKK

er avja fak-lerskal vi

4. Sammenlign testobservator med forkastningskriteriet. Dersom testobservator erhøyere enn forkastningskriteriet, forkastes H0. I motsatt fall beholdes H0.

5. Formuler konklusjonen.

Figur 23.2. Signifikansnivå 5%

23.3. Estimering og hypotesetest - oppsummeringI de to siste kapitlene har vi vist at estimering og hypotesetesting egentlig er to sidsamme sak. I dette arbeidet har vi også utnyttet vår kunnskap om normalfordelingen, tisk har vi ikke introdusert noe som er helt nytt i de to siste kapitlene. Det er spørsmålet elperspektivet som er hele forskjellen på estimering og hypotesetesting. I neste kapittel se hvordan vi kan foreta hypotesetester på fordelinger som ikke er normalfordelte.

Signifikansnivå Forkastningskriterium

5% 1.96

1% 2.58

0.1% 3.27

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������

������������������������������������������������

����������������������������������������������������������������

��������������������������������������������������������������������������������

��������������������������������

��

�� � �� � �

���������������������������������������������������������������������������

���������������������������������������������������������������������������

����� ��

������ �� ������ ��

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 145: forstå_statistikk

24. Kvalitative variablerI de foregående kapitlene har vi presentert de viktigste delene av den analytiske statistikken.Dette kan oppsummeres med at vi har svart på følgende tre spørsmål:

1. Hvordan finner vi et intervallestimat for en parameter i populasjonen? Dette bleillustrert med å lage et konfidensintervall for , gjennomsnittet i populasjonen.

2. Hvor stort utvalg trenger vi, forutsatt at vi selv vil kontroll ere eller bestemme sik-kerhetsnivået, samt lengden på konfidensintervallet i de analysene vi senere skalgjøre?

3. Hvor mye kan vi stole på analysene våre? Dette svarte vi på da vi fastsatte signifi-kansnivået ved hypotesetesten.

Alle disse spørsmålene har egentlig noe å gjøre med kvaliteten på analysene våre. Derfor erdisse metodene en viktig del av statistikken. Disse spørsmålene bør vi derfor stille oss før vibruker resultatene fra den deskriptive eller beskrivende statistikken til å fatte viktige beslut-ninger. Disse metodene brukte vi når vi skulle se på gjennomsnitt og forskjeller mellom gjen-nomsnitt som eksempler. I tillegg til tester av gjennomsnitt, har vi ofte nytte av å kunne gjørede samme analysene med kvalitative eller binome variabler.

I dette kapittelet ser vi på hvordan vi kan analysere variabler med bare to verdier.

Binome varia-bler

Ved binome variabler er vi som oftest interessert i å studere andelen som har en bestemtegenskap, for eksempel at de svarer ja på et spørsmål.

p betyr pro-portion

Dersom det er totalt N personer som får spørsmålet, og x som svarer ja, finner vi andelen pslik:

24.1. Konfidensintervall for PPå samme måte som vi beregnet konfidensintervall for med utgangspunkt i , gjennom-snittet i utvalget, kan vi tegne et konfidensintervall for P (andelen i populasjonen) medutgangspunkt i p.

Som du ser, ligner formelen svært mye på den du ble kjent med i kapittel 15. Uttrykket er det samme som standardavviket til variabelen.

µ

pxN����=

µ x

P p z p 1 p–⋅N

�������������������–±=

p 1 p–( )⋅

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 146: forstå_statistikk

SIDE 146 FORSTÅ STATISTIKK

fotbal- se på

i bru-

,% sik-

ker-

enhe-

t til å

at P

et,

ihet og

Eksempel 24.1.1

Et meningsmålingsinstitutt ringer 1200 mennesker for å spørre om de så den siste landskampen på TV. Av disse sier 324 ja, de har sett kampen.Vi finner andelen ved åantall gunstige over antall mulige.

Ved å sette tallene inn i formelen kan vi så beregne et konfidensintervall for andelen. Vker 95% sikkerhetsnivå.

Vi kan også gjøre andelene om til prosenttall ved å multiplisere med 100.

Når 27% av de spurte sier at de har sett kampen, må vi ta hensyn til en feilmargin på dersom vi vil at tallene også skal si oss noe om populasjonen. Vi kan dermed med 95kerhet si at den virkelige andelen ligger mellom 24,5% og 29,5%.

Dersom vi øker sikkerhetskravet til 99% (z=2,58) blir feilmarginen . Høyere sikhet betyr altså større unøyaktighet på estimatet vårt

Hva hadde resultatet blitt dersom andelen 0,27 hadde framkommet på grunnlag av 400ter?

Beregning av utvalgsstørrelseVed å snu på problemstillingen, kan vi også nå bruke formelen for konfidensintervalleberegne ønsket utvalgsstørrelse. Ved å flytte N over på venstresiden, får vi

(P-p) angir hvor stor feilmargin vi vil godta når vi seinere skal lage estimater for P. Husker andel i populasjonen og p er andel i utvalget.

Uttrykket er variansen til variabelen. Følgelig er standardavviksiden standardavviket er kvadratroten av variansen. Som ved tidligere beregninger av N, måvi ha noe kjennskap til spredningen i populasjonen. Jo større forskjeller det er på enhetenepopulasjonen, jo større må utvalget vårt være dersom vi skal ivareta kravene til sikkernøyaktighet på estimatene våre.

ØNSKET UTVALGSSTØRRELSE:

pxN����

3241200������������ 0 27,= = =

P p z p 1 p–( )N

��������������������±=

P 0�

27 1 96 0 27 1 0 27,–( )⋅,1200

������������������������������������������⋅,±,=

P 0 27 0 025,±,=

P 27% 2 5%,±=

2 5%,±

3 3%,±

N p 1 p–( ) z2

P p–( )2�������������������⋅ ⋅=

p 1 p–( )⋅ p 1 p–( )⋅

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 147: forstå_statistikk

KVALITATIVE VARIABLER SIDE 147

Eksempel 24.1.2

I en tidligere undersøkelse fant vi at andelen elever som ikke hadde med matpakke på skolen,var 0,5 (dvs. 50%). Hvor stort utvalg må vi ha dersom vi skal være 95% sikker på konklusjo-nen, samt at maksimal feilmargin på resultatet ikke skal overskride ?

Dette kan vi beregne slik: Vi setter:

Da får vi:

Vi trenger følgelig 385 enheter for å kunne angi et svar der feilmarginen er .

Ofte er det slik at p er helt ukjent. Det har i prinsippet ikke andre konsekvenser enn at N kan-skje blir unødig stor. Størrelsen av produktet p(1-P) beskriver spredningen i populasjonen,som vi husker har betydning for utvalgsstørrelsen.

Vi ser av uttrykket at dette blir størst når p = 0,5. Vi kan derfor sette formelen lik

,

dersom p er helt ukjent. Hvis vi har grunn til å anta at p ligger innenfor visse grenser, foreksempel mellom 0.1 og 0.2, så velger vi det tallet som ligger nærmest 0.5, siden dette girstørst usikkerhet.

p (1-p) p⋅(1-p)

0,1 0,9 0,09

0,2 0,8 0,16

0,5 0,5 0,25

0,7 0,3 0,21

1,0 0 0

5%±

p 0 5,=

z 1 96,=

P p– 0 05,=

N p 1 p–( ) z2

P p–( )2�������������������⋅ ⋅=

N 0 5 1 0 5,–( ) 1 96, 2

0 05,( )2�������������������⋅ ⋅,=

N 384 2,=

N 385enheter=

5%±

p 1 p–( )⋅

P 0 5z

2

P p–( )2�������������������⋅,=

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 148: forstå_statistikk

SIDE 148 FORSTÅ STATISTIKK

n for

sen.

ålet er

å testeår føl-

24.2. Hypotesetest for forskjell på to andelerVi har sett at det har vært en klar parallell mellom konfidensintervall og utvalgsstørrelse

og for andeler. Tilsvarende er det akkurat det samme forholdet for hypotesetest.

Vi følger den samme framgangsmåten. Først formuleres hypotesen og alternativhypote

Hypotesen er at det ikke er noen forskjell på andelene i de to populasjonene. Spørsmom dataene våre kan overbevise oss om at dette er tilfellet.

Det finner vi ut ved å utforme en testobservator. Den ser slik ut:

der

p er altså et veid gjennomsnitt av og .

Eksempel 24.2.1

Et postordrefirma planlegger å sende ut 1 million direkteadresserte reklamebrev. For hvordan dette bør gjøres best mulig, utformer de to alternativer som de tester ut. De fgende resultater:

Vi beregner

Metode 1 Metode 2

Sendt ut

Svar

µ

H0:P1 P2– 0=

H1:P1 P2– 0≠

zP1 P2–

p 1 p–( ) 1N1������

1N2������+

������������������������������������������������������=

P1

x1

N1

������=

P2

x2

N2������=

Px1 x2–

N1 N2+�������������������=

P1 P2

N1 5000= N2 3000=

x1 412= x2 311=

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 149: forstå_statistikk

KVALITATIVE VARIABLER SIDE 149

Vi setter tallene inn i formelen og får:

Ved et signifikansnivå på 1% (z=2,58) forkastes hypotesen og H1 godtas. Dataene våre viseraltså at det er grunn til å tro at det er forskjeller på de to metodene.

Legg merke til at hypotesen ikke vil bli forkastet på signifikansnivå 0,1% (z=3,27). I dette til-fellet har ikke det noen praktisk betydning, siden testresultatene uansett taler for å velgemetode nummer 2, siden denne synes å være bedre enn metode nummer 1. I andre sammen-henger har valg av signifikansnivå større betydning.

24.3. Type 1 og type 2 feilNår vi tester hypoteser, er det alltid en fare for at vi ender opp med gal konklusjon. Prinsipieltkan vi gjøre to typer feil. Vi kan komme til å forkaste hypotesen, dersom den i virkelighetener korrekt. Denne feilen kan vi kontrollere når vi velger signifikansnivået. Ved signifikans-nivå 5%, er det følgelig 5% sjanse for å forkaste hypotesen feilaktig

Tilsvarende er det også en viss mulighet for at vi beholder hypotesen i situasjoner der den ergal og derfor skal forkastes.

Når vi bruker data fra en utvalgsundersøkelse til å teste antakelser eller hypoteser om popula-sjonen, må vi derfor være litt varsomme med de konklusjonene vi trekker. Hvis vi er litt

Populasjon

H0 er i virkeligheten kor-rekt

H0 er i virkeligheten feil

Beslutning p.g.a.

analyse av

utvalgsdata

Beholder H0 Riktig beslutning Type 2 feil

Forkaster

H0

Type 1 feil Riktig beslutning

P1

x1

N1������

4125000������������ 0 082,= = =

P2

x2

N2

������

3113000������������ 0 104,= = =

Px1 x2+

N1 N2+�������������������

412 311+5000 3000+������������������������������ 0 09,= = =

zP1 P2–

p 1 p–( ) 1N1������

1N2������+

⋅������������������������������������������������������=

z0 082 0 104,–,

0 09 1 0 09,–( ) 15000������������

13000������������+

⋅,

����������������������������������������������������������������������������������� 3 03,–= =

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 150: forstå_statistikk

SIDE 150 FORSTÅ STATISTIKK

otese

at ennte at

igni-n vår,

kyniske i bruken av hypotesetester, ser vi at det alltid vil være mulig å forkaste en hyppå et gitt signifikansnivå, dersom vi foretar mange nok studier.

Ved signifikansnivå 5% er sjansen 1:20 for at hypotesen forkastes feilaktig, det vil si Type 1 feil oppstår. Ved å gjennomføre samme eksperiment 20 ganger, kan vi forvenullhypotesen blir forkastet, selv om den i virkeligheten er korrekt.

Det er derfor grunn til å advare mot for stor tiltro til nytten av signifikanstester. Husk at sfikansnivået også forteller oss hvor stor sannsynligheten er for at vi forkaster hypotesetil tross for at den er korrekt.

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 151: forstå_statistikk

25. KjikvadrattestDe første hypotesetestene som ble gjennomgått testet om to parametre var forskjellige frahverandre. Parametrene var gjennomsnitt eller andel med en bestemt egenskap i en popula-sjon. Ved kjikvadrattesten finner vi ut om hele fordelingene er forskjellige fra de fordelingervi ville forvente å finne. Det er vanligst å bruke metoden for å teste om to variabler i en tabeller uavhengige av hverandre.

I kapitlet om målenivåer så vi at ulike variabler har ulike egenskaper. For at vi skal kunnegjøre nytte av normalfordelingen, må variablene være på intervall- eller forholdstallsnivå.Mange variabler er imidlertid bare på nominal eller ordinalnivå. Likevel kan vi teste om deter signifikante forskjeller mellom ulike utvalg eller mellom et utvalg og en populasjon.

Den viktigste testen for dette er χ2- testen eller kjikvadratet. Den kan anvendes på alle typervariabler.

25.0.1 Eksempel på bruk av kjikvadrat

En bedrift skal starte en ny filial for salg av kapitalvarer. Når en skal beregne hvor mangeansatte en trenger på hver av ukedagene, regner en med at salget er jevnt fordelt over de 5arbeidsdagene. Det forventede salget vil være omlag 50 solgte enheter pr dag.

For å se om dette stemmer med de faktiske forholdene, observerer en salget de 5 førstedagene og finner følgende forhold mellom det observerte og det forventede salg.

Observert og forventet for-deling

Ved hjelp av χ2- testen ønsker en å finne ut om det virkelig er noen forskjell mellom denobserverte og den forventede fordelingen. Eller kan det tenkes at den observerte fordelingenframkommer som en følge av den naturlige variasjonen en vil finne dersom en observerer sal-get over en eller flere tilfeldige uker?

25.1. Hvordan beregne kjikvadrat?Tankegangen ved denne form for hypotesetesting er i prinsippet den samme som vi tidligerehar lært. Vi ønsker å finne sannsynligheten for å få de observerte hyppigheter i et utvalg av engitt størrelse, under forutsetning av at de forventede hyppighetene er riktige. Også i dette til-fellet snakker vi om en nullhypotese. Det som er forskjellig fra hypotesetesting med normal-

Ukedag man tir ons tor fre

Forventet salg 50 50 50 50 50

Ukedag man tir ons tor fre

Observert salg 33 68 60 49 40

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 152: forstå_statistikk

SIDE 152 FORSTÅ STATISTIKK

bare

sum-n sisteenteded å ta vil si

tobser- fri-tlingenlingen.er 10 -

fordlingen, er at vi nå ser om det er forskjeller mellom hele fordelinger. Tidligere så vi på forskjeller mellom parametrene i populasjonene.

χ2 beregnes etter følgende formel:

der O er de observerte hyppighetene og E er de forventede hyppighetene.

Eksempel 25.1.1

Det vil si at χ2 = 16.28.

Akkurat som det finnes flere normalfordelinger, finnes det også flere χ2 - fordelinger. Forde-lingene har ulik form, avhengig av hvor mange frihetsgrader de har.

25.2. FrihetsgraderEn fordelings frihetsgrader forklares best gjennom et praktisk eksempel. Når vi kjennermen til 5 observerte hyppigheter, kan vi fritt bestemme de 4 første hyppighetene, før degir seg selv. Summen av de observerte hyppighetene skal være lik summen av de forvhyppighetene. I vårt eksempel blir antallet frihetsgrader 4. Frihetsgradene finner du veantallet verdier på variabelen og trekke fra 1. Antallet verdier på vår variabel er 5, detalle ukedagene fra mandag til fredag.

25.3. Tolkning av kjikvadratVi sammenligner de forventede med de observerte hyppighetene. Først regner vi ut tesvatoren χ2 etter formelen. Deretter finner vi antallet frihetsgrader. Når vi kjenner antallethetsgrader, kan vi ved hjelp av tabellen over χ2 - fordelingen finne hvor stor sannsynlighedet er for å få de observerte hyppighetene vi har fått, forutsatt at den forventede fordeer riktig. Resultatet tolkes på samme måte som ved hypotesetesting med normalfordeDersom sannsynligheten for å få det observerte resultatet er svært liten, vanligvis und

K JIKVADRATTEST :

UkedagObservertehyppigheter

Forventedehyppigheter

O E (O-E)

Man 33 50 -17 5,78

Tirs 68 50 18 6,48

On 60 50 10 2,00

Tors 49 50 -1 0,02

Fre 40 50 -10 2,00

SUM 250 250 0 16,28

χ2 O E–( )2

E���������������������∑=

O E–( )2

E���������������������

Siste tall gir segselv

1

+ 6

+ 2

+

= 15

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 153: forstå_statistikk

KJIKVADRATTEST SIDE 153

5%, konkluderer vi med at det er størst sannsynlighet for at den forventede fordelingen er gal.I vårt eksempel finner vi i tabellen at den observerte χ2 - verdien (15) vil forekomme i færreenn 5% av tilfellene. Det vil si at dersom nullhypotesen er sann, (den forventede fordelingener rett) er det 5% sjanse for å få det gitte utfall. Denne sannsynligheten er så liten at vi vanlig-vis kan forkaste nullhypotesen. Vi sier at resultatet er signifikant på 5% nivået.

Eksempel 25.3.1

Et annet eksempel viser hvordan salget i en bedrift varierer over årets kvartaler. Vår nullhy-potese er at salget er jevnt fordelt over hele kalenderåret, tabe 25.1 on page 153 viser antallsalg pr kvartal hos en bilforhandler.

Antallet verdier i denne fordelingen er 4 (hvert kvartal er en verdi). Frihetsgradene er antalletverdier - 1, det vil si 3. χ2 har vi beregnet til 5.92. Fra tabellen finner vi at i χ2 - fordelingenmed 3 frihetsgrader, er det mellom 25% og 10% sjanse for å få en χ2 - verdi på 5.92. Det vilsi at vi kan ikke forkaste nullhypotesen med et signifikansnivå på 10% eller bedre.

På tross av de observerte forskjellen i kvartalssalg er det i følge testen ikke grunnlag for åhevde at det er forskjeller i virkeligheten. De forskjellene vi faktisk finner, forklares som til-feldige variasjoner i utvalget.

25.4. Firefeltstabellerχ2 - fordelingen kan også brukes til å undersøke samvariasjonen mellom to eller flere varia-bler. I tabellen under er det gitt en oversikt over unge og gamle forbrukeres handlevaner.

Tabell 25.1. Salg pr kvartal

KvartalObservertehyppigheter

Forventedehyppigheter

O E (O-E)

Jan-mar 30 25 5 1,00

Apr-jun 32 25 7 1,96

Jul-sep 18 25 -7 1,96

Okt-des 20 25 -5 1,00

SUM 100 100 0 5,92

Med handleliste Uten handleliste Sum

Unge 750 850 1600

Gamle 250 350 600

Sum 1000 1200 2200

O E–( )2

E���������������������

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 154: forstå_statistikk

SIDE 154 FORSTÅ STATISTIKK

rskjel-e. For åne, kan

t ikkebruktar o,

ereg-ppig- tabell

telle

å

Formuler hypotesen

Når vi analyserer tabellen over, er vi interesserte i å finne ut om det er systematiske foler i de to aldersgruppenes handlevaner. Hypotesen er at gruppenes handlevaner er likteste dette, må vi beregne de forventede verdiene. De marginale verdiene, eller summeikke endres. De er konstante. Vi beregner de forventede verdiene ved å multiplisere en celleskolonnesum med rekkesum og så dele på totalt antall enheter

Hva er forven-tede verdier?

Det vi egentlig finner da, er antall enheter som har de aktuelle verdiene, forutsatt at deer noen forskjeller mellom gruppene på den uavhengige variabelen. Hvis vi hadde metodene vi lærte i kapittelet om tabellanalyse, ville vi funnet at prosentdifferansen valtså ingen samvariasjon mellom variablene.

Det vil si at de forventede hyppighetene i cellen øverst til venstre er 727.27. Når vi har bnet den forventede hyppigheten i en av cellene i en firefelts-tabell, finner vi de andre hyhetene bare ved å trekke verdien fra summene i tabellen. Dette kan vi gjøre fordi enmed 4 celler bare har 1 frihetsgrad. Antallet frihetsgrader i en tabell finner vi ved å ta antalletrekker i tabellen minus 1 og multiplisere med antallet kollonner minus 1(du skal ikke med summene). I vårt eksempel blir de teoretiske hyppighetene som følger.

Når vi har beregnet de teoretiske verdiene, finner vi χ2 på samme måte som tidligere, vedsette inn i formelen.

Med handleliste Uten handleliste Sum

Unge 727.27 873.73 1600

Gamle 272.73 327.27 600

Sum 1000 1200 2200

CelleObservertehyppigheter

Forventedehyppigheter

O E (O-E)

nr1 350 327,27 22,73 1,58

nr2 850 873,73 -23,73 0,64

nr3 250 272,73 -22,73 1,89

nr4 750 727,27 22,73 0,71

SUM 2.200 2.201,00 4,82

1600

1000 2200

1000 1600⋅2200

727.27=

O E–( )2

E���������������������

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 155: forstå_statistikk

KJIKVADRATTEST SIDE 155

I denne tabellen får vi en χ2 - verdi på 4.82. Vi går inn i χ2 - tabellen med 1 frihetsgrad og fin-ner at verdien 4.82 er større enn 3,84 som tilsvarer et signifikansnivå på 5%. Konklusjonenvår blir at resultatet er signifikant på 5%-nivå. Nullhypotesen om at det ikke er noen forskjel-ler i handlemønster for de to gruppene må forkastes.

Ved bruk av χ2 - metoden er det viktig å huske at det er de observerte hyppighetene (prosentmå ikke brukes) som er utgangspunkt for beregningene.

25.4.1 Hva er χ2?

Vi har sett at det finnes mange χ2 - fordelinger. Det er antallet frihetsgrader som bestemmerhvordan fordelingen ser ut. Vi har brukt metoden til å undersøke om en gitt fordeling er lik enforventet eller teoretisk fordeling. Fordi en måler den empiriske fordelingens tilpasning tilden teoretiske, kalles testen ofte for “Goodness-of-fit”-test. En bør også være oppmerksompå at antallet forventede enheter i hver celle bør være over 5 for at testen skal kunne brukes.

25.5. Større tabellerχ2 - fordelingen kan også benyttes på større tabeller enn dem vi har brukt hittil. Tabellenunder viser hvordan salget av ulike kvaliteter kunstgjødsel fordeler seg til ulike verdensdeler,for et utvalg på 1115 solgte partier.

Kvalitet Europa USA Øst-stat. Resten Sum

Nr1 50 70 20 10 150

Nr2 110 300 10 10 430

Nr3 75 125 50 40 290

Nr4 100 100 25 20 245

Sum 335 595 105 80 1115

����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������

������������������������������������������������������

������������������

������������������������������������������������������

������������������������������������������������������������������������������������������

������������������������������������������������������

��

���

���

���

��

����

� � � � � �

���

��������������������������������������������������������������������������������

�������������������

������� �

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 156: forstå_statistikk

SIDE 156 FORSTÅ STATISTIKK

ver-alene cellen

rven-

og vis 1

l-tes,pa,

taker-

typer

ikke.gnifi-

H0: Ingen for-skjell

Vi ønsker å finne ut om det er store forskjeller i kvaliteten på varer som selges til ulikedensdeler. Vår nullhypotese er at det ikke er noen forskjeller. Med bakgrunn i margin(eller summene), kan vi nå beregne de forventede verdiene. Den forventede verdien tiløverst til venstre finner vi først.

H1: Det er for-skjell

Deretter finner vi de forventede verdiene i cellene etter tur. Når vi har beregnet alle de fotede celleverdiene, trekker vi disse fra de tilhørende observerte celleverdier, kvadrerer diffe-ransen og dividerer med den forventede verdi. De tallene vi da får, legger vi sammenhar funnet χ2 - verdien. Frihetsgradene finner vi ved å multiplisere antallet rekker minumed antallet kolonner minus 1, det vil si (4-1)⋅(4-1) = 9 frihetsgrader. Resultatet i dette tilfelet er en tabell med χ2 - verdi på 127 og med 9 frihetsgrader. Vår nullhypotese kan forkashvilket vil si at det er kvalitetsforskjeller på kunstgjødsel som selges til henholdsvis EuroUSA, Øststatene og resten av verden.

25.6. Statistisk avhengighet

Phi mål på samvariasjon

χ2 - testen kan også brukes til å teste avhengighet mellom to eller flere variabler. I eksempletover er det statistisk avhengighet mellom variablene kvalitet på varen og varens motland. Denne sammenhengen kan også uttrykkes med samvariasjonsmålet Phi.i

I eksemplet over vil Phi bli

Phi er en korrelasjonskoeffisient som varierer mellom 0 og 1. Den kan benyttes til alle variabler.

Kjikvadrattesten vil også alene angi om det er samvariasjon mellom to variabler eller Dersom testen er signifikant, betyr det at en eventuell korrelasjonskoeffisient vil være sikant forskjellig fra 0.

Celle 1 335 150⋅

1115���������������������� 45= =

KORRELASJONSKOEFFISIENT : Phi χ2

N�����=

Phi χ2

N�����

1961115������������ 0.42= = =

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 157: forstå_statistikk

26. Oppgaver til seksjon 6

Oppgaver til kapittel 23:

Oppgave 23.1En markedskonsulent får i oppdrag fra en bedrift å undersøke hvor lang ventetiden er på varersom bestilles fra en underleverandør. Hun undersøker et utvalg på N = 149 varer og finner atleveringstiden i gjennomsnitt er 14 dager, standardavviket i populasjonen er 9 dager. Vi forut-setter at leveringstiden for varene er normalfordelt. Bedriften har mistanke om at et konkurre-rende firma får sine leveranser betydelig raskere fra den samme underleverandøren og lurerpå om det er grunnlag for å heve en inngått kontrakt. En undersøkelse av et utvalg på 100varer levert til konkurrenten viser at leveringstiden til denne i gjennomsnitt er 10 dager. Stan-dardavviket i populasjonen er 8 dager.

a) Still opp en hypotese og test påstanden om at de to firmaene blir forskjellsbehandlet.

b) Gir testresultatene grunn til å heve kontrakten? Bruk signifikansnivå 1%.

Oppgave 23.2En markedsfører søker i samme database hos to ulike databaseverter. Han finner at de gjen-nomsnittlige kostnadene ved søking er henholdsvis USD 45 og USD 52. Standardavvikene erhenholdsvis 17 og 18. Tallene har han funnet ved å studere et utvalg på 200 søk i hver avbasene.

a) Er det grunn til å anta at det virkelig er forskjeller i vertenes kostnadsnivå?

b) Sett opp og test en hypotese med signifikansnivå 5%.

Oppgave 23.3På en språktest har studentene oppnådd et gjennomsnitt på 490 poeng over de siste årene. Enav språklærerne mener at gjennomsnittet ville ha vært høyere dersom studentene hadde gjen-nomført et bestemt undervisningsopplegg før testen.

a) I et tilfeldig utvalg på 35 studenter som gjennomførte undervisningsopplegget før tes-ten var gjennomsnittet 510 poeng med et standardavvik på 85. Gjennomfør en test på5% signifikansnivå.

b) Hva antyder resultatet i testen i spørsmål a)?

Oppgave 23.4ISS rengjøringsservice mener at deres industristøvsugere har et tilfredsstillende støynivå der-som det gjennomsnittlige støynivået er mindre enn 60 desibel. Vi antar at støyen er normal-fordelt.

a) Gjennomfør en hypotesetest på 5% nivå for et tilfeldig utvalg av fem rengjørere somhadde et gjennomsnittlig støynivå på 56 desibel og et standardavvik på 5 desibel.

b) Hva antyder resultatet i oppgave a)?

Oppgave 23.5Hansa Bryggeri hevder at de produserer fatøl med et lavere kaloriinnhold enn hva RingnesBryggeri gjør. Ved å teste 40 flasker fra hvert bryggeri ble det hos Hansa målt et gjennomsnitt

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 158: forstå_statistikk

SIDE 158 FORSTÅ STATISTIKK

vik 2

man-t

øl-

ene til

erererun at

e sta-

llom

te at de

feila-u skal

spesieltm vilalyse

jonellin på

innenenen av

på 79 kalorier pr. flaske (standardavvik 3 kcal) og hos Ringnes 81 kalorier (standardavkcal). Gjennomfør en hypotesetest med 1% signifikansnivå.

Oppgave 23.6 IHM har bestemt seg for å kjøpe inn PC-er av typen Olivetti eller MacIntosh. EDB-systesvarlig undersøker vedlikeholdsutgiftene pr. år fra de to leverandørene. Etter å ha kontakte30 brukere av Olivetti maskiner og 50 brukere av MacIntosh maskiner kom han frem til fgende:

Test om man på grunnlag av disse data kan påstå at det er forskjell i vedlikeholdsutgiftde to maskintypene. Velg signifikansnivå α = 0,1.

Oppgave 23.7 En markedsanalytiker har fått i oppdrag å undersøke hvilke priser konkurrentene opmed på 95 oktan blyfri bensin. I et utvalg på 45 av oppdragsgivers stasjoner, finner hgjennomsnittsprisen er 7,60 pr. liter, standardavviket er 0,4. Tilsvarende tall for den nærmestkonkurrenten er 7,75 i gjennomsnitt og standardavvik på 0,65. I det siste tilfellet ble 60sjoner undersøkt.

Sett opp og test en hypotese hvorvidt det er grunn til å tro at det virkelig er forskjell mede to kjedenes bensinpriser. Velg selv signifikansnivå for testen.

Oppgaver til kapittel 24:

Oppgave 24.1 En avis har gjennomført en enquete, der en andel på 0,3 (eller 30%) av 300 spurte svarville stemme Arbeiderpartiet ved det kommende valget. Beregn et 95% konfidensintervall forandelen.

Oppgave 24.2 Fra et adresseregister ble det trukket ut et utvalg på 800 adresser, fordi de ville sjekke omopplysningene i registeret var korrekte. Det viser seg at 80 av adressene var feilaktige.

a) Beregn et 95% konfidensintervall for andelen feilaktige adresser i utvalget.

b) Forutsatt at du ønsket en feilmargin på estimatet og du antar at andelendresser fra oppgavenes første del er korrekt: Hvor stort utvalg må du ha når dberegne et 95% konfidensintervall?

Oppgave 24.3 Ved en markedsundersøkelse ønsker vi å finne ut hvor stor andel som svarer JA på et spørsmål. Vi vil estimere andelen med en feilmargin på . Vi antar at andelen sosvare JA, er mellom 60% og 90%. Hvor stort utvalg trenger vi for å gjennomføre en anpå 95% sikkerhetsnivå?

Oppgave 24.4 Et ukeblad ønsker å finne ut hvor stor andel av leserne som er positive til en redaksombygging. De ønsker å beregne et konfidensintervall med en maksimal feilmarg

og sikkerhetsnivå 99%. Hvor stort utvalg trenger de?

Oppgave 24.5 En undersøkelse blant 200 menn og 300 kvinner viste at 40 av mennene og 45 av kvhadde smakt en ny istype. Betyr undersøkelsen at det også er forskjeller i populasjomenn og kvinner? Formuler hypotesen og test den med signifikansnivå 5%

Olivetti

MacIntosh

��

���= ��

��=

��

��= ��

���=

��±

��±

� ��,±

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 159: forstå_statistikk

OPPGAVER TIL SEKSJON 6 SIDE 159

Oppgave 24.6En urmaker har gjennomført en hypotesetest for å sjekke om det er forskjeller i andelen somklager på to forskjellige klokkemerker. Han finner at det er en prosentdifferanse på 10% i kla-geantall. Dette gir en z-verdi på 1,85, når differansen transformeres til den standardiserte nor-malfordelingen. Diskuter hva resultatet betyr.

Oppgaver til kapittel 25:

Oppgave 25.1Under båtmessa på Sjølyst undersøkte en utstiller hvilke av tre båtmodeller ulike kundegrup-per likte best. Resultatene er fremstilt i tabellen under:

a) Hva er enheter, variabel (eventuelt variabler), verdier og hyppighet i tabellen?

b) Tolk tabellen. Vil du ut fra funnene i tabellanalysen anbefale utstilleren å satse på noebestemt produkt.

c) Sett opp en hypotese om sammenhengen mellom variablene i tabellen. Fortell hva kon-klusjonen på testen er, slik at en person uten spesielle kunnskaper i statistikk skjønnerforklaringen.

Oppgave 25.2Formuler en nullhypotese og test den med χ2 - metoden på tabellen under. Velg signifikans-nivå 10%.

Oppgave 25.3Grand Hotell har rom i tre forskjellige priskategorier - lav, middels og høy. Hotelldirektørenhar i markedsføringskampanjer reklamert med høy kvalitet på hotellets service. En tilfeldigundersøkelse blant hotellets gjester ga resultatene som vist i tabellen under. Test på 1% nivåom det er uavhengighet mellom pris og opplevelse av kvalitet.

Alder Windjammer Seahawk Ocean Delight

20 - 34 år �� �� �

35 - 49 år �� �� �

50 og over � �� ��

Hustype

Enebol. Rekke Blokk

Har vaskemaskin �� �� ��

Har ikke vaskemaskin �� �� ��

Rompris Høy Middels Lav

Gjestens opplevelse av hotellets service:

God �� �� ��

Middels �� ��

Dårlig �� �

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 160: forstå_statistikk

SIDE 160 FORSTÅ STATISTIKK

r duifferan-

n nye

hengige

følger:

grup-

e hvemkelsener sam-

resul-an

Oppgave 25.4 Gjør en kjikvadratanalyse på tabellen i oppgave 10.2. Bruk signifikansnivå 5%. Fåbekreftet den sammenhengen du fant da du analyserte tabellen ved hjelp av prosentdser? Hvordan forklarer du resultatet?

Oppgave 25.5 Coca-Cola Company gjorde en tilfeldig undersøkelse om kundene likte smaken på deTAB Extra. Test på et 5% nivå at andelen som liker drikken er like:

Oppgave 25.6 Ved tre skoler ga eksamen i statistikk følgende resultat:

Undersøk om disse resultatene er i samsvar med hypotesen om at resultatene er uavav skole. Bruk signifikansnivå α = 0,05.

Oppgave 25.7 I mars 1991,1992 og 1993 var antallet arbeidsledige siviløkonomer og statsvitere som

Er det grunnlag å hevde at arbeidsledigheten har utviklet seg forskjellig for de to yrkespene?

Oppgave 25.8 En dataforhandler har gjennomført en markedsundersøkelse for blant annet å kartleggsom kommer til å kjøpe PC i året som kommer. Den som utførte markedsundersøønsket også å finne ut om en bør satse på annonser i Aftenposten. Tabellen under vismenheng mellom lesing av Aftenposten og planer om kjøp av PC.

Tabellen er beregnet på grunnlag av en utvalgsundersøkelse. Datafirmaet spør deg omtatet kan være fremkommet som følge av tilfeldige variasjoner. Gjennomfør en test som kgi svar på firmaets spørsmål. Formuler et svar til firmaet.

Mening Menn Kvinner Barn

Liker TAB �� �� ��

Liker ikke TAB �� � �

Skole A Skole B Skole C

Bestått �� �� ��

Ikke bestått � � �

1991 1992 1993

Siviløkonomer �� �� ��

Statsvitere �� �� �

Planer om kjøp av PC

SumJa Nei

LeserAftenposten

Nei �� �� ��

Ja �� �� �

Sum �� � ���

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 161: forstå_statistikk

OPPGAVER TIL SEKSJON 6 SIDE 161

Oppgave 25.9Et kredittselskap ønsker å finne ut hvor mange av de nåværende lånetakerne som har planerom å refinansiere sine lån eller kjøpe ny bolig det nærmeste året. En foretar en undersøkelseblant i alt 106 kunder og finner følgende

I planleggingen av en markedskampanje er de i tvil om de skal profilere seg overfor dem someier boligen selv eller dem som leier bolig. Siden undersøkelsen bygger på et relativt liteutvalg er en usikker på om en kan stole på resultatene fra tabellen. Gjennomfør en hypotese-test og finn ut om resultatene er signifikante på 5% nivået.

26

Planer om kjøp eller refinansieringSUM

Nei Ja

Leier bolig �� �� ��

Eier egen bolig � �� ��

SUM �� ��

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 162: forstå_statistikk

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 163: forstå_statistikk

Seksjon 7

Variablenes utvikling over tid

De første delene av boken omhandlet variabler der verdiene var fastsatt eller målt på ettbestemt tidspunkt. Slike studier kalles for tverrsnittstudier. Studier der verdien av en variabelmåles på ulike tidspunker, kalles for longitudinelle studier. Slike studier får en ved å følgeopp de samme enhetene med jevne eller ujevne mellomrom. Indekstall er betegnelsen på entype studier, der utvikling over tid er sentralt. Det samme er tilfellet i tidsrekkeanalyse.

Indekstall brukes ofte i samfunnsdebatten, for eksempel for å anskueliggjøre prisutviklingenpå ulike samfunnsområder. Tidsrekkeanalyse brukes når vi vil forklare hvordan en variabelsverdier har utviklet seg over tid, samt anvende denne kunnskapen til å lage prognose for vari-ablenes framtidige utvikling.

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 164: forstå_statistikk

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 165: forstå_statistikk

27. IndekstallIndekstall bygger på vår forståelse av prosenter. Vi er alle fortrolige med at 100% betyr en helmengde, mens prosenttallene representerer ulike andeler av denne helheten.

Vi kan imidlertid også la 100 være utgangspunktet for en sammenlikning, ved at to tallrekkerblir transformert slik at de begge begynner på tallet 100. Deretter kan vi studere den relativeutviklingen mellom rekkene som indekstall.

IndekstallIndekstall indikerer hvor stor forskjell det er på to eller flere størrelser. Tallene gjør det muligå sammenligne størrelser som i utgangspunktet ikke er direkte sammenlignbare, eller hvordet er vanskelig å tolke tall ved direkte sammenligninger.

Konsumprisin-deks

Konsumprisindeksen er et eksempel på indekstall. Den forteller oss hvor store endringer dethar vært i prisene på de mest sentrale varer og tjenester som inngår i et vanlig familiekonsum.Tilsvarende finnes det indekser for byggevarer som viser prisforandringer i byggebransjen ogen totalindeks for Oslo Børs som viser dagens oppgang/nedgang i børskursene.

Indeks er vei-viser

Ordet indeks kommer fra latin og betyr viser. Indeksen er altså en slags veiviser som fortelleross i hvilken retning utviklingen går. Selve beregningene av indeksene er egentlig bare pro-sentregning. Vi later som om prisene eller mengdene vi skal sammenligne er 100% for dettallet vi skal sammenligne mot. Dette utgangspunktet kaller vi for basispunkt.

BasisårNår vi beregner en indeks som viser prisutvikling over tid, kalles basispunktet for basisår.Ved for eksempel å sette basisåret for en indeks til 1990, settes indeksen dette året til 100.Dersom indeksen det neste året er 103, vil det si at prisene har økt med tre prosent i forholdtil basisåret 1990.

27.1. Enkle indekser

Prosentvis avstand mel-lom to tall

En enkel indeks viser den prosentvise avstanden mellom to tall. Tabellen under viser priserpå en bestemt vare for fem påfølgende år.

År 1 settes til basisår, det vil si at indeksen viser 100 for dette året. Indeksen i år 5 blir nå

Det vil si at prisene har økt med 20%, indeksen har gått opp fra 100 til 120 for denne varen.

År 1 2 3 4 5

Pris 200 203 210 230 240

240200��������� 100⋅ 120=

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 166: forstå_statistikk

SIDE 166 FORSTÅ STATISTIKK

stilt

isåret,kt medregne

ingen

forrigesår forelet og

r den

e

Ved å på en,

tall-

Ved tilsvarende beregninger finner vi at indeksen for år 4 blir 115. Indekstallene er framunder

Prosentpoeng Legg merke til at alle sammenligninger mellom tallene må skje med utgangspunkt i bassom er 1. Fra år 4 til år 5 har indeksen steget med 5 prosentpoeng, men den har ikke ø5 prosent. For å beregne økningen fra år fire til fem, må vi endre basisår til 4 og så beøkningen derfra. Dette gjør vi slik:

Mens indeksen har økt med fem prosentpoeng fra år fire til fem, er den prosentvise øknbare 4,3.

Kjedeindeks Vi kan også beregne indeksen slik at den hele tiden viser den prosentvise økningen fra år. En slik indeks kalles for en kjedeindeks. Kjedeindeksen setter hvert av årene til basidet neste året. Indekstallet for år 2 beregnes på samme måte som i det forrige eksempindekstallet for år 3 beregnes slik:

Kjedeindeksen for årene 1 til 5 kan dermed settes opp slik:

Denne indeksen gir bare mening i forhold til foregående tall, idet den hele tiden viseprosentvise økningen i forhold til foregående år.

Den enkle indeksen som vi beregnet innledningsvis leses vanligvis i forhold til basisåret. Alldirekte sammenligninger av tall må gjøres i forhold til basisåret.

Poenget med slike indekser er først og fremst å kunne sammenligne ulike tallrekker. sammenligne to varer, slik som i tabellen under, er indeksen spesielt nyttig, siden dendirekte måte forteller oss hvor store relative forskjeller det er i prisutvikling på de to varenesamt på hvilket tidspunkt eventuelle forskjeller oppstår.

Indeksene “frigjør” altså tallene våre fra de observerte verdiene, slik at vi kan gjøre allerekker direkte sammenlignbare.

År 1 2 3 4 5

Indeks 100 101.5 105 115 120

120115��������� 100⋅ 104.3=

År 1 2 3 4

Kjedeindeks 100 101.5 103.4 109.5 104.3

År 1 2 3 4 5

Indeks 1 100 101.5 105 115 120

Indeks 2 100 103 107 1122 131

210203��������� 100⋅ 103.4=

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 167: forstå_statistikk

INDEKSTALL SIDE 167

27.2. Sammensatte indekserOfte er det slik at vi ønsker å se på prisutviklingen for flere varer i gangen, for eksempel pris-variasjoner på aksjer eller prisvariasjoner på varer i ulike butikker. Hvor store er prisforskjel-lene på frukt i ulike butikker? Dette kan vi undersøke ved foreksempel å se på tabellen under:

Den totale prisforskjellen for disse varene er 12kr (42kr - 30kr). Dette kan vi også framstillepå indeksform

Den samlede prisforskjellen for disse varene er altså 40%. Dette prosenttallet skjuler ulikeprisforskjeller på de enkelte varene. Dersom vi hadde beregnet den gjennomsnittlige prisfor-skjellen ut fra tallene som viser prisforskjellen på de enkelte varene i tabellen over, ville vifunnet at denne var 42,7% og ikke 40% slik vi beregnet.

Formel for gjennomsnitt-lig forskjell

Rent generelt kan vi skrive dette på formelen:

Slike sammensatte indekser som vist over, bruker vi ofte for å beskrive den generelle prisut-viklingen på en gruppe varer eller i en bransje. Den kan imidlertid ikke alltid brukes til å sinoe om hvor mye mer vi må betale dersom vi skal kjøpe de samme varene. Siden prisutviklin-gen på hver av varene er forskjellig, må vi kjøpe like mye av hver vare for at indeksen skal giet uttrykk for prisforskjellen vi faktisk må betale. Indeksen er likevel nyttig, fordi den blantannet kan bruke den som rettesnor for prispåslag ved inngåtte avtaler.

Dersom en elektriker gir deg tilbud på å utføre et arbeid, er han avhengig av at de materialpri-sene han beregner sine tjenester ut fra, er de samme når varene skal kjøpes inn som på kalku-lasjonstidspunktet. For å gardere seg mot å tape penger på en eventuell prisstigning, tar slikeavtaler ofte forbehold om at prisene på installasjonsmateriell skal justeres etter en bestemtindeks. Dersom indeksen stiger med en prosent i arbeidsperioden, har elektrikeren anledningtil å justere opp prisen på leveransen med en prosent.

27.3. Veide indekserI visse tilfeller er vi bedre tjent med å bruke en indeks som også avspeiler hvor mye vi faktiskbruker av de ulike varetypene som inngår i indeksen. Fordi en familie ikke bruker like mangeenheter av brød, melk, sigaretter, vin og bleier, vil hver av disse varene gi forskjellige bidragtil konsumprisindeksen. Denne indeksen skal gjenspeile forbruksmønsteret til en vanlig fami-

Frukt REMA RIMI Prisforskjell

Epler 10 12 20%

Bananer 8 14 75%

Appelsiner 12 16 33%

SUM 30 42 40%

4230������ 100⋅ 140=

GJENNOMSNITTLIG FORSKJELL : Ppi∑p∑

������������ 100⋅=

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 168: forstå_statistikk

SIDE 168 FORSTÅ STATISTIKK

kon-

går ijøpert vine utn kon- skalar ikkeroble-

e året.te er atals gi endet

vi vil vi

gdenebør duva du

ne på

lie, og den brukes som et uttrykk for den generelle prisutviklingen i samfunnet. Dersomsumprisindeksen stiger mer enn lønningene, får vi dårligere råd. På samme måte får vi merfor pengene dersom lønnsutviklingen er høyere enn konsumprisindeksen.

Veide indekser tar altså hensyn til at vi ikke bruker like mye av hver av varene som innden. Problemet med slike indekser er hvilke mengder vi skal sammenligne. Dersom vi kinn tre typer materiale til et bibliotek, bøker, tidsskrifter og video, er det jo ikke sikkert akjøper forholdsmessig like mye av hver gruppe hvert år. Hvordan skal vi så kunne regden totale prisøkningen for de tre gruppene samlet? Svaret ligger i å holde varemengdestant. Vi later som om vi kjøper like mye av varene. Problemet er hvilken mengde viregne med? Skal vi ta utgangspunkt i første eller andre års forbruk? Dette spørsmålet hnoe fasitsvar. Derfor er det utviklet tre indekser som hver på sin måte løser mengdepmet.

Laspeyres indeks og Paasches indeks

Laspeyres indeks later som om vi alltid handler samme mengde som vi gjorde det førstI Paasches indeks holdes mengden for det andre året konstant. Bakgrunnen for detulike prisendringer på forskjellige varer kan føre til at vi endrer forbruksmønster. Når vi skberegne den samlede effekten av prisøkninger på flere varer, vil da Paasches indekbedre indikasjon på det samlede framtidige prisnivået, siden vi allerede har tilpasset oss nye forbruksmønsteret. Omvendt kan vi hevde at Laspeyres prisindeks er bedre dersomsammenligne bakover i tid. Det er imidlertid bare dersom det er forskjeller på hvor myehar kjøpt av de enkelte vareslagene, at indeksene gir forskjellige resultater.

Edgeworths indeks

Edgeworths indeks er en slags blanding av de to andre, idet vi her tar hensyn til menbåde på basispunktet og sammenligningspunktet. Hvilken av indeksene du bør bruke, bestemme ut fra de relative forskjellene i innkjøpt mengde for hvert av årene, samt hønsker å fortelle med tallene.

Tabellen under viser hvor mye som ble innkjøpt til et bibliotek, samt gjennomsnittsprisehver av enhetene.

Dersom vi uttrykker prisene for basisåret med p0 og mengde for basisåret for q0 og tilsva-rende priser og mengde for sammenligningsåret med pt og qt, kan formlene for de tre indek-sene settes opp slik:

Materiale pris 94 mengde94 pris 95 mengde 95

p94 q94 p95 q95

Tidsskrifter 380 375 425 380

Bøker 182 710 217 580

Video 435 35 442 40

L ASPEYRES INDEKS:

PAASCHES INDEKS:

EDGEWORTHS INDEKS:

PL

ΣPt qo⋅ΣPo qo⋅�������������������=

Pp

ΣPt qt⋅ΣPo qt⋅������������������=

PE

ΣPt qo⋅( ) ΣPt qt⋅( )+

ΣPo qo⋅( ) ΣPo qt⋅( )+������������������������������������������������������=

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 169: forstå_statistikk

INDEKSTALL SIDE 169

Da kan vi sette inn tallene fra tabellen over og beregne indeksene.

I dette tilfellet blir indeksene svært like. Det spiller derfor ingen rolle hvorvidt vi velger denene eller andre av formlene.

27.4. Konsumprisindeksen

Konsumprisin-deksen er en veiet indeks

Konsumprisindeksen er en veiet indeks som gir uttrykk for det generelle kostnadsnivået isamfunnet. Indeksen er bygd opp av ni hovedgrupper av varer og tjenester. Disse er mat, klærog skotøy, møbler og husholdningsartikler, fritid og utdanning, drikkevarer og tobakk, reiserog transport, bolig, lys, brensel, helsepleie samt andre tjenester. Hver av disse hovedgruppeneer gitt ulike vekter. Disse vektene vurderes på nytt hvert år og augustindeksen justeres med denye årsvektene.

Vektene regnes ut fra forbruksundersøkelser, der 1500 personer blir bedt om å redegjøre forsine utgifter i foregående år. Da finner en ut hvor stor del av forbruket som ble brukt på hverav varegruppene. Deretter regnes vektene ut som et gjennomsnitt av de siste tre års undersø-kelser. Dette medfølger at det alltid er et tidsmessig etterslep på konsumprisindeksen. Vek-tene som avgjør de enkelte varegruppenes relative bidrag til indeksen, er basert på tall somvanligvis ligger 1-3 år bakover i tid. Dette gjør at indeksen viser et etterslep dersom prisenepå enkelte varer eller tjenester stiger eller synker. Den største virkningen av dette får vi i for-hold til boligprisene.

I 1990 sank boligprisene kraftig. Dersom en hadde trukket husleien ut av konsumprisindek-sen, ville den vært 0,5 prosentpoeng lavere enn den faktisk var. Tilsvarende skulle indeksenhøsten 1994 vært noe høyere enn den faktisk var, fordi en da hadde en kraftig oppgang iboligprisene.

380 375 425 380 159375 142500 161500 144400

182 710 217 580 154070 129220 125860 105560

435 35 442 40 15470 15225 17680 17400

Sum 328915 286945 305040 267360

P94 q94 P95 q95 P95 q94⋅ P94 q94⋅ P95 q95⋅ P94 q95⋅

PL

ΣP95 q94⋅ΣP94 q94⋅������������������������

328915286945������������������ 100⋅ 114 6,= = =

Pp

ΣP95 q95⋅P94 q95⋅

�����������������������

305040267360������������������ 100⋅ 114 1,= = =

PE

ΣP95 q94⋅( ) P95 q95⋅( )+

ΣP94 q94⋅( ) P94 q95⋅( )+������������������������������������������������������������=

328915 305040+286945 267360+������������������������������������������ 100⋅= 114 4,=

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 170: forstå_statistikk

SIDE 170 FORSTÅ STATISTIKK

peiles iå boli--n før

vareneet medpendeesem-

vært,

storeindek-

dras-agt anonsum-n mil-

Det er

kjøpe-få like

le ver-å 150r deninelle

Ett av problemene med indeksen er altså at de faktiske bokostnadene bare delvis avsindeksen, og at det er et stort etterslep på virkningen av økede eller senkede renter pglån. Et annet problem er introduksjonen av nye varer og tjenester. Da Oslo innførte en bompengering fra 1. februar 1990, ble virkningen av denne ikke synlig i konsumprisindeksei august samme år, altså et halvt år etter.

Svakheter ved konsumprisin-deksen

Dersom en ønsker å bruke konsumprisindeksen som indikator på prisøkningene på deog tjenestene vi faktisk kjøper, bør vi altså være klar over de svakhetene som er beheftindeksen. I Nasjonalregnskapet finnes også et justeringstall (deflator) som angir den løprisutviklingen for utvalgte varer. I perioder med stabil økonomi vil disse to indeksene værrelativt like, mens det kan være noe forskjell på dem i turbulente tider. I 1988 viste forekpel deflatoren en prisøkning på 6,7%, mens konsumprisindeksen bare viste 6,1%. Hvilken avindeksene vi skal bruke, er avhengig av hvor stabil den økonomiske situasjonen harsamt hva vi skal bruke tallene til. Dersom tallene skal brukes til å beregne hvor store lønnstil-legg vi må ha for å opprettholde kjøpekraften i perioder med prisstigning, kan det hakonsekvenser dersom den faktiske prisstigningen er 0,6% høyere enn det konsumprissen viser.

27.5. Deflasjon og inflasjonHva skjer i løpet av et år dersom du vinner 1 million kroner og så putter pengene i masen? Hvor mye er disse pengene “verdt” når du tar dem fram igjen? Det kommer selvspå hvor stor prisøkningen har vært i den tiden pengene lå i madrassen. La oss anta at kprisindeksen har økt fra 100 til 107, det vil si at prisøkningen har vært 7%. Verdien av elion kroner vil da være

Du har altså tapt drøyt 65 000 kroner i kjøpekraft ved å la pengene ligge i madrassen.fremdeles 1 mill kroner, men den reelle verdien av pengene er mindre, fordi prisene på devarene du kan kjøpe for pengene har økt. Hvor mye måtte du hatt for å opprettholde kraften? Siden prisøkningen har vært 7%, måtte du følgelig hatt 7% mer penger for å mye igjen for din million.

Du måtte altså hatt 70 000 mer for å opprettholde kjøpekraften.

Sammenlig-ning av reelle verdier

Slike regnestykker har stor praktisk betydning dersom en ønsker å sammenligne reeldier og ikke bare nominelle kronebeløp. Da Nobelprisene ble etablert i 1901, var den p800 svenske kroner. I 1990 var den på omtrent 3 millioner svenske kroner. Likevel vavirkelige verdien av prisen større i 1901 enn i 1990. Det skyldes selvsagt at den nomkroneverdien ikke er justert helt i samsvar med prisstigningen i samfunnet.

DEFLASJON: Angir hvor mye kjøpekraften av en konstant sum penger synker somfølge av prisstigningen i samfunnet

INFLASJON: Et mål for prisstigning eller verditap.

1000000100107���������⋅ 934579=

1000000107100���������⋅ 1070000=

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 171: forstå_statistikk

28. TidsrekkeanalyseEn tidsrekke viser utviklingen i en variabels verdier, målt på forskjellige tidspunkter. Analy-sen har utviklet metoder for å beskrive utviklingen, samt å forklare den. Dette siste gjøreshovedsaklig ved å splitte (dekomponere) endringene i tre komponenter.

� En langsiktig utvikling, kalt trend

� Årlige variasjoner som tilskrives sesongeffekter

� Tilfeldige feil

Tilfeldige feil er all variasjon som ikke forklares av de to første faktorene, slik som virknin-ger av streiker, ulykker og annet. Hittil har vi studert en eller flere variablers verdier på etttidspunkt. Mange variabler har imidlertid verdier som antar forskjellige verdier over tid, ogda kan det være interessant å studere hvordan disse verdiene endrer seg på bestemte tidspunk-ter. Slike studier kalles for tidsrekkeanalyser.

Eksempler på tidsrekkeana-lyse

Vi finner mange eksempler på slik tidsrekkeanalyse. Årlige oversikter over prisstigningen isamfunnet, en bedrifts årsresultat eller halvårsresultat, kvartalsvise besøkstall ved et informa-sjonskontor, antall soldager pr måned og utviklingen i de siste dagers eller timers aksje- ogvalutakurser, er alle eksempler på tidsrekker.

Når vi studerer en tidsrekke, er det fordi vi ønsker å finne en forklaring på hvorfor utviklin-gen har vært slik den faktisk har vært, eller fordi vi ønsker å bruke våre kunnskaper fra denfjerne eller nære fortid til å lage prognoser for hvordan utviklingen sannsynligvis kommer tilå bli den neste tidsperioden.

PrognoserDersom vi ønsker å lage prognoser, trenger vi en modell som beskriver sammenhengene mel-lom de faktorene som vi antar styrer utviklingen. I værvarslingen brukes avanserte modeller,der en tar hensyn både til langsiktige utviklingstrekk, mer kortsiktige endringer og lokalegeografiske variasjoner. I studier av tidsrekker søker en å finne tilsvarende modeller. Slikemodeller kan gjøres enkle eller mer kompliserte. I denne boka skal vi bare se på de enklemodellene, men de grunnleggende prinsippene er like også ved bruk av mer komplisertemodeller.

SykluserDersom vi studerer en variabels utvikling over svært lang tid, eks 50-100 år slik en faktiskgjør med været, vil en finne at det er noen variasjoner som svinger i svært langsiktige bølger.Det kan for eksempel være mange snørike vintre som kommer etter hverandre eller tilsva-rende med vintre uten snø i det hele tatt. Slike langsiktige endringer kalles for sykluser. Disseskal vi imidlertid se helt bort fra i den videre analysen av tidsrekken.

TrenderI moteverden snakker en om trender, - om årets eller årstidens trend. Denne gir uttrykk for enmer langsiktig utvikling og kan kanskje forklare hvorfor bestemte farger dominerer motebil-det eller hvorfor det er populært med klær i bomull eller andre bestemte materialer. I tidsrek-ken angir trenden den generelle utviklingen. Er det slik at prisene jevnt over er stigende? Eromsetningen generelt økende? Slike spørsmål forsøker trenden å gi svar på.

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 172: forstå_statistikk

SIDE 172 FORSTÅ STATISTIKK

ariasjo-fektenellene

endennalysen

nden.ilsva-

pas-

Figur 28.1. Trend med sesongeffekt

Trenden kan imidlertid ikke forklare hvorfor jentene går i bikini om sommeren og i tykkebukser og gensere om vinteren, det er det sesongvariasjonene som forklarer. Sesongvnene er forskjeller som oppstår i tillegg til trenden. I en type modeller legges sesongeftil trenden, mens den i andre modeller multipliseres sammen med trenden. Disse modkalles henholdsvis for additive og mulitiplikative modeller.

Additiv modell Dersom en bruker en additiv modell, adderes sesongeffektene til trenden. Avviket fra trblir derfor det samme for den enkelte sesong (eks sommersesongen) i hvert av årene aer gjort for.

Figur 28.2. Additiv modell

Multiplikativ modell

Når en bruker en multiplikativ modell, multipliseres sesongeffekten sammen med treDette fører til at “avvikene” fra trenden blir større og større ved stigende trender, og trende mindre dersom trenden er synkende. Til en viss grad kan en derfor ut fra en grafiskframstilling av tallene, se om en skal bruke en additiv eller mulitiplikativ modell. I dettekapittelet gis en innføring i bruk av multiplikative modeller, men metoden kan enkelt tilses additive modeller også.

� �� ������ ���� ���

��

��

��

��

���

���

���� ���� ����

������� ������

��

��

��

��

���

���

���� ���� ��� ����

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 173: forstå_statistikk

TIDSREKKEANALYSE SIDE 173

Figur 28.3. Multiplikativ modell

I tillegg til trend og sesongeffekter, vil det alltid være variasjoner som ikke kan forklares.Dersom omsetningen på Vinmonopolet ett år synker ved juletider i stedet for å toppe seg, erforklaringen neppe at det er endringer i trenden for salget eller at vi har sluttet å kjøpe akevitttil jul, men forklaringen er snarere at en eller annen “uregelmessighet”, for eksempel enstreik, har oppstått. Dette er tilfeldige feil som bidrar til å gjøre modellene våre mindre bruk-bare for eksempel å lage prognoser.

Figur 28.4. Brudd i trenden og sesongvariasjonene.

28.1. Multiplikativ trefaktormodellSammenhengen mellom trenden og sesongvariasjonen bestemmes av den modellen vi velger.Valget av modell er igjen avhengig av hvilket mønster de observerte verdiene framviser.Generelt kan en si at en alltid skal søke å tilpasse modellen til de observerte dataene. Derforvil ikke alle modeller være like gode i alle tilfeller.

Når vi studerer utviklingen i variabelens verdier over lang tid, er det trenden som er mest iøy-nefallende, slik som du så på den første figuren. I praksis kan du bruke en grafisk framstilling(linjegraf) som utgangspunkt for å se hvilken modell du bør bruke i den videre analysen.Trenden finner du enkelt ved å bruke regresjonsfunksjonen i for eksempel et regneark.

��������� ��� ������

��

��

��

��

���

���

���

���� ���� ��� ����

��������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

����������������������������������������������������������������

����������������

��������������������������������

��������������������������������

������������������������������������������������

� �� ������ ���� ���

��

��

��

��

���

���

���� ���� ����

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 174: forstå_statistikk

SIDE 174 FORSTÅ STATISTIKK

med E

bort”ffekt og

asserkea-

an-

lageTek-

Dersom vi betegner trenden med T, sesongvariasjonen med S og de tilfeldige feilene (for error), finner vi at forbindelsen til den variabelen vi observerer (Y) kan skrives på føl-gende måte:

I utgangspunktet kjenner vi bare verdien Y, men ved å beregne trenden, kan vi siden “taeffekten av trenden. På den måten kan vi isolere den variasjonen som skyldes sesongetilfeldige feil.

28.2. Slik finner du trenden

Glidende gjen-nomsnitt og eksponensiell glatting

Stiger eller synker verdiene med tiden? Hvordan ser utviklingen ut? Hvilket “mønster” pfor å beskrive utviklingen? Dette er blant de spørsmålene vi må ta stilling til i en tidsreknalyse. Det første vi gjør er nettopp å beregne trenden. Dette kan gjøres på flere måter. Vligvis brukes enkel lineær eller kurvelineær regresjon, men glidende gjennomsnitt ogeksponensiell glatting er også metoder som kan brukes. Når en skal bruke trenden til åprognoser for framtiden, det vil si “framskrive” tallene fra tidsrekken, brukes regresjon. nikken for å gjøre dette er den samme som du lærte i kapittel 12.

Eksempelet under viser hvordan en bedrifts årlige salgsvolum har utviklet seg over tid.

TIDSREKKEANALYSE : Y T S E⋅ ⋅=

Tabell 28.1.

År Regneverdi Salg i mill kr.

1978 1 5

1979 2 8

1980 3 10

1981 4 8

1982 5 7

1983 6 7

1984 7 11

1985 8 13

1986 9 10

1987 10 9

1988 11 10

1989 12 13

1990 13 16

1991 14 12

1992 15 13

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 175: forstå_statistikk

TIDSREKKEANALYSE SIDE 175

Vi får et bedre bilde av utviklingen dersom vi framstiller tallrekken grafisk. Dette gjøres i etlinjediagram.

Figur 28.5.

RegneverdiTrenden kan nå beregnes med vanlig regresjon. Vær oppmerksom på at det er enklere å brukeårstallene 1, 2, 3, 4,.....n, enn de virkelige årstallene (eks 1978, 1979, 1980 osv) i regnestyk-ket. Når du seinere lager prognoser ved å fremskrive trenden, må du bare huske hvilken verdidet året du skal lage en prognose for skal ha. Vi setter verdiene inn i formelen for regresjons-linjen og får:

,

der t = 1 tilsvarer årstallet 1978 osv... Legg merke til at variabelen vår nå er gitt betegnelsen t(for trend) i stedet for x slik vi er vant til fra tidligere. Trenden kan nå tegnes inn sammenmed de observerte dataene (y). Se figur 28.6. Vi ser at trenden viser en mye “glattere” kurveenn de observerte verdiene.

Figur 28.6.

Salg i mill. kroner

0

2

4

6

8

10

12

14

16

1978

1979

1980

1981

1982

1983

1984

1985

1986

1987

1988

1989

1990

1991

1992

y a b x⋅+=

y 6.08 0.51 t⋅+=

0

2

4

6

8

10

12

14

16

1978

1979

1980

1981

1982

1983

1984

1985

1986

1987

1988

1989

1990

1991

1992

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 176: forstå_statistikk

SIDE 176 FORSTÅ STATISTIKK

ettet

r at josom”, deturve.iste”

er hvor

kten

Trenden kan også beregnes ved å bruke et glidende gjennomsnitt. Dette er gjort i oppsunder.

Her beregnes gjennomsnittsverdiene over flere år. Dette gjennomsnittet markerer da variabe-lens tyngdepunkt for de observerte årene. Ved å forskyve intervallet med observerte verdier,får en dermed et uttrykk for trenden for nesten alle verdiene som inngår i analysen.

Det glidende gjennomsnittet kan lages med tre, fem, syv, ni osv verdier. Problemet eflere årstall som inngår i beregningene, jo flere år “mister” en anslag for trenden for. Dervi lager et glidende gjennomsnitt for tre år, får vi et anslag bare for det “midterste åretvil si år to. Fordelen med å bruke mange år i beregningene, er at vi får en “glattere” kFølgelig er det en avveiing mellom behovet for en glattet trend og ønsket om ikke å “manslag for verdiene i begynnelsen og slutten av observasjonsperioden som bestemmmange år som skal inngå i det glidende gjennomsnittet.

28.3. Beregning av sesongindeksFor å kunne beregne sesongindeksen, må vi først finne trenden. Deretter “fjerner” vi effeav trenden på følgende måte:

Tabell 28.2.

År Salg Glidende 5-års summer 5 års glidende gj. snitt

1978 5

1979 8

1980 10 38 7,6 (= 38: 5)

1981 8 40 8,0

1982 7 43 8,6

1983 7 46 9,2

1984 11 48 9,6

1985 13 50 10,0

1986 10 53 10,6

1987 9 55 11,0

1988 10 58 11,6

1989 13 60 12,0

1990 16 64 12,8

1991 12

1992 13

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 177: forstå_statistikk

TIDSREKKEANALYSE SIDE 177

Vi står dermed igjen med effekten av sesong (S), samt tilfeldige feil (E). Også her kan seson-geffekten finnes både ved lineær (eller kurvelineær) regresjon og ved å bruke glidende gjen-nomsnitt. I dette tilfellet er det litt mer komplisert å bruke glidende gjennomsnitt. Tabellenunder viser en bedrifts kvartalsvise salg for en periode på tre år.

Ved å framstille tallene grafisk ser vi at det ser ut til å være visse systematiske variasjoner.

Da vi beregnet det glidende gjennomsnittet i forrige eksempel, brukte vi fem og fem tall iberegningene. Når vi opererer med sesongeffekter, er det vanlig å la det glidende gjennom-snittet omfatte like mange tall som vi har sesonger. I dette tilfellet har vi fire sesonger, så viberegner gjennomsnittet av de fire og fire tall.

År 1991 1992 1993

Sesong I II III IV I II III IV I II III IV

Salg 80 95 100 120 90 125110

150 100 155 120 180

Y T S E⋅ ⋅=

YT���� S E⋅=

��

��

��

���

���

���

���

��

���� ���� ����

���

����

! ! !

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 178: forstå_statistikk

SIDE 178 FORSTÅ STATISTIKK

g 3.

ge

anslaglidende

Da ser vi at rent logisk havner gjennomsnittet av fire tall midt mellom tall nummer 2 oDet vi si at det glidende anslaget vårt egentlig ikke “treffer” noen sesong. Derfor gjør vi enliten korreksjon. Først har vi beregnet 4-kvartalsummer, som ville være det naturliutgangspunktet for et vanlig sentrert gjennomsnitt. For å få et anslag som treffer “midt” på ensesong, sentrer vi to slike firekvartalsummer og får en 8-kvartalsum (2 ⋅ 4-kvartalsummer). Isiste kolonne er summen delt på 8 og det sentrerte gjennomsnittet framstår nå som etfor sesong nummer tre. Så gjør vi tilsvarende for de neste sesongene Det sentrerte ggjennomsnittet angir trendverdiene..

Tabell 28.3.

År Kvar-tal Salg 4 kv. sum Sentrert Sentrert glidende

gj. sn.

1991

I 80

II 95

395

405

435

445

475

485

515

525

555

III 100 800 100

IV 120 840 105

1992

I 90 880 110

II 125 920 115

III 110 960 120

IV 150 1000 125

1993

I 100 1040 130

II 155 1080 135

III 120

IV 180

Tabell 28.4.

År Kvartal y Trend t y/t ⋅ 100

1991

I 80

II 95

III 100 100 100

IV 120 105 114,3

1992

I 90 110 81,8

II 125 115 108,7

III 110 120 91,7

IV 150 125 120,0

x

x

…x

x

x

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 179: forstå_statistikk

TIDSREKKEANALYSE SIDE 179

I tabell 28.4 er både de observerte verdiene (Y) og trenden (T) satt opp.

Ved å dividere utgangsverdiene Y med trenden og siden multiplisere med 100, får vi etindekstall som forteller hvor store avvikene er mellom Y og T.

For IV kvartal 1991 blir tallet

Indekstallet forutsetter at trenden i hvert av observasjonspunktene hele tiden er 100. Etindekstall på 114,3 viser at verdien Y i dette punktet var 14,3% høyere enn trenden. Indeks-tall på 81,8 viser en Y-verdi som var 18,2% (100-81,8) under trenden.

Dersom vi studerer tallene for de enkelte sesongene, finner vi at sesongindeksen for desamme sesongene i forskjellige år er forskjellige. De to anslagene vi har for 1. kvartal viseren indeks på henholdsvis 81,8 i 1992 og 76,9 i 1993. Siden vi ikke har annen kunnskap omhvilke andre faktorer enn trend- og sesongeffekt som påvirker Y-verdiene, antar vi at disseforskjellene skyldes tilfeldigheter. Utslagene av disse tilfeldighetene “fjerner” vi ved å tagjennomsnittet av de enkelte sesongverdiene.

I tabe 28.5 on page 179 er indekstallene satt opp slik at det er lett å beregne gjennomsnittene.

Korrigert sesongindeks

Siden vi har fire sesonger som hver svinger rundt indekstallet 100, burde også summen av defire sesongindeksene bli 400. Grunnetunøyaktigheter i regningen, blir ikke dette alltid tilfel-let. Det er derfor vanlig i visse tilfeller å korrigere sesongindeksen ved å multiplisere med

1993

I 100 130 76,9

II 155 135 114,8

III 120

IV 180

Tabell 28.5.

I II III IV

1991 - - 100.0 114.3

1992 81.8 108.7 91.7 120.0

1993 76.9 114.8

Σ 158.7 223.5 191.7 234.3

Gj. snitt 79.35 111.75 95.85 117.15(Σ =

404.1)

Korrigert sesongindeks 78.5 110.6 94.9 116.0(Σ =

400.0)

Tabell 28.4.

År Kvartal y Trend t y/t ⋅ 100

120105��������� 100⋅ 114.3=

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 180: forstå_statistikk

SIDE 180 FORSTÅ STATISTIKK

ngin-

brukeder du

evel erandle

er. Vår på

nde il-

vi-ndengen

ffekter,

og 95.3, 2 erkt iregner

forholdet mellom den summen en får, i dette tilfellet 404.1 og 400. Den korrigerte sesodeksen framstår i tabellens nederste linje.

Selv om det må mye regning til for å utføre en slik tidsrekkeanalyse, er metoden grei åder du ønsker å få en forklaring på de variasjonene du har observert, eller spesielt ønsker å bruke de historiske dataene til å lage prognoser for framtidig utvikling.

28.4. PrognoserEn kjent person har engang uttalt at det er vanskelig å spå, spesielt om framtiden. Likvi avhengige av å gjøre visse antakelser om framtiden for å kunne vite hvordan vi skal hi dag. Bevisst eller ubevisst lager vi derfor ulike prognoser for framtiden.

Når vi velger en bestemt utdanning, er det med håp om å få arbeid etter endte studiprognose om behovet for arbeidskraft med denne typen kompetanse, gjør at vi satserutdanningen. Prognosen kan basere seg på subjektive anslag, eller på mer håndfast regning.Uansett hvilken metode en velger, er en avhengig av å ha en modell som forklarer utviklingenog som gjør det mulig å bruke data om fortiden til å forutsi hva som kommer til å heframtiden. Modellen forutsetter en viss stabilitet i utviklingen og den forutsetter at vi har tigang til historiske data.

Framskrive trenden

Tidsrekkeanalysen gir oss tilgang til en slik modell. Modellen sier noe om et langsiktig utklingsforløp (trend) og om de aktuelle variasjonene i løpet av et år. Ved å framskrive tretil et ønsket tidspunkt i framtiden, får vi et anslag for hvordan den langsiktige utviklinkommer til å bli.

Justere for sesongeffekt

Når vi har kjennskap til sesongvariasjonene, kan trend-estimatet justeres for sesongeslik at det endelige anslaget er bestemt både av trend- og sesongeffekt.

Anslaget beregnes ved:

Anta at trenden ved hjelp av lineær regresjon er beregnet til

Observasjonene er gjort for 2 sesonger, vinter og sommer, for hvert av årene 93, 94 For enkelhets skyld har tidsrekken fått verdien 1,2,3,4,5,og 6, der 1 er sesong vinter 9sesong sommer 93 og så videre. En prognose for vintersesongen 96 tar først utgangspuntrenden. Vinter 96 får verdien 7 (se diagrammet). Ved å sette inn i regresjonslinjen bevi trenden i det aktuelle punktet.

SESONGINDEKS: Indekstall som viser avviket i forhold til trenden. Trenden harhele tiden en indeks = 100.

y T S⋅=

y 1 0.5t+=

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 181: forstå_statistikk

TIDSREKKEANALYSE SIDE 181

Figur 28.7. Regresjonslinjen for trenden

Trendverdien for den aktuelle sesongen er altså 4,5.

Sesongindeksene er beregnet til å være 70 for vintersesongen og 130 for sommersesongen.For å finne den verdien vi forsøker å estimere, setter vi inn formelen:

Siden S er et indekstall, får vi den aktuelle verdien y ved å sette sesongtallet i forhold til tren-den, som har indeks 100.

Ved å bruke tidsrekkeanalyse kan vi bruke tidligere observasjoner av en variabels verdier til ålage et anslag for en framtidig verdi. Forutsetningen for at prognosen skal være korrekt, er atdet ikke er andre faktorer enn trend og sesong som påvirker resultatet. I virkeligheten er detteen lite holdbar forutsetning, fordi også andre og mer tilfeldige forhold påvirker utviklingen.

Skal du selge iskrem, betyr selvsagt sesongeffekten en del når du skal lage prognoser for sal-get. Vær, eller mer spesifikt - temperatur, betyr imidlertid mer enn sesongvariasjonene når viskal forklare de totale variasjonene i salget. Slike “mekaniske” beregnede prognoser bør der-for korrigeres med annen tilgjengelig kunnskap av betydning for variablenes utvikling overtid, når vi skal bruke prognosene til å lage handlingsplaner for våre framtidige gjøremål.

� �

��������

y 1 0.5 7⋅+ 4.5= =

y T S⋅=

y 4.570100���������⋅ 3.15= =

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 182: forstå_statistikk

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 183: forstå_statistikk

29. Oppgaver til seksjon 7

Oppgaver til kapittel 27:

Oppgave 27.1Fotokameratene selger produkter innenfor tre kategorier; kamera, fremvisere og film. I 1990var den totale omsetningen (i kroner) fordelt på 50% på kamerasalg, 30% på fremvisere og20% på film. Gjennomsnittsprisen for et produkt av hver type var i 1990 og 1994 henholdsvis1600 og 1800 (kamera), 2250 og 2300 (fremviser) og 35 og 40 (film). Beregn en totalindeksfor prisutviklingen og bruk 1990 som basisår.

Oppgave 27.2En prisindeks med 1980 som basisår steg til 140 i 1990 og er i dag (1994) 155. Hva blir de treindeksene dersom basisåret endres til 1990?

Oppgave 27.3Mange leiekontrakter for forretningsbygg inneholder en klausul for justering tilsvarende kon-sumprisindeksen. Hva menes med dette?

Oppgave 27.4Prisindeksen for møbler med 1980 som basisår, steg til 126 i 1990 og er 134 i dag. Totaltinnenlandsk salg av møbler beløp var 300 mill. kroner i 1980 og 377 for inneværende år.

a) Beregn salg av møbler i dag og for 1980 i konstante priser.

b) Beregn den prosentvise endringen i salgsprisen.

c) Beregn den prosentvise endringen i konstante priser.

Oppgave 27.5Tabellen under viser indeksutviklingen for tre varegrupper over en 5-årsperiode. Varegruppe1 og 2 har henholdsvis år 1 og år 3 som basisår. Varegruppe 3 har også år 1 som basisår mener videre utformet som en kjedeindeks.

a) Lag en indeksrekke for gruppe 2 som gjør det enklere å sammenligne indeksverdienefor de to varegruppene.

b) Gjør om kjedeindeksen for varegruppe 3 til en fastbaseindeks med år 1 som basisår.

c) Sammenlign de nye indeksseriene og gi en kommentar.

År 1 2 3 4 5

Gruppe 1 100 106 113 122 128

Gruppe 2 84 94 100 108 114

Gruppe 3 100 102 104 101 103

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 184: forstå_statistikk

SIDE 184 FORSTÅ STATISTIKK

reslag

eden for

hvor

Oppgave 27.6 Tabellen under viser gjennomsnittspriser og prosentvis fordeling av innkjøpene for 3 vai 1985.

Frem til 1988 var forbruket av varene konstant, men prisene på vare A hadde steget m12%, vare B med 25% og vare C med 18%. Beregn den gjennomsnittlige prisstigningalle varene fra 1986 til 1988.

Oppgave 27.7 Følgende tall viser utviklingen i konsumprisindeksen fra 1984 - 1989

a) Hvor stor var prisstigningen fra 1988 - 1989?

b) Dersom du la 1 mill. kr. i brødboksen i 1984 og tok pengene frem igjen i 1989, stor “verdi” hadde pengene hatt i 1984-kroner?

Oppgave 27.8 Tabellen under viser priser pr. tonn, samt antall tonn innkjøpt av i alt 3 varegrupper.

Finn den samlede prisstigning for varene i perioden 1988 - 1989

Oppgaver til kapittel 28:

Oppgave 28.1 Tallene i tabellen under viser et firmas salg av datamaskiner, fordelt på år og sesong:

Vareslag Pris Prosentvis fordeling

Vare A �� ��"

Vare B ��� ��"

Vare C ��� ��"

År 84 85 86 87 88 89

Indeks 100 110 118 125 132 138

1988 1989

Pris Mengde Prisøkning Mengde

Varegruppe A ��� ��� ��" ���

Varegruppe B �� ��� ��" ���

Varegruppe C �� ��� �" ���

År Sesong Innkjøp

1984� ��

� ��

1985� ��

� ��

1986� ��

� ��

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 185: forstå_statistikk

OPPGAVER TIL SEKSJON 7 SIDE 185

Beregn sesongindeks og sesongjusterte verdier. Anta en multiplikativ modell.

Oppgave 28.2Tabellen under viser middelfolketallet i Norge over en årrekke (tall i hele 1.000):

a) Beregn tallmaterialets regresjonslinje

b) Gjør en prognose for år 2000.

Oppgave 28.3Omsetningen i Hotell Luftslott viste følgende utvikling i årene 1988 - 1992 (alle tall i millio-ner kroner):

a) Beregn trend, sesongindekser og residualeffekt.

b) Kommenter resultatene du beregnet i oppgave a).

c) Gi en prognose for 1995.

Oppgave 28.4Plusreiser har i løpet av de siste årene hatt en prosentvis fordeling av omsetningen på 18, 22,46 og 14 i årets 4 kvartaler. I 1993 solgte bedriften for 613 millioner norske kroner.

Beregn antatt omsetning (i kr.) for 4. kvartal 1994 når man forventer en omsetningsøkning på6% fra året før.

29

1987�

� ��

År Sesong Innkjøp

1982 4 114

1984 4 141

1986 4 168

1988 4 210

1990 4 243

1992 4 294

År 1 2 3 4

1988 �#� �#� �#� �#

1989 �#� �# �#� �#�

1990 �#� �#� �# �#�

1991 �#� �#� �#� �#�

1992 �# �#� �#� �#�

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 186: forstå_statistikk

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 187: forstå_statistikk

Seksjon 8

Formelsamling og tabeller

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 188: forstå_statistikk

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 189: forstå_statistikk

30. Formler

30.1. Gjennomsnitt

30.1.1 Veid gjennomsnitt

30.2. Standardavvik

30.2.1 Standardavvik, regneformel

30.3. Pearsons r

xx∑

n������������=

x

f x⋅( )∑n

�����������������������=

Sx x–( )2∑

n 1–( )����������������������������=

Sn x2∑⋅ x∑

2–

n n 1–( )������������������������������������������������=

r

x x–( ) y y–( )⋅[ ]∑sx sy n 1–( )⋅ ⋅

����������������������������������������������������=

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 190: forstå_statistikk

SIDE 190 FORSTÅ STATISTIKK

30.3.1 Pearsons r, regneformel

30.4. Regresjonslinje

30.4.1 Regresjonskoeffisienter

,

30.4.2 Regresjonskoeffisient b, regneformel

30.5. Rangkorrelasjon

30.6. Normalfordeling

30.7. Utvalgsfeil

r

n x y⋅( )∑⋅ x∑ y∑

⋅–

n x2∑ x∑ 2

–⋅ n y2∑⋅ y∑ 2

–⋅

��������������������������������������������������������������������������������������������������������������=

y a b x⋅( )+=

b

x x–( ) y y–( )⋅[ ]∑sx

2 n 1–( )⋅����������������������������������������������������= a y b x⋅( )–=

b

n x y⋅( )∑⋅ x∑ y∑

⋅–

n x2∑ x∑ 2

–⋅�����������������������������������������������������������������������������=

ρ 1

6 d2∑⋅

n n2 1–( )⋅���������������������������–=

Zx µ–

����������=

σx

σn

�������=

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 191: forstå_statistikk

FORMLER SIDE 191

30.8. Konfidensintervall for µ

30.9. Utvalgsstørrelse ved beregning av gjennomsnitt

30.10. Hypotesetest for forskjeller på 2 gjennomsnitt

30.11. Konfidensintervall for andeler

30.12. Z-verdier for konfidensintervall og hypotesetest

30.13. Hypotesetest for forskjeller mellom 2 andeler

Sign Sikkerhet Z

10% 90% 1.64

5% 95% 1.96

1% 99% 2.58

0.1% 99.9% 3.27

µ x Zσn

�������⋅±=

nZ σ⋅µ x–������������

2=

zx1 x2–

s12

n1�����

s22

n2�����+

����������������������=

P p� Z p� 1 p�–( )⋅n

������������������������⋅±=

zp1� p2

�–

p 1 p–( )⋅[ ] 1n1�����

1n2�����+

⋅�������������������������������������������������������������=

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 192: forstå_statistikk

SIDE 192 FORSTÅ STATISTIKK

30.14. Utvalgsstørrelse ved kvalitative variabler

30.15. Kjikvadrattest

30.16. Tidsrekke med multiplikativ trefaktormodell

30.17. Laspeyres indeks

30.18. Paasches indeks

30.19. Edgeworths indeks

n p� 1 p�–( ) z2

P p�–( )2��������������������⋅ ⋅=

χ2 O F–( )2

F���������������������∑=

Y T S E⋅ ⋅=

P0 t,

pt q0⋅( )∑p0 q0⋅( )∑

�����������������������������=

P0 t,

pt qt⋅( )∑p0 qt⋅( )∑

����������������������������=

P0 t,

pt q0 qt+( )⋅( )∑p0 q0 qt+( )⋅( )∑

���������������������������������������������=

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 193: forstå_statistikk

31. Tabeller

31.1. Tabell over Kjikvadrat

Pr25% 10% 5% 2,5% 1% 0,5% 0,1%

.250 .100 .050 .025 .010 .005 .001

Frihetsgrad

1 1.32 2.71 3.84 5.02 6.63 7.88 10.8

2 2.77 4.61 5.99 7.38 9.21 10.6 13.8

3 4.11 6.25 7.81 9.35 11.3 12.8 16.3

4 5.39 7.78 9.49 11.1 13.3 14.9 18.5

5 6.63 9.24 11.1 12.8 15.1 16.7 20.5

6 7.84 10.6 12.6 14.4 16.8 18.5 22.5

7 9.04 12.0 14.1 16.0 18.5 20.3 24.3

8 10.2 13.4 15.5 17.5 20.1 22.0 26.1

9 11.4 14.7 16.9 19.0 21.7 23.6 27.9

10 12.5 16.0 18.3 20.5 23.2 25.2 29.6

11 13.7 17.3 19.7 21.9 24.7 26.8 31.3

12 14.8 18.5 21.0 23.3 26.2 28.3 32.9

13 16.0 19.8 22.4 24.7 27.7 29.8 34.5

14 17.1 21.1 23.7 26.1 29.1 31.3 36.1

15 18.2 22.3 25.0 27.5 30.6 32.8 37.7

16 19.4 23.5 26.3 28.8 32.0 34.3 39.3

17 20.5 24.8 27.6 30.2 33.4 35.7 40.8

18 21.6 26.0 28.9 31.5 34.8 37.7 42.3

19 22.7 27.2 30.1 32.9 36.2 38.6 32.8

20 23.8 28.4 31.4 34.2 37.6 40.0 45.3

30 34.8 40.3 43.8 47.0 50.9 53.7 59.7

50 56.3 63.2 67.5 77.4 76.2 79.5 86.7

100 109 118 124 130 136 140 149

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 194: forstå_statistikk

SIDE 194 FORSTÅ STATISTIKK

31.2. t - fordelingenFrihetsgrader 0.25 0.10 0.05 0.025 0.01 0.005

1 1.00 3.08 6.31 12.71 31.82 63.66

2 0.82 1.89 2.92 4.30 6.69 9.92

3 0.76 1.64 2.35 3.18 4.54 5.84

4 0.74 1.53 2.13 2.78 3.75 4.60

5 0.73 1.48 2.02 2.57 3.36 4.03

6 0.72 1.44 1.94 2.45 3.14 3.71

7 0.71 1.41 1.89 2.36 3.00 3.50

8 0.71 1.40 1.86 2.31 2.90 3.36

9 0.70 1.38 1.83 2.26 2.82 3.25

10 0.70 1.37 1.81 2.23 2.76 3.17

11 0.70 1.36 1.80 2.20 2.72 3.11

12 0.70 1.36 1.78 2.18 2.68 3.05

13 0.69 1.35 1.77 2.16 2.65 3.01

14 0.69 1.35 1.76 2.14 2.62 2.98

15 0.69 1.34 1.75 2.13 2.60 2.95

16 0.69 1.34 1.75 2.12 2.58 2.92

17 0.69 1.33 1.74 2.11 2.57 2.90

18 0.69 1.33 1.73 2.10 2.55 2.88

19 0.69 1.33 1.73 2.09 2.54 2.86

20 0.69 1.33 1.72 2.09 2.53 2.85

21 0.69 1.32 1.72 2.08 2.52 2.83

22 0.69 1.32 1.72 2.07 2.51 2.82

23 0.69 1.32 1.71 2.07 2.50 2.81

24 0.68 1.32 1.71 2.06 2.49 2.80

25 0.68 1.32 1.71 2.06 2.49 2.79

26 0.68 1.31 1.71 2.06 2.48 2.78

27 0.68 1.31 1.70 2.05 2.47 2.77

28 0.68 1.31 1.70 2.05 2.47 2.76

29 0.68 1.31 1.70 2.05 2.46 2.76

30 0.68 1.31 1.70 2.04 2.46 2.75

∞ 0.67 1.28 1.64 1.96 2.33 2.58

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 195: forstå_statistikk

TABELLER SIDE 195

31.3. Tabell for normalfordelingz .00 .01 .02 .03 .04 .05 .06 .07 .08 .09

0.0 .0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .0359

0.1 .0398 .0438 .0478 .0517 .0557 .0596 .0636 .0675 .0714 .0753

0.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1103 .1141

0.3 .1179 .1217 .1255 .1293 .1331 .1368 .1400 .1443 .1480 .1517

0.4 .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1844 .1879

0.5 .1915 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .2224

0.6 .2257 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2517 .2549

0.7 .2580 .2611 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .2852

0.8 .2881 .2910 .2939 .2967 .2995 .3023 .3051 .3078 .3106 .3133

0.9 .3159 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389

1.0 .3413 .3438 .3461 .3485 .3508 .3531 .3554 .3577 .3599 .3621

1.1 .3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .3830

1.2 .3849 .3869 .3888 .3907 .3925 .3944 .3962 .3980 .3997 .4015

1.3 .4032 .4049 .4066 .4082 .4099 .4115 .4131 .4147 .4162 .4177

1.4 .4192 .4207 .4222 .4236 .4251 .4265 .4279 .4292 .4306 .4319

1.5 .4332 .4345 .4357 .4370 .4382 .4394 .4406 .4418 .4429 .4441

1.6 .4452 .4463 .4474 .4484 .4495 .4505 .4515 .4525 .4535 .4545

1.7 .4554 .4564 .4573 .4582 .4591 .4599 .4608 .4616 .4625 .4633

1.8 .4641 .4649 .4656 .4664 .4671 .4678 .4686 .4693 .4699 .4706

1.9 .4713 .4719 .4726 .4732 .4738 .4744 .4750 .4756 .4761 .4767

2.0 .4772 .4778 .4783 .4788 .4793 .4798 .4803 4808 .4812 .4817

2.1 .4821 .4826 .4830 .4834 .4838 .4842 .4846 .4850 .4854 .4857

2.2 .4861 .4864 .4868 .4871 .4875 .4878 .4881 .4884 .4887 .4890

2.3 .4893 .4896 .4898 .4901 .4904 .4906 .4909 .4911 .4913 .4916

2.4 .4918 .4920 .4922 .4925 .4927 .4929 .4931 .4932 .4934 .4936

2.5 .4938 .4940 .4941 .4943 .4945 .4946 .4948 .4949 .4951 .4952

2.6 .4953 .4955 .4956 .4957 .4959 .4960 .4961 .4962 .4963 .4964

2.7 .4965 .4966 .4967 .4968 .4969 .4970 .4971 .4972 .4973 .4974

2.8 .4974 .4975 .4976 .4977 .4977 .4978 .4979 .4979 .4980 .4981

2.9 .4981 .4982 .4982 .4983 .4984 .4984 .4985 .4985 .4986 .4986

3.0 .4987 .4987 .4987 .4988 .4988 .4989 .4989 .4989 .4990 .4990

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 196: forstå_statistikk

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 197: forstå_statistikk

32. Stikkordliste

Addisjonsregelen 108additiv modell 172aggregere 52alternativhypotese 139aritmetisk gjennomsnitt 52avgrenset utfallsrom 104avhengig variabel 80

basispunkt 165basisår 165beslutningsproblem 19binomialfordeling 107binomialkoeffisient 112bivariat analyse 75

data 14datamatrise 21deflasjon 170diskret variabel 22

Edgeworths indeks 168empirisk standardavvik 65enhet 21enhetsnummer 56estimator 16

fakultet 111F-fordeling 107firefeltstabell 77, 153flatediagram 35forholdstallsvariabel 43forkastningskriterium 140forretningsinformasjon 20forventet hyppighet 152frekvensfordeling 15frekvenspolygon 32, 34frihetsgrad 152

gjennomsnitt 23, 52gjennomsnittsavvik 62glidende gjennomsnitt 174, 176gruppert fordeling 27, 54

handlingsproblem 19hendelse 103histogram 32–33hypotese 17hypotesetest 18, 139hyppighetsfordeling 15, 25

ikke-lineær sammenheng 83indekstall 165indikator 43inferens 16inflasjon 170informasjon 13intervallestimat 129, 145intervallnivå 42

kakediagram 32kausalitet 81kjedeindeks 166kjikvadrat 79kjikvadratfordeling 107klassisk sannsynlighet 104kombinasjon 111konfidensintervall 17–18, 129konsumprisindeks 165kontinuerlig utfallsrom 104kontinuerlig variabel 22kontrollere for 3. variabel 81korrelasjon 83korrelasjonskoeffisient 83kritisk verdi 139kumulativ hyppighetsfordeling 29kumulativt frekvenspolygon 36kumulert fordeling 57kunnskap 14kvalitativ variabel 41kvantitativ variabel 41kvartil 66kvartilavvik 66

Laspeyres indeks 168linjediagram 34linjegraf 37

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.

Page 198: forstå_statistikk

SIDE 198 FORSTÅ STATISTIKK

median 55minste kvadraters metode 87modus 58multiplikasjonsregelen 109multiplikativ modell 172multiplikativ trefaktormodell 173multiplikatormodell 172målenivå 22, 42, 59

negativt skjev fordeling 60normalfordeling 107, 115nullhypotese 139nøkkeltall 25

observert hyppighet 152Ogdens trekant 14ordinalnivå 42

Paasches indeks 168parameter 16Pearsons r 83permutasjon 110–111Phi 156Poissonfordeling 107populasjon 16positivt skjev fordeling 60problemanalyse 19produktmomentkorrelasjonskoeffisient 83prognose 171prosentdifferanse 78prosentpoeng 166

rangkorrelasjon 91rangkorrelasjonskoeffisient 91referanse 14regneark 21regresjon 83, 87regresjonsanalyse 83regresjonskoeffisient 87regresjonslinje 87relativ hyppighet 104–105relativ hyppighetsfordeling 28–29rho 92

sammensatt indeks 167samvariasjon 78, 83sannsynlighet 103sannsynlighetsfordeling 106semiotikk 14

sentraltendens 51–52sesongeffekt 171, 177sesongindeks 176, 179sigma 52signifikanstest 79sikkerhetsnivå 129skjev fordeling 59skjæringspunkt 87spredning 61spørreskjema 15standardavvik 62–63standardfordeling 116standardisere fordelingen 141standardisert normalfordeling 116stigningstall 87stikkprøve 125stolpediagram 33subjektiv sannsynlighet 104, 106symmetrisk fordeling 59søylediagram 32–33

tabellanalyse 16, 77, 154teoretisk standardavvik 65teoretisk utvalgsfordeling 126testobservator 139t-fordeling 107, 133tidsrekkeanalyse 171tilfeldige feil 171tredimensjonalt flatediagram 35trend 171typetall 58

uavhengig variabel 80univers 16usikkerhet 16utfall 104utfallsrom 103utvalg 16, 125utvalgsfeil 125, 127utvalgsfordeling 126utvalgsstørrelse 125, 131

variabel 21variabeltransformasjon 118varians 64variasjonsbredde 61veid gjennomsnitt 53verdier 22

årsakssammenheng 81

Copyright 1998 Kolle Forlag AS og Arne Krokan

Fri faglitteratur Kopiering tillatt med kildeangi-velse.