Namjerni uzorci - Referada.hr · Web viewŠto je ona manja, manja je i empirijski utvrđena vjerojatnost odbacivanja istinite nulte hipoteze i obrnuto. Pri zaključivanju pomoću

METODA UZORAKA

Na temelju podataka o uzorku pomoću metoda inferencijalne statistike donose se zaključci o

cijelom skupu (osnovnom skupu ili populaciji).

Znači, mi ćemo u ovom poglavlju naučiti kako pomoću uzorka procijeniti karakteristike

osnovnog skupa, te odrediti pouzdanost i preciznost te procjene.

Dvije su osnovne zadaće metode uzoraka:

procjenjivanje nepoznatih parametara osnovnog skupa na temelju uzorka

(parametar je funkcija svih vrijednosti osnovnog skupa odnosno specifično

obilježje populacije)

ispitivanje pretpostavki o parametrima (odnosno o osobitostima jedne ili više

populacija)

Obzirom na način izbora jedinica uzoraka razlikuju se namjerni i slučajni uzorci.

1.1 Namjerni uzorci Kod namjernih uzoraka jedinice uzorka izabiru se prema odluci istraživača

Prigodni uzorak- ispituju se dostupne jedinice (npr. javno mišljenje)

Uzorak izabran na temelju prosudbe istraživača-istraživač izabire

reprezentativne jedinice pri čemu je potrebno da dobro poznaje osnovni skup

Kvotni uzorak-anketari se slobodno odlučuju za jedinice u sklopu kvota

Namjerni uzorci često se koriste i jednostavni su za primjenu. Analiziraju se metodama

deskriptivne statistike. Nedostatak im je to što je nemoguće izračunati grešku nastalu zbog

primjene uzorka.

1.2 Slučajni uzorci Kod slučajnih uzoraka svaki element ima vjerojatnost izbora veću od nule

Jednostavni slučajni uzorak - primjenjuje se kod homogenih skupova i

svaki element ima jednaku vjerojatnost izbora

Stratificirani uzorak - prikladniji je kod skupova koji pokazuju veći stupanj

varijabilnosti, a jedinice se izabiru iz homogenih dijelova osnovnog skupa

koji se nazivaju stratumi

Uzorak skupina - u uzorak se ne izabiru pojedini elementi, već njihove

skupine

Slučajni uzorci analiziraju se metodama inferencijalne statistike. Kod njih je moguće

izračunati grešku. Sa stajališta statističke metode glavni su koraci istraživanja pomoću

uzoraka prikazani ovdje:

ISTRAŽIVANJE POMOĆU UZORAKA

Definirati osnovni skup pojmovno, prostorno i vremenski; odrediti jedinice skupa, njegov opseg

te veličinu uzorka.

Izabrati model uzorka, procjenitelje parametara, izraze za standardne pogreške procjena,

testovne i druge veličine.

Utvrditi okvir izbora, jedinicu izbora uzorka, način izbora jedinica i elemenata za uzorak.

Prikupljanje podataka o obilježjima jedinica u uzorku i njihova kontrola; analiza pogrešaka.

Primjena postupaka inferencijalne statistike: procjene parametara, testiranje hipoteza...

Sastavljanje izvješća o dobivenim rezultatima primjenjenih postupaka i njihovo potanko

tumačenje.

Plan uzoraka je plan izbora jedinica u uzorak. Osnovna svrha plana je izbor reprezentativnog

uzorka, tj. uzorak mora biti umanjena slika osnovnog skupa.

Okvir izbora je popis članova statističkog skupa.

1.3 Sampling – distribucija aritmetičkih sredina, proporcija i varijanci

Prije nego što krenemo evo par pojmova koji su nam potrebni za bolje razumijevanje:

Parametar je brojčana karakteristika osnovnog skupa N (populacije), odnosno, konstanta

određena pomoću svih članova N, koja je ujedno i specifično obilježje populacije.

Procjenitelj je metoda (izraz, formula) pomoću koje je izračunata vrijednost procjene

parametra (karakteristike) uzorka.

Procjena je izračunata vrijednost procjene parametra iz uzorka

Sampling-distribucija je teorijska distribucija vjerojatnosti procjenitelja parametara (ovo ću

vam objasniti na instrukcijama). Zasniva se na konceptu ponovljenih izbora slučajnih uzoraka

iz danog osnovnog skupa, pri čemu različiti uzorci dovode do različitih vrijednosti procjena.

Za jedan osnovni skup moguće je kreirati onoliko sampling distribucija koliko je mogućih

parametara osnovnog skupa.

Procjenitelj je varijabla koja se naziva sampling- varijablom zato što se mijenja od uzorka do

uzorka. To je slučajna varijabla jer se uzorci izabiru tako da svaka jedinica, odnosno svaki

uzorak ima određenu vjerojatnost izbora. Za sampling-distribuciju važno je kakva je oblika i

koja su joj statistička svojstva, kao očekivana vrijednost, standardna devijacija i dr. Postoji

velik broj tih distribucija, a njihov naziv ovisi o parametru koji se procjenjuje.

Tako se govori o:

sampling-distribuciji aritmetičkih sredina

sampling-distribuciji varijanci

sampling-distribuciji proporcija

Sampling-distribucija aritmetički sredinaAritmetičke sredine svih uzoraka veličine n su vrijednosti distribucije koja se naziva sampling

distribucija aritmetičkih sredina.

Očekivana vrijednost sampling-distribucija aritmetičkih sredina je aritmetička sredina

populacije, μ.

Standardna devijacija sampling-distribucije aritmetičkih sredina je standardna pogreška

aritmetičke sredine,σ x (standardna pogreška aritmetičke sredine je prosječno odstupanje

sredina uzoraka od aritmetičke sredine populacije)

Sampling-distribucija proporcijaSampling-distribucija proporcija p̂za dovoljno velik uzorak približno je normalna oblika, s

očekivanom vrijednosti koja je jednaka proporciji populacije pi standardnom devijacijom

sampling-distribucije proporcija, odnosno standardnom pogreškom proporcijeσ p̂ .

1.4 Procjene parametaraProcjenjivanje nepoznatih parametara temelji se na podacima koji tvore slučajni uzorak i na

uporabi odgovarajućeg procjenitelja. Parametar se procjenjuje brojem i intervalom. Intervalna

procjena sastoji se od određivanja granica u kojima će se naći nepoznati parametar. Pri

prosudbi kakvoće procjenitelja pogodno je da procjenitelji imaju poželjna svojstva kao što su

nepristranost, najmanja varijanca, konzistentnost i dr. Nepristran je ako je njegova

očekivana vrijednost jednaka parametru koji se procjenjuje. Konzistentan je ako njegova

standardna devijacije s porastom teži nuli. Parametri se, osim intervalom i brojem, procjenjuju

još nekim metodama od kojih se najčešće se koriste:

metoda momenata – sastoji se u tome da se parametri izraze kao funkcije momenata

oko nule, a zatim se momenti osnovnog skupa zamijene momentima uzorka

metoda najmanjih kvadrata – temelji se na traženju onih procjena parametra za koje je

zbroj kvadrata odstupanja vrijednosti dane varijable od procjene minimalan

metoda najveće vjerodostojnosti – temelji se na pretpostavci da je poznat oblik

funkcije vjerojatnosti osnovnog skupa

Mi ćemo se više baviti ovim procjenama:

Procjena aritmetičke sredine populacije – s poznatom standardnom devijacijom populacije

Procjena aritmetičke sredine populacije – s nepoznatom standardnom devijacijom populacije

Procjena proporcije populacije – veliki uzorak

Procjena aritmetičke sredineAritmetičku sredinu možemo procijeniti brojem ili intervalom. Kad procjenjujemo intervalom

moramo paziti je li zadana standardna devijacija/varijanca populacije!

procjena brojem – jednaka je aritmetičkoj sredini uzorka

procjena intervalom za uzorak izabran iz populacije s poznatom standardnom

devijacijom – koristi se normalna distribucija

procjena intervalom za uzorak izabran iz populacije s nepoznatom standardnom

devijacijom – koristi se Studentova T distribucija

x-aritmetička sredina uzorka

z α2-koeficijent pouzdanosti koji se određuje na temelju površina ispod normalne krivulje

σ x – standardna pogreška procjene aritmetičke sredine

μ – aritmetička sredina osnovnog skupa, ujedno I parametar koji se procjenjuje

(1−α ) – razina signifikantnosti

t α2 - koeficijent pouzdanosti koji se određuje na temelju studentove distribucije

P( x−z α2

σx<μ<x+z α2

σ x )=(1−α )

P( x−t α2

σ x<μ<x+t α2

σ x)=(1−α )

Procjena proporcije osnovnog skupaProporcija osnovnog skupa je parametar koji predstavlja omjer broja članova osnovnog skupa

s određenim oblikom obilježja (M) i opsega statističkog skupa (N), odnosno:

Proporciju također možemo procijeniti brojem i intervalom.

procjena brojem

Rekli smo da je proporcija parametar koji predstavlja omjer broja članova osnovnog skupa i

opsega skupa, ali mi procjenjujemo proporciju za uzorak pa će nam zbog toga trebati malo

drugačije oznake. Zato ćemo umjesto M i N koristiti m za broj članova uzorka s određenim

oblikom obilježja, a n za veličinu uzorka. Stoga će procjena proporcije brojem izgledati

ovako:

procjena intervalom za veliki uzorak:

Ako slučajni uzorak veličine n potječe iz beskonačnog skupa, sampling-distribucija je oblika

binomne distribucije, a ako potječe iz konačnog skupa, sampling-distribucija proporcija ima

oblik hipergeometrijske distribucije (hipergeometrijska distribucija se s povećanjem veličine

uzorka približava binomnoj).

1.5 Određivanje veličine uzorka za procjenu aritmetičke sredine osnovnog skupa

Veličina uzorka za procjenu aritmetičke sredine populacije ovisi o sljedećim elementima:

vrsti populacije –konačna ili beskonačna tj. prva ili druga formula na vrhu 18. stranice.

razini pouzdanosti procjene, onaj 1-α

P( p̂−z α2

σ p̂< p< p̂+z α2

σ p̂)=(1−α)

p= MN

p̂=mn

željenoj preciznosti procjene, odnosno maksimalnoj pogrešci koja se dozvoljava kod

procjene tj. onaj ME koji smo rekli. Zapamtite da taj ME nije ništa drugo nego

umnožak koeficijenta pouzdanosti i standardne pogreške procjene!

stupnju varijabilnosti obilježja čija se aritmetička sredina procjenjuje

Mjeri se standardnom devijacijom ili koeficijentom varijacije populacije (planska veličina –

prosuđuje se na osnovi poznavanja pojave ili se prikupljaju informacije o njoj pomoću pilot-

istraživanja).

Frakcija f 0=n0

N nam pokazuje koliki je postotak populacije uzet u uzorak. Znači, ako je

frakcija izbora manja od 5% uzima se da je n=no, a kad je veća ili jednaka 5% n=n0

1+ f 0.

(Izraz nonaziva se prethodnom veličinom uzorka)

Imamo dvije formule za izračun prethodne veličine uzorka, jedna je za računanje kod

beskonačne populacije, a druga za konačnu (ona dugačka s dvojnim razlomcima). Kako su

uglavnom u zadacima prisutni podaci s nepoznatim populacijama dat ćemo formule za tu

kraću formulu, međutim sve je primjenjivo i na dugu formulu ukoliko vam daju i konačnu

populaciju.

Ako su pogreška (ME) i stupanj varijabilnosti (σ )izraženi apsolutno:

Ako su pogreška (ME) i stupanj varijabilnosti (υ¿izraženi relativno

Ista pravila vrijede i za one dugačke formule!

n0=( z α2

σ

ME )2

n0=( z α2

∗V

ME )2

1.6 Testiranje hipoteza o parametruStigli smo i do hipoteza. Prvo ćemo definirati statističku hipotezu kako bismo vidjeli o čemu

se tu uopće radi.

Statistička hipoteza je tvrdnja o veličini parametra ili o obliku distribucije osnovnog skupa

čija se istinitost ispituje pomoću slučajnog uzorka. Juhu, sve smo shvatili! Znači, mi ćemo tu

nešto pretpostaviti (hipoteza) zatim ćemo izračunati testnu veličinu, usporediti ju s teorijskom

i na kraju prihvatiti ili odbaciti pretpostavku odnosno hipotezu. Taj postupak donošenja

odluke o prihvaćanju ili neprihvaćanju zove se ('ko bi rekao) testiranje statističkih hipoteza.

Statističke testove dijelimo na parametarske ( polazi se od danog oblika numeričke varijable u

osnovnom skupu) i neparametarske.

Svaki postupak testiranja polazi od nulte (H 0) i alternativne (H 1) hipoteze. Sadržaj hipoteza

odlučuje istraživač. Sadržaj alternativne hipoteze uvijek proturječi sadržaju nulte. Sud koji

izvire iz odluke o prihvaćanju ili neprihvaćanju nulte hipoteze nije kategoričan (bezuvjetan/

određen) jer se odluka donosi na temelju vrijednosti iz slučajnog uzorka, odnosno dijela

podataka.

U postupku donošenja odluka mogu se pojaviti dvije vrste pogrešaka. One se nazivaju:

pogreška tipa I - nastaje ako se odbaci istinita nulta hipoteza

Ta pogreška se označava kaoα , odnosno razina signifikantnosti/razina značajnosti.

pogreška tipa II - nastaje ako se prihvati lažna nulta hipoteza

Ta pogreška označava se kao β.

No, mi ne želimo pogriješiti! Mi želimo odbaciti nultu hipotezu kada je ona lažna. Ta

vjerojatnost se naziva snaga testa, odnosno razina pouzdanosti.

Testiranje hipoteza o pretpostavljenoj vrijednosti aritmetičke sredine osnovnog skupa

Ovo se testiranje provodi na temelju slučajnog uzorka od N članova.

Poznata standardna devijacija/varijanca populacije i uglavnom veliki uzorak (veći od 30)

z=x−μ0

σ x

Nepoznata standardna devijacija/varijanca populacije i uglavnom mali uzorak (manji jednak

30)

A kako se točno test provodi? Četiri su koraka koja trebamo učiniti.

1. Postaviti hipotezu (pitamo se koji naziv testa i koji je smjer testa)

1.1. Pitamo se koja hipoteza obuhvaća našu pretpostavku.

2. Identificirati izraz za testnu veličinu i odrediti njene vrijednosti

(empirijski t ili z)

3. Odabrati razinu signifikantnosti (zadana u zadatku) i odrediti kritične

granice, odnosno teorijski t ili z (onaj s kojim ćemo uspoređivati naš

empirijski).

4. Donijeti zaključak o ishodu testa (interpretirati; ako nam se početna

hipoteza poklapa s ovom koju smo dobili na kraju, tada prihvaćamo

pretpostavku iz zadatka).

Test o aritmetičkoj sredini može biti dvosmjeran ili jednosmjeran. Dvosmjeran test znači da

nije ograničen smjer odstupanja, a jednosmjeran može biti na gornju ili na donju granicu.

Odluka se može donijeti pomoću kritičnih granica, pomoću Z-testa, T-testa te pomoću

empirijske razine signifikantnosti tj. P-vrijednost (o njoj ćemo kasnije)

Dvosmjerni test

Pretpostavka je da je aritmetička sredina jednaka pretpostavljenoj. Pretpostavka se formulira

kao nulta hipoteza.H 0...μ=μ0

H 1 …μ ≠ μ0

t=x−μ0

σ x

Jednosmjerni test na gornju granicu

Promatramo odstupanje na više. Pretpostavlja se da je aritmetička sredina osnovnog skupa

veća od pretpostavljene. Pretpostavka se formulira kao alternativna hipoteza.

Jednosmjerni test na donju granicu

Promatramo odstupanje na niže. Pretpostavlja se da je aritmetička sredina osnovnog skupa

manja od pretpostavljene. Pretpostavka se formulira kao alternativna hipoteza

DONOŠENJE ODLUKE

Kao što smo već gore spomenuli, odluke možemo donijeti na različite načine. Sada ćemo ih i

objasniti.

Donošenje odluke pomoću z i t testa:

donošenje odluke pomoću p-vrijednosti (p-value /empirijska razina

signifikantnosti)

H 0...μ≤ μ0

H 1 …μ>μ0

H 0...μ ≥ μ0

H 1 …μ<μ0

P-vrijednost je zapravo vjerojatnost odbacivanja istinite nulte hipoteze izračunata pomoću

podataka iz uzorka, odnosno test veličine (odnosno nju možemo definirati kao vjerojatnost

dobivanja jednake ili veće vrijednosti testiranog obilježja uzorka od stvarne vrijednosti,

dobivene pod pretpostavkom istinitosti nulte hipoteze). Što je ona manja, manja je i empirijski

utvrđena vjerojatnost odbacivanja istinite nulte hipoteze i obrnuto. Pri zaključivanju pomoću

p-vrijednosti nužno je imati na umu da ta vrijednost izvire iz rezultata uzorka, tj. da njezina

kakvoća ovisi o kakvoći uzorka. Upravo zbog toga, u obzir je potrebno uzeti i druge analitičke

rezultate.

Testiranje hipoteze o proporciji populacije pomoću velikog uzorka Testiranje pomoću z i t testa:

U tablici vidimo kako ćemo postaviti hipoteze za ovaj test. A kako ćemo donijeti odluku

slijedi u nastavku. :P

Ovim poglavljem ušli smo u područje inferencijalne statistike. Upravo iz razloga što smo

zaključke donosili na temelju uzorka. Rekli smo da uzorak treba biti odabra na slučajan način

i da mora biti reprezentativan. Time osiguravamo da se naši zaključci doneseni na temelju

njega mogu primijeniti na populaciju. Naučili smo da možemo parametar procijeniti brojem i

intervalom, kao i koje testove koristimo za testiranje pretpostavki.

Documents

Namjerni uzorci - Referada.hr · Web viewŠto je ona manja, manja je i empirijski utvrđena vjerojatnost odbacivanja istinite nulte hipoteze i obrnuto. Pri zaključivanju pomoću