Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
METODA UZORAKA
Na temelju podataka o uzorku pomoću metoda inferencijalne statistike donose se zaključci o
cijelom skupu (osnovnom skupu ili populaciji).
Znači, mi ćemo u ovom poglavlju naučiti kako pomoću uzorka procijeniti karakteristike
osnovnog skupa, te odrediti pouzdanost i preciznost te procjene.
Dvije su osnovne zadaće metode uzoraka:
procjenjivanje nepoznatih parametara osnovnog skupa na temelju uzorka
(parametar je funkcija svih vrijednosti osnovnog skupa odnosno specifično
obilježje populacije)
ispitivanje pretpostavki o parametrima (odnosno o osobitostima jedne ili više
populacija)
Obzirom na način izbora jedinica uzoraka razlikuju se namjerni i slučajni uzorci.
1.1 Namjerni uzorci Kod namjernih uzoraka jedinice uzorka izabiru se prema odluci istraživača
Prigodni uzorak- ispituju se dostupne jedinice (npr. javno mišljenje)
Uzorak izabran na temelju prosudbe istraživača-istraživač izabire
reprezentativne jedinice pri čemu je potrebno da dobro poznaje osnovni skup
Kvotni uzorak-anketari se slobodno odlučuju za jedinice u sklopu kvota
Namjerni uzorci često se koriste i jednostavni su za primjenu. Analiziraju se metodama
deskriptivne statistike. Nedostatak im je to što je nemoguće izračunati grešku nastalu zbog
primjene uzorka.
1.2 Slučajni uzorci Kod slučajnih uzoraka svaki element ima vjerojatnost izbora veću od nule
Jednostavni slučajni uzorak - primjenjuje se kod homogenih skupova i
svaki element ima jednaku vjerojatnost izbora
Stratificirani uzorak - prikladniji je kod skupova koji pokazuju veći stupanj
varijabilnosti, a jedinice se izabiru iz homogenih dijelova osnovnog skupa
koji se nazivaju stratumi
Uzorak skupina - u uzorak se ne izabiru pojedini elementi, već njihove
skupine
Slučajni uzorci analiziraju se metodama inferencijalne statistike. Kod njih je moguće
izračunati grešku. Sa stajališta statističke metode glavni su koraci istraživanja pomoću
uzoraka prikazani ovdje:
ISTRAŽIVANJE POMOĆU UZORAKA
Definirati osnovni skup pojmovno, prostorno i vremenski; odrediti jedinice skupa, njegov opseg
te veličinu uzorka.
Izabrati model uzorka, procjenitelje parametara, izraze za standardne pogreške procjena,
testovne i druge veličine.
Utvrditi okvir izbora, jedinicu izbora uzorka, način izbora jedinica i elemenata za uzorak.
Prikupljanje podataka o obilježjima jedinica u uzorku i njihova kontrola; analiza pogrešaka.
Primjena postupaka inferencijalne statistike: procjene parametara, testiranje hipoteza...
Sastavljanje izvješća o dobivenim rezultatima primjenjenih postupaka i njihovo potanko
tumačenje.
Plan uzoraka je plan izbora jedinica u uzorak. Osnovna svrha plana je izbor reprezentativnog
uzorka, tj. uzorak mora biti umanjena slika osnovnog skupa.
Okvir izbora je popis članova statističkog skupa.
1.3 Sampling – distribucija aritmetičkih sredina, proporcija i varijanci
Prije nego što krenemo evo par pojmova koji su nam potrebni za bolje razumijevanje:
Parametar je brojčana karakteristika osnovnog skupa N (populacije), odnosno, konstanta
određena pomoću svih članova N, koja je ujedno i specifično obilježje populacije.
Procjenitelj je metoda (izraz, formula) pomoću koje je izračunata vrijednost procjene
parametra (karakteristike) uzorka.
Procjena je izračunata vrijednost procjene parametra iz uzorka
Sampling-distribucija je teorijska distribucija vjerojatnosti procjenitelja parametara (ovo ću
vam objasniti na instrukcijama). Zasniva se na konceptu ponovljenih izbora slučajnih uzoraka
iz danog osnovnog skupa, pri čemu različiti uzorci dovode do različitih vrijednosti procjena.
Za jedan osnovni skup moguće je kreirati onoliko sampling distribucija koliko je mogućih
parametara osnovnog skupa.
Procjenitelj je varijabla koja se naziva sampling- varijablom zato što se mijenja od uzorka do
uzorka. To je slučajna varijabla jer se uzorci izabiru tako da svaka jedinica, odnosno svaki
uzorak ima određenu vjerojatnost izbora. Za sampling-distribuciju važno je kakva je oblika i
koja su joj statistička svojstva, kao očekivana vrijednost, standardna devijacija i dr. Postoji
velik broj tih distribucija, a njihov naziv ovisi o parametru koji se procjenjuje.
Tako se govori o:
sampling-distribuciji aritmetičkih sredina
sampling-distribuciji varijanci
sampling-distribuciji proporcija
Sampling-distribucija aritmetički sredinaAritmetičke sredine svih uzoraka veličine n su vrijednosti distribucije koja se naziva sampling
distribucija aritmetičkih sredina.
Očekivana vrijednost sampling-distribucija aritmetičkih sredina je aritmetička sredina
populacije, μ.
Standardna devijacija sampling-distribucije aritmetičkih sredina je standardna pogreška
aritmetičke sredine,σ x (standardna pogreška aritmetičke sredine je prosječno odstupanje
sredina uzoraka od aritmetičke sredine populacije)
Sampling-distribucija proporcijaSampling-distribucija proporcija p̂za dovoljno velik uzorak približno je normalna oblika, s
očekivanom vrijednosti koja je jednaka proporciji populacije pi standardnom devijacijom
sampling-distribucije proporcija, odnosno standardnom pogreškom proporcijeσ p̂ .
1.4 Procjene parametaraProcjenjivanje nepoznatih parametara temelji se na podacima koji tvore slučajni uzorak i na
uporabi odgovarajućeg procjenitelja. Parametar se procjenjuje brojem i intervalom. Intervalna
procjena sastoji se od određivanja granica u kojima će se naći nepoznati parametar. Pri
prosudbi kakvoće procjenitelja pogodno je da procjenitelji imaju poželjna svojstva kao što su
nepristranost, najmanja varijanca, konzistentnost i dr. Nepristran je ako je njegova
očekivana vrijednost jednaka parametru koji se procjenjuje. Konzistentan je ako njegova
standardna devijacije s porastom teži nuli. Parametri se, osim intervalom i brojem, procjenjuju
još nekim metodama od kojih se najčešće se koriste:
metoda momenata – sastoji se u tome da se parametri izraze kao funkcije momenata
oko nule, a zatim se momenti osnovnog skupa zamijene momentima uzorka
metoda najmanjih kvadrata – temelji se na traženju onih procjena parametra za koje je
zbroj kvadrata odstupanja vrijednosti dane varijable od procjene minimalan
metoda najveće vjerodostojnosti – temelji se na pretpostavci da je poznat oblik
funkcije vjerojatnosti osnovnog skupa
Mi ćemo se više baviti ovim procjenama:
Procjena aritmetičke sredine populacije – s poznatom standardnom devijacijom populacije
Procjena aritmetičke sredine populacije – s nepoznatom standardnom devijacijom populacije
Procjena proporcije populacije – veliki uzorak
Procjena aritmetičke sredineAritmetičku sredinu možemo procijeniti brojem ili intervalom. Kad procjenjujemo intervalom
moramo paziti je li zadana standardna devijacija/varijanca populacije!
procjena brojem – jednaka je aritmetičkoj sredini uzorka
procjena intervalom za uzorak izabran iz populacije s poznatom standardnom
devijacijom – koristi se normalna distribucija
procjena intervalom za uzorak izabran iz populacije s nepoznatom standardnom
devijacijom – koristi se Studentova T distribucija
x-aritmetička sredina uzorka
z α2-koeficijent pouzdanosti koji se određuje na temelju površina ispod normalne krivulje
σ x – standardna pogreška procjene aritmetičke sredine
μ – aritmetička sredina osnovnog skupa, ujedno I parametar koji se procjenjuje
(1−α ) – razina signifikantnosti
t α2 - koeficijent pouzdanosti koji se određuje na temelju studentove distribucije
P( x−z α2
σx<μ<x+z α2
σ x )=(1−α )
P( x−t α2
σ x<μ<x+t α2
σ x)=(1−α )
Procjena proporcije osnovnog skupaProporcija osnovnog skupa je parametar koji predstavlja omjer broja članova osnovnog skupa
s određenim oblikom obilježja (M) i opsega statističkog skupa (N), odnosno:
Proporciju također možemo procijeniti brojem i intervalom.
procjena brojem
Rekli smo da je proporcija parametar koji predstavlja omjer broja članova osnovnog skupa i
opsega skupa, ali mi procjenjujemo proporciju za uzorak pa će nam zbog toga trebati malo
drugačije oznake. Zato ćemo umjesto M i N koristiti m za broj članova uzorka s određenim
oblikom obilježja, a n za veličinu uzorka. Stoga će procjena proporcije brojem izgledati
ovako:
procjena intervalom za veliki uzorak:
Ako slučajni uzorak veličine n potječe iz beskonačnog skupa, sampling-distribucija je oblika
binomne distribucije, a ako potječe iz konačnog skupa, sampling-distribucija proporcija ima
oblik hipergeometrijske distribucije (hipergeometrijska distribucija se s povećanjem veličine
uzorka približava binomnoj).
1.5 Određivanje veličine uzorka za procjenu aritmetičke sredine osnovnog skupa
Veličina uzorka za procjenu aritmetičke sredine populacije ovisi o sljedećim elementima:
vrsti populacije –konačna ili beskonačna tj. prva ili druga formula na vrhu 18. stranice.
razini pouzdanosti procjene, onaj 1-α
P( p̂−z α2
σ p̂< p< p̂+z α2
σ p̂)=(1−α)
p= MN
p̂=mn
željenoj preciznosti procjene, odnosno maksimalnoj pogrešci koja se dozvoljava kod
procjene tj. onaj ME koji smo rekli. Zapamtite da taj ME nije ništa drugo nego
umnožak koeficijenta pouzdanosti i standardne pogreške procjene!
stupnju varijabilnosti obilježja čija se aritmetička sredina procjenjuje
Mjeri se standardnom devijacijom ili koeficijentom varijacije populacije (planska veličina –
prosuđuje se na osnovi poznavanja pojave ili se prikupljaju informacije o njoj pomoću pilot-
istraživanja).
Frakcija f 0=n0
N nam pokazuje koliki je postotak populacije uzet u uzorak. Znači, ako je
frakcija izbora manja od 5% uzima se da je n=no, a kad je veća ili jednaka 5% n=n0
1+ f 0.
(Izraz nonaziva se prethodnom veličinom uzorka)
Imamo dvije formule za izračun prethodne veličine uzorka, jedna je za računanje kod
beskonačne populacije, a druga za konačnu (ona dugačka s dvojnim razlomcima). Kako su
uglavnom u zadacima prisutni podaci s nepoznatim populacijama dat ćemo formule za tu
kraću formulu, međutim sve je primjenjivo i na dugu formulu ukoliko vam daju i konačnu
populaciju.
Ako su pogreška (ME) i stupanj varijabilnosti (σ )izraženi apsolutno:
Ako su pogreška (ME) i stupanj varijabilnosti (υ¿izraženi relativno
Ista pravila vrijede i za one dugačke formule!
n0=( z α2
σ
ME )2
n0=( z α2
∗V
ME )2
1.6 Testiranje hipoteza o parametruStigli smo i do hipoteza. Prvo ćemo definirati statističku hipotezu kako bismo vidjeli o čemu
se tu uopće radi.
Statistička hipoteza je tvrdnja o veličini parametra ili o obliku distribucije osnovnog skupa
čija se istinitost ispituje pomoću slučajnog uzorka. Juhu, sve smo shvatili! Znači, mi ćemo tu
nešto pretpostaviti (hipoteza) zatim ćemo izračunati testnu veličinu, usporediti ju s teorijskom
i na kraju prihvatiti ili odbaciti pretpostavku odnosno hipotezu. Taj postupak donošenja
odluke o prihvaćanju ili neprihvaćanju zove se ('ko bi rekao) testiranje statističkih hipoteza.
Statističke testove dijelimo na parametarske ( polazi se od danog oblika numeričke varijable u
osnovnom skupu) i neparametarske.
Svaki postupak testiranja polazi od nulte (H 0) i alternativne (H 1) hipoteze. Sadržaj hipoteza
odlučuje istraživač. Sadržaj alternativne hipoteze uvijek proturječi sadržaju nulte. Sud koji
izvire iz odluke o prihvaćanju ili neprihvaćanju nulte hipoteze nije kategoričan (bezuvjetan/
određen) jer se odluka donosi na temelju vrijednosti iz slučajnog uzorka, odnosno dijela
podataka.
U postupku donošenja odluka mogu se pojaviti dvije vrste pogrešaka. One se nazivaju:
pogreška tipa I - nastaje ako se odbaci istinita nulta hipoteza
Ta pogreška se označava kaoα , odnosno razina signifikantnosti/razina značajnosti.
pogreška tipa II - nastaje ako se prihvati lažna nulta hipoteza
Ta pogreška označava se kao β.
No, mi ne želimo pogriješiti! Mi želimo odbaciti nultu hipotezu kada je ona lažna. Ta
vjerojatnost se naziva snaga testa, odnosno razina pouzdanosti.
Testiranje hipoteza o pretpostavljenoj vrijednosti aritmetičke sredine osnovnog skupa
Ovo se testiranje provodi na temelju slučajnog uzorka od N članova.
Poznata standardna devijacija/varijanca populacije i uglavnom veliki uzorak (veći od 30)
z=x−μ0
σ x
Nepoznata standardna devijacija/varijanca populacije i uglavnom mali uzorak (manji jednak
30)
A kako se točno test provodi? Četiri su koraka koja trebamo učiniti.
1. Postaviti hipotezu (pitamo se koji naziv testa i koji je smjer testa)
1.1. Pitamo se koja hipoteza obuhvaća našu pretpostavku.
2. Identificirati izraz za testnu veličinu i odrediti njene vrijednosti
(empirijski t ili z)
3. Odabrati razinu signifikantnosti (zadana u zadatku) i odrediti kritične
granice, odnosno teorijski t ili z (onaj s kojim ćemo uspoređivati naš
empirijski).
4. Donijeti zaključak o ishodu testa (interpretirati; ako nam se početna
hipoteza poklapa s ovom koju smo dobili na kraju, tada prihvaćamo
pretpostavku iz zadatka).
Test o aritmetičkoj sredini može biti dvosmjeran ili jednosmjeran. Dvosmjeran test znači da
nije ograničen smjer odstupanja, a jednosmjeran može biti na gornju ili na donju granicu.
Odluka se može donijeti pomoću kritičnih granica, pomoću Z-testa, T-testa te pomoću
empirijske razine signifikantnosti tj. P-vrijednost (o njoj ćemo kasnije)
Dvosmjerni test
Pretpostavka je da je aritmetička sredina jednaka pretpostavljenoj. Pretpostavka se formulira
kao nulta hipoteza.H 0...μ=μ0
H 1 …μ ≠ μ0
t=x−μ0
σ x
Jednosmjerni test na gornju granicu
Promatramo odstupanje na više. Pretpostavlja se da je aritmetička sredina osnovnog skupa
veća od pretpostavljene. Pretpostavka se formulira kao alternativna hipoteza.
Jednosmjerni test na donju granicu
Promatramo odstupanje na niže. Pretpostavlja se da je aritmetička sredina osnovnog skupa
manja od pretpostavljene. Pretpostavka se formulira kao alternativna hipoteza
DONOŠENJE ODLUKE
Kao što smo već gore spomenuli, odluke možemo donijeti na različite načine. Sada ćemo ih i
objasniti.
Donošenje odluke pomoću z i t testa:
donošenje odluke pomoću p-vrijednosti (p-value /empirijska razina
signifikantnosti)
H 0...μ≤ μ0
H 1 …μ>μ0
H 0...μ ≥ μ0
H 1 …μ<μ0
P-vrijednost je zapravo vjerojatnost odbacivanja istinite nulte hipoteze izračunata pomoću
podataka iz uzorka, odnosno test veličine (odnosno nju možemo definirati kao vjerojatnost
dobivanja jednake ili veće vrijednosti testiranog obilježja uzorka od stvarne vrijednosti,
dobivene pod pretpostavkom istinitosti nulte hipoteze). Što je ona manja, manja je i empirijski
utvrđena vjerojatnost odbacivanja istinite nulte hipoteze i obrnuto. Pri zaključivanju pomoću
p-vrijednosti nužno je imati na umu da ta vrijednost izvire iz rezultata uzorka, tj. da njezina
kakvoća ovisi o kakvoći uzorka. Upravo zbog toga, u obzir je potrebno uzeti i druge analitičke
rezultate.
Testiranje hipoteze o proporciji populacije pomoću velikog uzorka Testiranje pomoću z i t testa:
U tablici vidimo kako ćemo postaviti hipoteze za ovaj test. A kako ćemo donijeti odluku
slijedi u nastavku. :P
Ovim poglavljem ušli smo u područje inferencijalne statistike. Upravo iz razloga što smo
zaključke donosili na temelju uzorka. Rekli smo da uzorak treba biti odabra na slučajan način
i da mora biti reprezentativan. Time osiguravamo da se naši zaključci doneseni na temelju
njega mogu primijeniti na populaciju. Naučili smo da možemo parametar procijeniti brojem i
intervalom, kao i koje testove koristimo za testiranje pretpostavki.