Uvod u statističko zaključivanje - zemris.fer.hr u statisticko zakljucivanje.pdf · nazive: biometrija, psihometrija, tehnometrija itd. Neka područja znanosti razvila su vlastito

Prof.dr.sc. Bojana Dalbelo Bašić FER

BILJEŠKE ZA PREDAVANJA (za internu uporabu)

Uvod u statističko zaključivanje 2005/2006

17.03.2004. 1/56

Uvod u statističko zaključivanje

1. Statistika - Nazivlje ............................................................ 2

2. Statistika – podjela statističkih analiza ................................. 2

3. Objekti, varijable, mjerne skale........................................... 3

4. Ekstremne i nedostajuće vrijednosti podaci.......................... 4

5. Ciljevi statističke analize ..................................................... 9

6. Deskriptivna statistika ........................................................ 9

7. Standardizacija ................................................................ 15

8. Čebiševljev teorem .......................................................... 15

9. Teorijske Distribucije........................................................ 16

10. Distribucija uzorkovanja srednje vrijednosti. ................... 22

11. Intervalne procjene ...................................................... 24

12. Binomna distribucija ..................................................... 25

13. Intervalne procjene proporcije....................................... 29

14. Testiranje hipoteza ....................................................... 30

15. Pogreške prvog i drugog reda........................................ 34

16. Primjer: testiranje proporcija ......................................... 36




17.03.2004. 2/56

UVOD

Data mining = dubinska analiza (inteligentna analiza podataka)

= rudarenje podataka Većina metoda za dubinsku analizu podataka (engl. data mining) temelji se na multivarijatnoj statistici -> zahtijeva znanje temeljne statistike!

1. Statistika - Nazivlje

• riječ STATISTIKA (lat. status = stanje)

Statistika - science of making sense out of data. Statistika primijenjena u raznim znanostima nosi različite nazive: biometrija, psihometrija, tehnometrija itd. Neka područja znanosti razvila su vlastito nazivlje – od tuda različita imena za iste metode! (Primjer: PCA = Karhunen-Loève transformacija; Z = U )

2. Statistika – podjela statističkih analiza

Prema načinima stvaranja zaključka

• deskriptivna (numerički i grafički postupci, usporedba s EDA exploratory data analysis)

• inferencijalna (intervalne procjene, testiranje hipoteza na temelju uzorka)

KAKO ispravno generalizirati na temelju uzorka?




17.03.2004. 3/56

Prema broju varijabli u analizi riječ VARIJABLA (engl. variable = variate = factor)

• univarijatna • bivarijatna • multivarijatna

(testiranje, eksplorativna statistika) Prema vrsti modela

• parametarska • neparametarska

Inferencijalno statističko zaključivanje temelji se na teoriji vjerojatnosti

• Slučajni pokus, slučajni događaj • Slučajna varijabla

(pridruživanje numeričke vrijednosti ishodu slučajnog pokusa)

3. Objekti, varijable, mjerne skale

• Objekti (entiteti, jedinice) • Varijable (= obilježja, značajke, atributi) Varijable s obzirom na ulogu u statističkoj analizi:

• zavisne, kriterijske varijable (engl. target, dependent, criterion, response variable)

• nezavisne, prediktorske varijable

(engl. independent, predictior, controlled, regressor variable)

(Primjer: kako spol, dob i obrazovanje utječu na prihode ili, kako prihodi, zaposlenost i posjedovanje nekretnina utječe na dodjelu kredita)

SAS




17.03.2004. 4/56

kvantitativne

kvalitativne

Varijable s obzirom na mjerne skale: • Mjerne skale:

• nominalna (engl. nominal) • uređajna ( relacija < ) (engl. ordinal)

[opservacije nisu ekvidistantne, primjer: skala tvrdoće]

• intervalna (operacije + i -)

[ekvidistantne opservacije, nema ishodišta, primjer °C, °F]

• racionalna (operacije +, -, *, /) [primjer °K]

Prve dvije skale još se zovu kategorijske (engl. categorical). Zadnje dvije još se zovu metrička skala. Alternativni par naziva: diskretne vs. kontinuirane.

4. Ekstremne i nedostajuće vrijednosti podaci

(engl. outliers and missing values) Statistical Computing Metode multivarijatne statističke metode razvijene prije nastanka računala. Masovna uporaba stat. metoda: GIGO efekt Pažnja: u svakom velikom skupu podatka ima pogrešaka. Ekstremne vrijednosti (engl. outliers) Podaci koji su nekonzistentni s većinom podataka. Kako odeđujemo outliere? Od kuda dolaze outlieri? Što učiniti s njima? Važno je znati: Ekstremne vrijednosti mogu značajno utjecati na rezultate analize!




17.03.2004. 5/56

Porijeklo

• Provjeriti jesu li pogreške u unosu ili mjerenju! Ispraviti ili podatke koje ne možemo ispraviti – ukloniti.

• Priroda pojave.

Određivanje • Posebne metode. Grafičke metode mogu pomoći! • Na temelju IQR-a: Q0.25-1.5IQR < x < Q0.75+1.5IQR • Na temelju teorema (Čebišev): ±4σ od srednje

vrijednosti obuhvaća 94% podataka. Što učiniti?

• Nema jedinstvenog recepta! • Potrebno iskustvo eksperta.

Da li nas takvi podaci vode prema istini? DA - tada uključiti u analizu. NE - ukloniti podatke. Opisati u izvještaju – stručnjaci s drugačijim mišljenjem mogu raditi alternativne analize.

Nedostajuće vrijednosti

• nadomještanje s nulom ili nekom konstantom • nadomještanje sa srednjom vrijednošću (pažnja može

kreirati outliere !) za metričke podatke ili s najčešće pojavljivanim atributom za nemetričke podatke




17.03.2004. 6/56

• uklanjanje podataka (redaka) s nedostajućim vrijednostima (nije zadovoljavajuće ali je najsigurnije) Primjer: 2000 podataka od toga 1300 sa nedostajućim vrijednostima! Razmotriti strategiju uzorkovanja! Zašto potrošiti resurse za sakupljanje nepotpunih podataka koji će biti odbačeni.

• Nadomještanje s najčešće pojavljivanom vrijednošću u

klasi

• Regresija

• EM algoritam (engl. Expectation Maximization)




17.03.2004. 7/56

Populacija, uzorak, uzorkovanje Populacija – skup svih mogućih vrijednosti nekog opažanja ili mjerenja - ne objekata! (matematički: vrijednosti slučajne varijable). (broj elemenata N) Uzorak – podskup populacije (konačna ili beskonačna). Populacija je opisana parametrima. na populaciju i označava se malim grčkim slovima (µ, σ, π itd). Statistika (ili procjenitelj) - procjena nekog parametra populacije na temelju uzorka

parametar statistika srednja vrijednost

µ x

standardna devijacija

σ s

varijanca σ2 s2 proporcija π p

Često nam vrijednosti parametra populacija nisu dostupne te ih procjenjujemo na temelju uzorka. (broj elemenata n)




17.03.2004. 8/56

Postupak uzimanja uzorka je uzorkovanje 1. s vraćanjem ili 2. bez vraćanja

Slučajni uzorak je reprezentativni uzorak. Nalaženje reprezentativnog uzorka može biti zahtjevno, i zato često pristrano! (Primjer: telefonska anketa) Uzimanje (slučajnog) reprezentativnog uzorka:

1. Numerirati objekte 2. Generirati onoliko slučajnih brojeva koliki je uzorak

(tablica ili generator slučajnih brojeva) 3. Uzeti one objekte koji odgovaraju tim brojevima

Stratificiran uzorak (engl. stratified random sample) Uzorak dobiven podjelom populacije na nepreklapajuće dijelove, (engl. strata) i uzimanje slučajnog uzorka iz svakog dijela.

• važna metoda kada je jedna od ciljnih klasa vrlo mala u odnosu na populaciju

Napomena: još se često koristi termin particija skupa za podjelu skupa na nepreklapajuće dijelove.




17.03.2004. 9/56

DESKRIPTIVNA I INFERENCIJALNA STATISTIKA

5. Ciljevi statističke analize

6. Deskriptivna statistika

Mjere centralne tendencije:

• aritmetička sredina (engl. mean) • medijan • mod • geometrijska sredina • harmonijska sredina

skupljanje podataka

manipulacija podacima interpretacija

• redukcija podataka • alat za inferencijalno

zaključivanje • identifikacija relacija ili

asocijacija (grupiranja) među podacima




17.03.2004. 10/56

Mjere rasipanja

• varijanca (srednje kvadratno odstupanje)

• standardna devijacija • rang (max-min) • interkvartilni rang

Koliko podataka sadrži IQR?

• srednje apsolutno odstupanje • koeficijent varijacije

(s/x, bez dimenzije - usporedba disperzije raznorodnih nizova)

• GINI

∑<

−

⎟⎟⎠

⎞⎜⎜⎝

⎛ jiji yy

n2

1

• MAD (Median Absolute Deviation) MAD = medi |yi – medj(yj)|




17.03.2004. 11/56

Mjere zakrivljenosti i spljoštenosti

• Zakrivljenost (engl. skewness) pozitivna nula negativna

• Spljoštenost (engl. kustosis) negativna pozitivna

Normalna distribucija ima oba parametra 0. Distribucije frekvencija

• relativne • kumulativne

teorijski model




17.03.2004. 12/56

Grafički prikazi empirijskih distribucija :

• histogrami

Histogram (Irisdat.sta 5v*150c)SEPALLEN = 150*0,5*normal(x; 5,8433; 0,8281)

3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5

SEPALLEN

0

5

10

15

20

25

30

35

40

No

of o

bs

• poligoni • box and whisker plot

Box Plot (Irisdat.sta 5v*150c)

Median 25%-75% Non-Outlier Range OutliersSETOSA VERSICOL VIRGINIC

IRISTYPE

4,0

4,5

5,0

5,5

6,0

6,5

7,0

7,5

8,0

8,5

SEPA

LLEN




17.03.2004. 13/56

• stem and leaf plot




17.03.2004. 14/56

Provjera normalnosti podataka: grafički prikazi (najčešće histrogrami)+ testovi (Shapiro-Wilk, Kolmogorov-Smirnov). Prikaz multivarijatnih podataka – Chernoff faces




17.03.2004. 15/56

7. Standardizacija

Omogućava određivanje relativnog položaja nekog podatka (u ekonomiji z-skor) i time usporedbu podataka različitih obilježja:

sxxu −

=

Standardizirane vrijednosti varijable pokazuju relativan položaj neke vrijednosti u nizu, one ne ovise o mjernim jedinicama pa služe za usporedbu raznorodnih nizova.

8. Čebiševljev teorem

Za bilo koju distribuciju vrijedi da se u intervalu

x ± kσ, k>1 nalazi se najmanje (1-1/k2)% podataka. Primjer

Za k= 2 izračunamo da je barem 75% podataka unutar intervala x ± 2s.




17.03.2004. 16/56

Za podatke distribuirane po normalnoj distribuciji vrijedi:

U intervalu x ± s nalazi se približno 68% podataka,

U intervalu x ± 2s nalazi se približno 95% podataka,

U intervalu x ± 3s nalazi se približno 99% podataka.

9. Teorijske Distribucije

Najvažnije su:

• binomna • normalna

• t –distribucija (Gosset)

• χ2




17.03.2004. 17/56

• F distribucija (Fisher)

To su distribucije uzorkovanja (opisane matematički) koje nastaju ponovljenim uzorkovanjima i izračunom statistike (procjenitelja) iz uzorka. (simulacija) Normalna distribucija*

-3 -2 -1 1 2 3

0.1

0.2

0.3

0.4

* Uobičajena oznaka za normalnu distribuciju s parametrima: očekivanjem µ i varijancom σ2 je N(µ, σ2).

Normalna distribucija s očekivanjem µ = 0 i standardnom devijacijom σ = 1. X : N(0,1) - Označavamo je s U ili Z. Vrijednosti vjerojatnosti tj. površina ispod krivulje U dani su u statističkim tablicama.

2

21

21)(

⎟⎠⎞

⎜⎝⎛ −

−= σ

µ

πσ

x

exf




17.03.2004. 18/56

Velika većina obilježja u prirodi distribuirana je prema normalnoj razdiobi. Iz tablica za jediničnu normalnu distribuciju U očitavamo: P( -1.65 < U < 1.65) = 90% P( -1.96 < U < 1.96) = 95% P( -2.58 < U < 2.58) = 99%

Neka je X normalno distribuirana, tj. X: N(µ, σ2). Vrijedi transformacija: STANDARDIZACIJA najvažnija transformacija podataka

- svođenje X: N(µ, σ2) na U sa transformacijom σµ−

=X

U .

X:N( µ, σ2 ) P( µ - 1.65σ < X < µ + 1.65σ) = 90%

P( µ - 1.96σ < X < µ + 1.96σ) = 95% P( µ - 2.58σ < X < µ + 2.58σ) = 99%




17.03.2004. 19/56

INFERENCIJALNA STATISTIKA

Populacija uzorak, parametar, statistika (procjenitelj)

Populacija – skup svih mogućih vrijednosti opažanja ili mjerenja, ne objekata ili (matematički: vrijednosti slučajne varijable). (broj elemenata N) Uzorak – podskup populacije (konačna ili beskonačna).

- uzorkovanje (s vraćanjem ili bez) - slučajni uzorak (svaki element populacije

ima istu vjerojatnost biti izabran!) (broj elemenata n)

Parametar je bilo koja funkcija populacije, neko svojstvo populacije koje nas zanima, npr. srednja vrijednost, standardna devijacija, proporcija, itd. Parametar se odnosi na populaciju i označava se malim grčkim slovima (µ, σ, π itd). Često nam vrijednosti parametra populacija nisu dostupne te ih procjenjujemo na temelju uzorka. Procjena nekog parametra populacije na temelju uzorka naziva se statistika (ili procjenitelj) i označava se malim slovima ( x , s, p,…). Općenito je vrijednost statistike i nepoznatog parametra populacije dana s izrazom:

populacija

uzorak

smjer zaključivanja




17.03.2004. 20/56

Ono što želimo znati je s kojom točnošću (preciznošću) i s kojom pouzdanošću (vjerojatnosti), neka statistika procjenjuje parametar populacije. Primjer: µ = x ± pogreška Parametar (µ, π, σ2) → svojstvo populacije Statistika ( x , p, s2) → funkcija uzorka - za svaki novi uzorak izvučen iz iste populacije (istog osnovnog skupa) možemo dobiti različitu vrijednost statistike. (animacija) Ali, ako znamo kako je statistika uzorka distribuirana – tj. ako znamo kako je distribuirana vrijednost statistike ( x ) na temelju beskonačno mnogo uzoraka iste veličine izvučenih iz te populacije (to je distribucija vjerojatnosti statistike uzorka)

nepoznato

Parametar_populacije = Statistika ± pogreška

populacija

uzorak →

→ PARAMETAR

STATISTIKA




17.03.2004. 21/56

Ako znamo distribuciju uzorkovanja tada uz pomoć vjerojatnosti možemo procijeniti s kojom pouzdanošću se parametar populacije nalazi u određenim granicama. Dakle, možemo odrediti granice oko x u kojima se nalazi parametar µ i pridruženu vjerojatnost za takvo odstupanje. (µ = x ± pogreška, uz određenu vjerojatnost, tj. pouzdanost). Poznavanje distribucije uzorkovanja neke statistike temelj je za inferencijalno statističko zaključivanje (intervale procjene parametara populacije, testiranje hipoteza). Svaki parametar populacije (srednja vrijednost µ, proporcija π, varijanca σ2, …) ima svoju distribuciju uzorkovanja. Važno svojstvo distribucije vjerojatnosti statistike su njezino očekivanje i standardna devijacija. Ta se standardna devijacija distribucije neke statistike naziva STANDARDNA POGREŠKA (SE). Od posebnog je značenja distribucija uzorkovanja srednje vrijednosti.

Ta se distribucija vjerojatnosti statistike uzorka naziva se DISTRIBUCIJA UZORKOVANJA

(engl. sampling distribution)




17.03.2004. 22/56

10. Distribucija uzorkovanja srednje vrijednosti

CENTRALNI GRANIČNI TEOREM

(pogledati tekst i simulacije na adresi http://www.ruf.rice.edu/~lane/rvls.html, posebno za ilustraciju CGT pogledati animirani primjer na adresi http://www.ruf.rice.edu/~lane/stat_sim/sampling_dist/index.html)

Standardna pogreška (engl. standard error) nekog parametra je sandardna devijacija distribucije uzorkovanja tog parametra. Ponekad se označava sa SE. Primjer: Standardna pogreška distribucije uzorkovanja

srednje vrijednosti je n

SE XX

σ=σ= , gdje je X slučajna

varijabla osnovnog skupa (na primjer: visine populacije studenata Zagrebačkog Sveučilišta, težine proizvoda koje proizvede neka tvornica, itd.). Često se umjesto σX piše samo σ. Prije smo napomenuli da je

Parametar = Statistika ± pogreška.

Neka je dana populacija sa srednjom vrijednošću µ i standardnom devijacijom σ. Neka je x srednja vrijednost od n slučajno odabranih nezavisnih opservacija iz te populacije. Distribucija uzorkovanja srednje vrijednosti približava se normalnoj sa očekivanjem µ i standardnom devijacijom

nσ , kada n→∞




17.03.2004. 23/56

Ako za statistiku koja nas zanima odaberemo srednju vrijednost tada je

µ = x ± pogreška.

No sada, na temelju centralnog graničnog teorema koji nam kaže da su srednje vrijednosti uzoraka veličine n također distribuirane normalno sa standardnom pogreškom SE =

nσ , možemo pisati:

µ = x ± up n

σ , sa pouzdanošću I(up),

gdje je u0 vrijednost jedinične normalne razdiobe, a I(up)

pripadna pouzdanost (vjerojatnost). Te se vrijednosti očitavaju u statističkim tablicama.

up 1.64 1.96 2.58 pouzdanost I(up) 90% 95% 99% Intervalna procjena očekivanja (za velike uzorke, n≥30)

µ = x ± up nσ , sa pouzdanošću I(up),

dok je za male uzorke umjesto vrijednosti up jedinične normalne distribucije vrijednost studentove t-distribucije koja se očitava iz statističkih tablica za zadani broj stupnjeva slobode k, gdje je k=n-1, a n je broj elemenata u uzorku.

µ = x ± t(k)

nσ , s pouzdanošću ovisnom o t(k).

Centralni granični teorem (CGT) n

XU

σµ−

=




17.03.2004. 24/56

11. Intervalne procjene

Iz tvrdnje CGT-a slijede formule za Intervalne procjene očekivanja µ (za velike n, n>30):

X :N( µ, σ2/n ) P( x - 1.65nσ

< µ < x + 1.65nσ

) = 90%

P( x - 1.96nσ

< µ < x + 1.96nσ

) = 95%

P( x - 2.58nσ

< µ < x + 2.58nσ

) = 99%

Primjer:

Naka je X je normalno distribuirana sl. varijabla (kraće ćemo reći normalna distribucija). Naka su parametri od X očekivanje 34 i standardna devijacija 4. To zapisujemo X:N(34, 42). Kolika je vjerojatnost da slučajno izvučen primjer iz te distribucije poprimi vrijednost veću od 30? P(X > 30) = P(U > (30 – 34)/4) ) = P(U > -1) = (očitavamo iz stat. tablica) = 0.841 Ako sada izvlačimo uzorak od 16 elemenata iz zadane distribucije X: N(34, 42) i računamo srednju vrijednost, kolika je vjerojatnost da srednja vrijednost izračunata iz tog uzorka bude veća od 30? Prema CGT, X je distribuirano s očekivanjem 34 i standardnom devijacijom SE = 164 = 1, dakle P( X > 30) =(standardizacija)=P(U > (30 – 34)/1) ) = P( U > -4) = 1.

-7.5 -5 -2.5 2.5 5 7.5

0.1

0.2

0.3

0.4




17.03.2004. 25/56

12. Binomna distribucija

Slučajni pokus: dva moguća ishoda, A i nonA. Vjerojatnost događaja A, P(A) = π i vjerojatnost da se ne desi A, P(non A) = 1 - π. Primjer: Promatramo jedan proizvod: proizvod je ispravan s vjerojatnošću π. Mogući događaji: A = proizvod je ispravan, P(A) = π non A = proizvod je neispravan, P(non A) = 1 - π. Pretpostavimo da imamo nizove od n takvih nezavisnih pokusa (Bernoullijevi nizovi). Kolika je vjerojatnost da će se događaj A pojaviti točno x puta u tom nizu? Primjer: Uzorak od n proizvoda, kolika je vjerojatnost da točno x od n proizvoda ( 0 ≤ x ≤ n ) bude ispravno? Binomna slučajna varijabla s parametrima n i π. Kolika je vjerojatnost da će se događaj A pojaviti točno x puta u tom nizu? tj. Kolika je vjerojatnost da slučajna varijabla X poprimi vrijednost x?

P(X = x) = ( ) xnx

xn −−⎟⎟⎠

⎞⎜⎜⎝

⎛ππ 1 (1)




17.03.2004. 26/56

Kolika je vjerojatnost da će se događaj A pojaviti između x1 i x2 puta u tom nizu od n pokusa?

P(x1 ≤ X ≤ x2) = ( ) in

xi

ix

in −

=

−⎟⎟⎠

⎞⎜⎜⎝

⎛∑ ππ 1 2

1

. (2)

Očekivanje binomne slučajne varijable X je E(X) = nπ Varijanca binomne slučajne varijable V(X) = σ2 = nπ(1-π)

Primjer: n = 15, π = 0.2 x = 4 P(X = 4) = 0.188

Primjer: Da li je povoljno kladiti se da će u 24 uzastopna bacanja igraće kocke barem jednom pasti dvostruka šestica?

Primjer: N = 300, π = 0.2, P( 100 > X > 50) = ?




17.03.2004. 27/56

Aproksimacija binomne normalnom (Moivre-Laplaceova formula)

( )( ) ( ) ⎟⎟

⎠

⎞⎜⎜⎝

⎛

ππ−π−

≤≤ππ−π−

≈≤≤11

2121 n

nxU

nnx

PxXxP .

Uz uvjet nπ > 5 i nπ(1-π) > 5. Proporcija X binomna slučajna varijabla s parametrima n i π, tj. X:B(π, n) Proporcija je omjer P = X/n.




17.03.2004. 28/56

Promatramo nizove od n elemenata. Zanima nas broj elemenata u tom nizu od n koji imaju neko svojstvo A. Označimo taj broj s x.

(Bernoullijevi nizovi) Proporcija P je omjer P = X/n Primjer.

Neka je dana neka hipoteza h.

Pretpostavimo da imamo uzorak sastavljen 14 elemenata tj. primjera za učenje. Ako 8 od 14 primjera zadovoljava hipotezu h tada je proporcija uspjeha hipoteze h na tom skupu (uzorku) jednaka p1 = x/n = 8/14.

Uzmimo neki drugi uzorak tj. skup primjera za učenje i neka je na tom skupu proporcija valjanosti hipoteza p2 = 5/14. Neka je dan neki treći skup primjera za učenje iste veličine i neka je na njemu p3 = 7/14. . Ako nastavimo s tim postupkom u ∞ dobivamo → distribuciju uzorkovanja proporcije koju označavamo s P.

(Posljedica Moivre -Laplaceovog teorema - CGT) Distribucija uzorkovanja proporcije za velike n približava se normalnoj distribuciji s

Očekivanjem π i

Standardnom devijacijom σP =

n)1( π−π.

Distribucija uzorkovanja proporcije.




17.03.2004. 29/56

13. Intervalne procjene proporcije

Parametar populacije = statistika_uzorka ± pogreška Primjeri: π = p ± pogreška, µ = x ± pogreška. Na temelju poznate distribucije uzorkovanja proporcije izvode se intervalne procjene proporcije.

P( p - 2.58n

)1( π−π < π < p + 2.58

n)1( π−π) = 99%

P( p – 1.96n

)1( π−π < π < p + 1.96

n)1( π−π) = 95%

Primjer: Jedan strijelac je pogodio 5 puta u metu od 10 pokušaja. Drugi strijelac je pogodio 50 puta u metu od 100 pokušaja. Što možemo reći o pravoj proporciji pogodaka jednog i drugog strijelca.

P( 0.5 – 1.9610

)5.01(5.0 − < π < 0.5 + 1.96

10)5.01(5.0 −) = 95%

P( 0.5 – 1.96100

)5.01(5.0 − < π < 0.5 + 1.96

100)5.01(5.0 −) = 95%

Prvi strijelac: P( 0.5 – 1.96*0.158 < π < 0.5 + 1.96*0.158) = 95% P( 0.5 – 0.31 < π < 0.5 + 0.31) = 95% P( 0.19 < π < 0.81) = 95% Drugi strijelac: P( 0.5 – 1.96*0.05 < π < 0.5 + 1.96*0.05) = 95% P( 0.5 – 0.098 < π < 0.5 + 0.098) = 95% P( 0.402 < π < 0.598) = 95%




17.03.2004. 30/56

14. Testiranje hipoteza

1. direktno statističko zaključivanje (inferencijalno): točkovne ili intervalne procjene - uzorak koristimo za procjenu parametra populacije. 2. indirektno: testiranje hipoteza Uzorak podržava ili diskreditira a priori postavljenu tvrdnju ili pretpostavku o stvarnoj vrijednosti parametra populacije Hipoteza o populacionom parametru proizlazi iz • prethodnih ispitivanja • teoretskih pretpostavki. Ako postupkom testiranja nađemo da je H0 neprihvatljiva s aspekta vjerojatnosti, tada prihvaćamo (vjerujemo) u alternativnu hipotezu. Isto kao što ne možemo naći 100% interval pouzdanosti tako ni testiranje ne daje 100% sigurnost u ispravnost odluke već su pouzdanosti s kojim radimo 90, 95, 99%. Naime, u postupku testiranja unaprijed zadajemo (i time kontroliramo) pogrešku (tj. rizik s kojim radimo statistički test) a to je vjerojatnost odbacivanja istinite hipoteze. Ta se vjerojatnost naziva nivo signifikantnosti (nivo značajnosti) ili pogreška prvog reda i označava se s α.




17.03.2004. 31/56

Postupak: Postavljaju se dvije međusobno isključive hipoteze koje zajednički iscrpljuju sve mogućnosti:

ili

U zadnja dva slučaja moramo biti sigurni da θ > a, θ < a, nije moguće !!!

Postavljanje hipoteza dešava se na logičkoj razini, tj. vezano je za problem poznavanja područja problema. Prihvaćanje hipoteze tj. vjerovanje u određenu hipotezu je stvar statističke odluke.

dvostrani test

jednostrani

testovi

H0 θ = a H1 θ < a

ili H0 θ = a H1 θ > a

H0 θ = a H1 θ ≠ a

jednostrani test dvostrani test

Površina odgovara vjerojatnosti α, tj. nivou signifikantnosti testa

Površine zajedno odgovaraju vjerojatnosti α, tj. nivou signifikantnosti testa




17.03.2004. 32/56

Primjer:

H0 µ = 20 H1 µ ≠ 20

Uzorak od 100 elemenata dao je a) x = 19.1 b) x = 19.9 c) x = 16. Pretpostavimo da znamo da je st.dev. populacije σ = 3. Pitanje je da li je moguće, tj. koliko je vjerojatno da dobijemo srednju vrijednost uzorka x = 19.1 ako je µ = 20. Ako je ta vjerojatnost mala onda smo skloni ne vjerovati u pretpostavku iz nulte hipoteze. Pitanje je koliko je to “malo vjerojatno” ? Obično je to 1% ili 5% i naziva se nivo značajnosti (signifikantnosti) i označava se s α. α je vjerojatnost odbacivanja istinite hipoteze! Rizik testiranja koji se određuje unaprijed! a) x = 19.1, odaberemo α = 0.05 tj. 5%. Radimo dvostrani U - test.

U = n

Xσ

µ− =100

3201.19 − = - 3

Vjerojatnost da je P (U < - 3) je praktički jednaka 0 (pa onda i 2*P (U < - 3)≈0, jer radimo dvostrani test pa gledamo površine u oba repa), tj. ta je vjerojatnost puno manja od 0.05 (koliki je nivo signifikantnosti testa) pa odbacujemo nultu hipotezu. Interpretacija: Vjerojatnost da na temelju uzorka od 100 elemenata dobijemo srednju vrijednost 19.1, ako je prava vrijednost 20, je praktički nula pa smo stoga skloni NE vjerovati u nultu hipotezu tj. odbacujemo je. b) x = 19.9, odaberemo α = 0.05 tj. 5%. Radimo dvostrani U - test.




17.03.2004. 33/56

U = n

Xσ

µ− =100

3209.19 − = - 0.33

Iz statističkih tablica slijedi da je vjerojatnost 2*P (U < - 0.33) = 2*0.37 = 0.74 što je puno veće od α = 0.05 (koliki je nivo signifikantnosti testa) => prihvaćamo nultu hipotezu. Interpretacija: Nemamo razloga, na temelju predočenog uzorka (uzorak od 100 elemenata čija je srednja vrijednost x =19.9), sumnjati u istinitost nulte hipoteze! Vjerojatnost da dobijemo srednju vrijednost uzorka (po apsolutnoj vrijednosti jednaku ili veću od) x = 19.1 je 0.74, ako je stvarna srednja vrijednost populacije 20. To je puno veća vjerojatnost od 0.05 što je granična vjerojatnost s kojom radimo testiranje. Mogli bi reći da uzorak podržava tvrdnju iz nulte hipoteze s vjerojatnošću 0.74.

-0.33

Površina 0.37

Dvostrani test: ukupna provršina (vjerojatnost) 2*P (U < - 0.33) 2*0.37 = 0.74

Površina = 0.37

Površina = 0.37

0.33




17.03.2004. 34/56

15. Pogreške prvog i drugog reda

Prilikom testiranja možemo učiniti dva tipa pogrešaka. Greške I i II reda. Usporedba postupka statističkog testiranja i pravosudnog postupka: H0 Osumnjičeni je nevin H1 Osumnjičeni je kriv

Stvarno stanje Stvarno stanje Odluka suda Nevin Kriv

Zaključak

H0 je istina H0 je laž Nevin √

pogreškaH0 prihvaćamo

√ β (greška II reda)

Kriv pogreška

√ H0 odbacujemo

α (greška I reda)

√

Pogreška I reda ili α je pogreška koju uvijek možemo kontrolirati prilikom statističkog zaključivanja. Ona se zadaje unaprijed, a hipoteze se formuliraju tako da ona pogreška koja nam je važnija bude pogreška prvog reda α. Na primjer, u pravosudnom postupku možemo učiniti dvije pogreške, da nevinog čovjeka osudimo ili da krivog oslobodimo. Možemo se odlučiti da je važnije kontrolirati vjerojatnost pogreške da nevinog čovjeka osudimo. Formuliramo hipoteze:

H0 Osumnjičeni je nevin i H1 Osumnjičeni je kriv.

Pogreška prvog reda ili α je vjerojatnost odbacivanja hipoteze H0 kada je ona zapravo istinita, tj. u ovom slučaju vjerojatnost da nevinog čovjeka proglasimo krivim. Kada bi obrnuli hipoteze i stavili H0 Osumnjičeni je kriv, tada bi zadavali unaprijed i time kontrolirali pogrešku da krivog čovjeka oslobodimo. Pogreška II reda ili β Vjerojatnost prihvaćanja hipoteze H0 kada je H1 istina (dakle H0 je laž)! U našem primjeru postavljenih hipoteza:

H0 Osumnjičeni je nevin




17.03.2004. 35/56

H1 Osumnjičeni je kriv to je slučaj kada je osumnjičeni zaista kriv no mi ga proglasimo nevinim. β ovisi o: • pravoj vrijednosti parametra o kojem raspravljamo (alternativna

hipoteza), β pada kada je veća razlika između pretpostavljene i prave vrijednosti parametra koji se testira (distribucije su razdijeljene)

• pogrešci α, tj. β raste kada α pada i obrnuto, te jednostranom ili dvostranom testu, β

• standardnoj devijaciji populacije, β se povećava što je st.dev. populacije veća

• veličini uzorka, β se smanjuje kada veličina uzorka raste. zadnja dva parametra određuju standardnu pogrešku SE.




17.03.2004. 36/56

16. Primjer: testiranje proporcija

1. Formuliranje statističke hipoteze

H0 π = 0.005 H1 π < 0.005

(jednostrani, lijevi test – područje odbacivanja hipoteze je na lijevo)

2. Odredi statistiku za testiranje : proporcija P

Znamo da vrijedi U =

npp

P)1( −

π−

3. Odaberi nivo značajnosti testa tj. pogrešku prvog reda α, neka je α = 5% i pripadnu kritičnu vrijednost očitaj iz tablica. Za odabrani nivo značajnosti i jednostrani test ukrit=-1.64

4. Uzmi slučajan uzorak n=2000 i izračunaj vrijednost

statistike P na njemu, tj. p=3/2000=0.0015

26.2

2000)005.01(005.0

005.00015.0−=

−−

=u

5. Donesi odluku: Ako je izračunata vrijednost statistike u < ukrit odbaci nultu hipotezu. Kako je –2.26 < -1.64 H0 odbacujemo!




17.03.2004. 37/56

Područje odbacivanja H0

Područje prihvaćanja H0

-1.64 0.0 -2.26

-3 -2 -1 1 2 3

0.1

0.2

0.3

0.4

Površina α=5%




17.03.2004. 38/56

χ2 test

Neparametarski test Koristi se za dvije kategorije testova:

• Testiranje ponašanja po distribuciji ( engl. goodness of fit )

• Testiranje nezavisnosti klasifikacija: kontigencijske tablice (engl. contigency tables)

H0 dvije kvalitativne populacijske varijable su nezavisne RxS tablice

χ2 = Σ (fobs- fizracunata)2 / fizracunata

PUŠ AĆ I NEPUŠ AĆ I total

MUŠ KARCI 110 90 200

Ž ENE 104 96 200

total 214 186 400




17.03.2004. 39/56

Teorijske frekvencije

PUŠAĆI NEPUŠAĆI total

MUŠKARCI 107= (214*200/400)

93 200

ŽENE 107 93 200

total 214 186 400

χ2 = (110-107)2/107 + (104-107)2/107 +(90-93)/93 +(96-93)/93 = 0.084 + 0.084 + 0.097 + 0.097 = 0.362

koristiti statističke tablice ili program

Broj stupnjeva slobode = (R-1)(S-1)




17.03.2004. 40/56

ANOVA

(ANALIZA VARIJANCE) R.A. Fisher (1890. – 1962.) “Fisher was a genius who almost single-handedly created the foundations for modern statistical science ….” Anders Hald A History of Mathematical Statistics (1998)

Svrha:

• Nalaženje faktora koji najviše utječu na model (primjer regresija)

• Reducira se na testiranje razlike između srednjih vrijednosti više uzoraka.

• U principu uzorci nisu nezavisni i dobiveni su dizajnom eksperimenta (kada se kontrolira vrijednost faktora)

2 populacije ANOVA → t-test Zašto se ne testira nizom t-testova? 1. broj testova n(n-1)/2 2. nivo značajnosti se automatski povećava:

α=0.01 za pojedinačni test, vjerojatnost izbjegavanja pogreške je 0.99 pa je vjerojatnost izbjegavanja pogreške α jest (1-α)k za k testova. Vjerojatnost α u k testova je 1-(1-α)k što je za k*10 iznosi 0.364

3. Individualni testovi nisu nezavisni jedan od drugog 4. Individualni testovi mogu proizvesti kontradiktoran

rezultat (sve su srednje vrijednosti jednake, jedan test odbacuje hipotezu)

Testiranje x pomoću usporedbom varijanci!

Varijanca je suma kvadrata devijacija podataka od njihove srednje vrijednosti SS (sum of squares) podijeljena s (n-1).




17.03.2004. 41/56

VARIJANCA MOŽE BITI PARTICIONIRANA!

TOTALNA VARIJABILNOST SSTOTAL = VARIJABILNOST UNUTAR GRUPA SSERROR (ILI RESIDUAL) +

VARIJABILNOST IZMEĐU GRUPA SS(EFFECT)

Particioniranje varijance:

Grupa 1 Grupa 2

O 1 3 6 O 2 2 7 O 3 1 5

x 2 6 SS 2 2

Ukupna x 4 Total SS 28

Uoči: SS koji se temelji na varijabilnosti unutar grupa (2) je znatno manje nego ukupana varijabilnost (28). Razlog te razlike leži u različitosti srednjih vrijednosti grupa! ERROR variance (due to random error),

SS (unutar grupa) = 2 + 2 = 4 SS Effect, SS(zbog varijabilnosti sred.vr.) = 28 – (2+2) = 24 TOTALNA




17.03.2004. 42/56

Mnoge stat. procedure koriste omjer ostvarijabiln aNebjašnjenostvarijabiln Objašnjena

Error

Effect

MSError SquareMean MSEffect SquareMean

tj. grupa unutar ostVarijabilngrupaizmedju ostVarijabiln

H0 nema razlike između grupa

Čak i kada vrijedi H0 očekujemo manje razlike u očekivanjima između grupa, ali procijenjene varijance

između grupa i unutar grupa trebaju biti jednake.

F test – da li se omjer varijanci bitno razlikuje od 1.

• n broj elemenata, k broj grupa (uzoraka) • i indeks podatka u uzorku(grupi) • j je indeks grupe

F (n-k, k-1) VAŽNO: pretpostavke ANOVE:

• Podaci su normalno distribuirani • Varijance uzoraka su jednake

Testiranje jednakosti varijanci: Barlett, Cochran




17.03.2004. 43/56




17.03.2004. 44/56

ANOVA I REGRESIJA ANOVA je moćni postupak za analizu kvalitete regresijskog modela. VARIJANCA unutar modela može se paticionirati, a zatim se ti dijelovi stavljaju u odnos tako otkrivajući činjenice o modelu! ANOVA služi i za provjeru modela (goodness (or lack) of fit)

TOTALNA VARIJABILNOST SSTOTAL = VARIJABILNOST REZIDUALA (POGREŠKE-ERROR)

SSRESIDUAL + VARIJABILNOST OBJAŠNJENA REG. MODELOM SSREG

∑∑∑ −+−=+=−= 222 )ˆ()ˆ()( yyyySSSSyySS iiiREGRESSIONERRORiTOTAL




17.03.2004. 45/56

VIŠESTRUKI REGRESIJSKI MODEL

(engl. Multiple Linear Regression)

Linearna regresija

ii bXaY +=ˆ

ii YY −ˆ jest rezidual ili pogreška koja nastaje kada predviđamo Y

u zavisnosti od X.

Reziduali predstavljaju onaj dio varijabilnosti koji nije moguće objasniti modelom. Reziduali se moraju pažljivo provjeriti jer oni odražavaju ispunjavanje pretpostavki modela – najbolje grafički (posebno za male uzorke kada numerički postupci nisu odgovarajući)




17.03.2004. 46/56

(analiza reziduala - animacija linearna regresija - uvid u zadovoljavanje pretpostavki - grafički) Najbolji fit regresijske funkcije može se dobiti

minimiziranjem sume kvadrata pogreške ∑ −i

ii YY 2)ˆ(min .

Da li se best fit može dobiti na drugi način ? Zašto baš min

SS?




17.03.2004. 47/56

Mjera korisnosti modela – koeficijent determinacije R2 (goodness of fit)

Mjeri proporciju varijance zavisne varijable oko njezine srednje vrijednosti koja je objašnjena prediktorskim varijablama.

0 < R2 < 1 Veći R znači veću snagu modela u objašnjavanju regresijske funkcije i dakle, bolju predikciju zavisne varijable. Osnovna ideja: izračunati redukciju pogreške predikcije kada je informacija koju osigurava nezavisna varijabla uključena u model.

∑∑∑ −+−=+=−= 222 )ˆ()ˆ()( yyyySSSSyySS iiiREGRESSIONERRORiTOTAL




17.03.2004. 48/56

1. Ako nema x u modelu, tj. nema doprinosa x-a predikciji y onda je najbolji pogodak srednja vrijednost y

2. Ako sada uključimo informacije s kojom x predviđa y, pogreška je reducirana. S obzirom da regresijska funkcija predstavlja najbolji

opis podataka (best fit) pogreška je

∑=

−=n

iiierror yySS

1

2)ˆ(

• R2 je relativno smanjenje pogreške kada je informacija o X uključena u model




17.03.2004. 49/56

TOT

ERRTOT

TOT

REG

SSSSSS

SSSSR −

==2

• To je količina varijacije Y objašnjena s X.

• Za jednostavnu linearnu regresiju koeficijent

determinacije jest kvadrat korelacijskog koeficijenta između X i Y. (Pogledati animaciju RUVL kompozicija r2)




17.03.2004. 50/56

Pretpostavke za jednostavnu linearnu i multiplu regresiju:

• Odnos između x i y je linearan (uoči razliku između ne-linearne i krivolinijske asocijacije → može biti transformirana).

• Sve varijable su nezavisne, nema korelacije s bilo kojom trećom varijablom.

• Za svaki X, vrijednosti Y su distribuirani normalno • Za svaki X, Y distribucija ima istu varijancu. (homoscedastic

data). HOMOSCEDASTIC data – slučajna pogreška je normalno distribuirana

To se grafički provjerava crtanjem pogreške u odnosu na signal bez pogreške.




17.03.2004. 51/56

Vrlo često nije zadovoljeno posebno kada podaci pokrivaju široki rang. Inače se kaže da su podaci heteroscedatic – slučajna pogreška (rezidual) zavisi od jačine signala, veličine nezavisne varijable.




17.03.2004. 52/56




17.03.2004. 53/56

VIŠE NEZAVISNIH VARIJABLI (Francis Galton, 1886.)

y = a0 + a1 x1 + a2 x2 + …… + ak xk + ε

ε je ERROR ili RESIDUAL s očekivanjem 0.

• Jednadžba određuje hiperravninu u k-dim prostoru (k broj varijabli)

• a0, a1, ……an određeni tako da je suma kvadrata pogreške je minimalna

Neke napomene za interpretaciju:

• Za k = 1 jednostavna linearna regresija • F-ratio testira nultu hipotezu da su svi koeficijenti nezavisnih

varijabli 0 tj. H0 a0 = a1 = ……= an = 0

F(k, n-k-1) F se odnosi prema r2 (godness to of fit):

krknrF)1(

)1(2

2

−−−

=




17.03.2004. 54/56

• SSRES je procjena varijabilnosti duž regresijske linije i koristi se

za nalaženje procjenjene standardne pogreške pojedinih regresijskih koeficijenata ai. Procjena standardne pogreške je distribuirana kao t(n-k-1). Interval pouzdanosti je dan s +/- t(α/2, n-k-1)s(ai)

• Ako su dvije nezavisne varijable izrazito korelirane, teško je

procijeniti regresijske koeficijente i dobivene vrijednosti koeficijenata ne reflektiraju stvarne ovisnosti. (važno: outlieri mogu značajno utjecati na kolinearnost!)




17.03.2004. 55/56

RAČUNANJE JEDINSTVENE I DIJELJENE VARIJANCE IZMEĐU NEZAVISNIH VARIJABLI

Temelj za procjenu svih regresijskih odnosa je korelacija između nezavisne varijable i zavisnih varijabli. Korelacija je osnova za oblikovanje regresijske varijate procjenom regresijskih koeficijenata za za svaku nezavisnu varijablu koja maksimizira predviđanje zavisne varijable. Za slučaj Y = a X1 + a0 postotak objašnjene varijabilnosti zavisne varijable je kvadrat korelacije Za slučaj više nezavisnih varijabli potrebno je razmotriti postojanje korelacije između nezavisnih varijabli jer one dijele nešto prediktivne moći. Stoga se direktna korelacija zavisna i nezavisna varijable ne može uzeti u obzir. Parcijalni korelacijski koeficijent je korelacija Xi i Yi kada su utjecaji drugih nezavisnih varijabli uklonjeni. Semiparcijalni koeficijent se razlikuje od gornjeg jer predstavlja korelaciju Xi i Yi kada su efekti drugih nezivisnih varijabli uklonjeni samo iz Xi. Koristi se za identifikaciju varijable koje imaju najveću inkrementalnu prediktivnu moć. Kvadrat daje jedinstvenu varijancu obkešnjenu s nezavisnom varijablom.

Y1

X1 Y




17.03.2004. 56/56

a b

c

d

X2 X1

Documents

Uvod u statističko zaključivanje - zemris.fer.hr u statisticko zakljucivanje.pdf · nazive: biometrija, psihometrija, tehnometrija itd. Neka područja znanosti razvila su vlastito