Author
others
View
3
Download
0
Embed Size (px)
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 1/56
Uvod u statističko zaključivanje
1. Statistika - Nazivlje ............................................................ 2
2. Statistika – podjela statističkih analiza ................................. 2
3. Objekti, varijable, mjerne skale........................................... 3
4. Ekstremne i nedostajuće vrijednosti podaci.......................... 4
5. Ciljevi statističke analize ..................................................... 9
6. Deskriptivna statistika ........................................................ 9
7. Standardizacija ................................................................ 15
8. Čebiševljev teorem .......................................................... 15
9. Teorijske Distribucije........................................................ 16
10. Distribucija uzorkovanja srednje vrijednosti. ................... 22
11. Intervalne procjene ...................................................... 24
12. Binomna distribucija ..................................................... 25
13. Intervalne procjene proporcije....................................... 29
14. Testiranje hipoteza ....................................................... 30
15. Pogreške prvog i drugog reda........................................ 34
16. Primjer: testiranje proporcija ......................................... 36
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 2/56
UVOD
Data mining = dubinska analiza (inteligentna analiza podataka)
= rudarenje podataka Većina metoda za dubinsku analizu podataka (engl. data mining) temelji se na multivarijatnoj statistici -> zahtijeva znanje temeljne statistike!
1. Statistika - Nazivlje
• riječ STATISTIKA (lat. status = stanje)
Statistika - science of making sense out of data. Statistika primijenjena u raznim znanostima nosi različite nazive: biometrija, psihometrija, tehnometrija itd. Neka područja znanosti razvila su vlastito nazivlje – od tuda različita imena za iste metode! (Primjer: PCA = Karhunen-Loève transformacija; Z = U )
2. Statistika – podjela statističkih analiza
Prema načinima stvaranja zaključka
• deskriptivna (numerički i grafički postupci, usporedba s EDA exploratory data analysis)
• inferencijalna (intervalne procjene, testiranje hipoteza na temelju uzorka)
KAKO ispravno generalizirati na temelju uzorka?
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 3/56
Prema broju varijabli u analizi riječ VARIJABLA (engl. variable = variate = factor)
• univarijatna • bivarijatna • multivarijatna
(testiranje, eksplorativna statistika) Prema vrsti modela
• parametarska • neparametarska
Inferencijalno statističko zaključivanje temelji se na teoriji vjerojatnosti
• Slučajni pokus, slučajni događaj • Slučajna varijabla
(pridruživanje numeričke vrijednosti ishodu slučajnog pokusa)
3. Objekti, varijable, mjerne skale
• Objekti (entiteti, jedinice) • Varijable (= obilježja, značajke, atributi) Varijable s obzirom na ulogu u statističkoj analizi:
• zavisne, kriterijske varijable (engl. target, dependent, criterion, response variable)
• nezavisne, prediktorske varijable
(engl. independent, predictior, controlled, regressor variable)
(Primjer: kako spol, dob i obrazovanje utječu na prihode ili, kako prihodi, zaposlenost i posjedovanje nekretnina utječe na dodjelu kredita)
SAS
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 4/56
kvantitativne
kvalitativne
Varijable s obzirom na mjerne skale: • Mjerne skale:
• nominalna (engl. nominal) • uređajna ( relacija < ) (engl. ordinal)
[opservacije nisu ekvidistantne, primjer: skala tvrdoće]
• intervalna (operacije + i -)
[ekvidistantne opservacije, nema ishodišta, primjer °C, °F]
• racionalna (operacije +, -, *, /) [primjer °K]
Prve dvije skale još se zovu kategorijske (engl. categorical). Zadnje dvije još se zovu metrička skala. Alternativni par naziva: diskretne vs. kontinuirane.
4. Ekstremne i nedostajuće vrijednosti podaci
(engl. outliers and missing values) Statistical Computing Metode multivarijatne statističke metode razvijene prije nastanka računala. Masovna uporaba stat. metoda: GIGO efekt Pažnja: u svakom velikom skupu podatka ima pogrešaka. Ekstremne vrijednosti (engl. outliers) Podaci koji su nekonzistentni s većinom podataka. Kako odeđujemo outliere? Od kuda dolaze outlieri? Što učiniti s njima? Važno je znati: Ekstremne vrijednosti mogu značajno utjecati na rezultate analize!
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 5/56
Porijeklo
• Provjeriti jesu li pogreške u unosu ili mjerenju! Ispraviti ili podatke koje ne možemo ispraviti – ukloniti.
• Priroda pojave.
Određivanje • Posebne metode. Grafičke metode mogu pomoći! • Na temelju IQR-a: Q0.25-1.5IQR < x < Q0.75+1.5IQR • Na temelju teorema (Čebišev): ±4σ od srednje
vrijednosti obuhvaća 94% podataka. Što učiniti?
• Nema jedinstvenog recepta! • Potrebno iskustvo eksperta.
Da li nas takvi podaci vode prema istini? DA - tada uključiti u analizu. NE - ukloniti podatke. Opisati u izvještaju – stručnjaci s drugačijim mišljenjem mogu raditi alternativne analize.
Nedostajuće vrijednosti
• nadomještanje s nulom ili nekom konstantom • nadomještanje sa srednjom vrijednošću (pažnja može
kreirati outliere !) za metričke podatke ili s najčešće pojavljivanim atributom za nemetričke podatke
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 6/56
• uklanjanje podataka (redaka) s nedostajućim vrijednostima (nije zadovoljavajuće ali je najsigurnije) Primjer: 2000 podataka od toga 1300 sa nedostajućim vrijednostima! Razmotriti strategiju uzorkovanja! Zašto potrošiti resurse za sakupljanje nepotpunih podataka koji će biti odbačeni.
• Nadomještanje s najčešće pojavljivanom vrijednošću u
klasi
• Regresija
• EM algoritam (engl. Expectation Maximization)
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 7/56
Populacija, uzorak, uzorkovanje Populacija – skup svih mogućih vrijednosti nekog opažanja ili mjerenja - ne objekata! (matematički: vrijednosti slučajne varijable). (broj elemenata N) Uzorak – podskup populacije (konačna ili beskonačna). Populacija je opisana parametrima. na populaciju i označava se malim grčkim slovima (µ, σ, π itd). Statistika (ili procjenitelj) - procjena nekog parametra populacije na temelju uzorka
parametar statistika srednja vrijednost
µ x standardna devijacija
σ s
varijanca σ2 s2 proporcija π p
Često nam vrijednosti parametra populacija nisu dostupne te ih procjenjujemo na temelju uzorka. (broj elemenata n)
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 8/56
Postupak uzimanja uzorka je uzorkovanje 1. s vraćanjem ili 2. bez vraćanja
Slučajni uzorak je reprezentativni uzorak. Nalaženje reprezentativnog uzorka može biti zahtjevno, i zato često pristrano! (Primjer: telefonska anketa) Uzimanje (slučajnog) reprezentativnog uzorka:
1. Numerirati objekte 2. Generirati onoliko slučajnih brojeva koliki je uzorak
(tablica ili generator slučajnih brojeva) 3. Uzeti one objekte koji odgovaraju tim brojevima
Stratificiran uzorak (engl. stratified random sample) Uzorak dobiven podjelom populacije na nepreklapajuće dijelove, (engl. strata) i uzimanje slučajnog uzorka iz svakog dijela.
• važna metoda kada je jedna od ciljnih klasa vrlo mala u odnosu na populaciju
Napomena: još se često koristi termin particija skupa za podjelu skupa na nepreklapajuće dijelove.
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 9/56
DESKRIPTIVNA I INFERENCIJALNA STATISTIKA
5. Ciljevi statističke analize
6. Deskriptivna statistika
Mjere centralne tendencije:
• aritmetička sredina (engl. mean) • medijan • mod • geometrijska sredina • harmonijska sredina
skupljanje podataka
manipulacija podacima interpretacija
• redukcija podataka • alat za inferencijalno
zaključivanje • identifikacija relacija ili
asocijacija (grupiranja) među podacima
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 10/56
Mjere rasipanja
• varijanca (srednje kvadratno odstupanje) • standardna devijacija • rang (max-min) • interkvartilni rang
Koliko podataka sadrži IQR?
• srednje apsolutno odstupanje • koeficijent varijacije
(s/x, bez dimenzije - usporedba disperzije raznorodnih nizova)
• GINI
∑<
−
⎟⎟⎠
⎞⎜⎜⎝
⎛ jiji yyn
2
1
• MAD (Median Absolute Deviation) MAD = medi |yi – medj(yj)|
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 11/56
Mjere zakrivljenosti i spljoštenosti
• Zakrivljenost (engl. skewness) pozitivna nula negativna
• Spljoštenost (engl. kustosis) negativna pozitivna
Normalna distribucija ima oba parametra 0. Distribucije frekvencija
• relativne • kumulativne
teorijski model
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 12/56
Grafički prikazi empirijskih distribucija :
• histogrami
Histogram (Irisdat.sta 5v*150c)SEPALLEN = 150*0,5*normal(x; 5,8433; 0,8281)
3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5
SEPALLEN
0
5
10
15
20
25
30
35
40
No
of o
bs
• poligoni • box and whisker plot
Box Plot (Irisdat.sta 5v*150c)
Median 25%-75% Non-Outlier Range OutliersSETOSA VERSICOL VIRGINIC
IRISTYPE
4,0
4,5
5,0
5,5
6,0
6,5
7,0
7,5
8,0
8,5
SEPA
LLEN
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 13/56
• stem and leaf plot
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 14/56
Provjera normalnosti podataka: grafički prikazi (najčešće histrogrami)+ testovi (Shapiro-Wilk, Kolmogorov-Smirnov). Prikaz multivarijatnih podataka – Chernoff faces
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 15/56
7. Standardizacija
Omogućava određivanje relativnog položaja nekog podatka (u ekonomiji z-skor) i time usporedbu podataka različitih obilježja:
sxxu −=
Standardizirane vrijednosti varijable pokazuju relativan položaj neke vrijednosti u nizu, one ne ovise o mjernim jedinicama pa služe za usporedbu raznorodnih nizova.
8. Čebiševljev teorem
Za bilo koju distribuciju vrijedi da se u intervalu
x ± kσ, k>1 nalazi se najmanje (1-1/k2)% podataka. Primjer
Za k= 2 izračunamo da je barem 75% podataka unutar intervala x ± 2s.
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 16/56
Za podatke distribuirane po normalnoj distribuciji vrijedi:
U intervalu x ± s nalazi se približno 68% podataka, U intervalu x ± 2s nalazi se približno 95% podataka, U intervalu x ± 3s nalazi se približno 99% podataka.
9. Teorijske Distribucije
Najvažnije su:
• binomna • normalna
• t –distribucija (Gosset)
• χ2
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 17/56
• F distribucija (Fisher)
To su distribucije uzorkovanja (opisane matematički) koje nastaju ponovljenim uzorkovanjima i izračunom statistike (procjenitelja) iz uzorka. (simulacija) Normalna distribucija*
-3 -2 -1 1 2 3
0.1
0.2
0.3
0.4
* Uobičajena oznaka za normalnu distribuciju s parametrima: očekivanjem µ i varijancom σ2 je N(µ, σ2).
Normalna distribucija s očekivanjem µ = 0 i standardnom devijacijom σ = 1. X : N(0,1) - Označavamo je s U ili Z. Vrijednosti vjerojatnosti tj. površina ispod krivulje U dani su u statističkim tablicama.
2
21
21)(
⎟⎠⎞
⎜⎝⎛ −−
= σµ
πσ
x
exf
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 18/56
Velika većina obilježja u prirodi distribuirana je prema normalnoj razdiobi. Iz tablica za jediničnu normalnu distribuciju U očitavamo: P( -1.65 < U < 1.65) = 90% P( -1.96 < U < 1.96) = 95% P( -2.58 < U < 2.58) = 99%
Neka je X normalno distribuirana, tj. X: N(µ, σ2). Vrijedi transformacija: STANDARDIZACIJA najvažnija transformacija podataka
- svođenje X: N(µ, σ2) na U sa transformacijom σµ−
=X
U .
X:N( µ, σ2 ) P( µ - 1.65σ < X < µ + 1.65σ) = 90%
P( µ - 1.96σ < X < µ + 1.96σ) = 95% P( µ - 2.58σ < X < µ + 2.58σ) = 99%
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 19/56
INFERENCIJALNA STATISTIKA
Populacija uzorak, parametar, statistika (procjenitelj)
Populacija – skup svih mogućih vrijednosti opažanja ili mjerenja, ne objekata ili (matematički: vrijednosti slučajne varijable). (broj elemenata N) Uzorak – podskup populacije (konačna ili beskonačna).
- uzorkovanje (s vraćanjem ili bez) - slučajni uzorak (svaki element populacije
ima istu vjerojatnost biti izabran!) (broj elemenata n)
Parametar je bilo koja funkcija populacije, neko svojstvo populacije koje nas zanima, npr. srednja vrijednost, standardna devijacija, proporcija, itd. Parametar se odnosi na populaciju i označava se malim grčkim slovima (µ, σ, π itd). Često nam vrijednosti parametra populacija nisu dostupne te ih procjenjujemo na temelju uzorka. Procjena nekog parametra populacije na temelju uzorka naziva se statistika (ili procjenitelj) i označava se malim slovima ( x , s, p,…). Općenito je vrijednost statistike i nepoznatog parametra populacije dana s izrazom:
populacija
uzorak
smjer zaključivanja
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 20/56
Ono što želimo znati je s kojom točnošću (preciznošću) i s kojom pouzdanošću (vjerojatnosti), neka statistika procjenjuje parametar populacije. Primjer: µ = x ± pogreška Parametar (µ, π, σ2) → svojstvo populacije Statistika ( x , p, s2) → funkcija uzorka - za svaki novi uzorak izvučen iz iste populacije (istog osnovnog skupa) možemo dobiti različitu vrijednost statistike. (animacija) Ali, ako znamo kako je statistika uzorka distribuirana – tj. ako znamo kako je distribuirana vrijednost statistike ( x ) na temelju beskonačno mnogo uzoraka iste veličine izvučenih iz te populacije (to je distribucija vjerojatnosti statistike uzorka)
nepoznato
Parametar_populacije = Statistika ± pogreška
populacija
uzorak →
→ PARAMETAR
STATISTIKA
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 21/56
Ako znamo distribuciju uzorkovanja tada uz pomoć vjerojatnosti možemo procijeniti s kojom pouzdanošću se parametar populacije nalazi u određenim granicama. Dakle, možemo odrediti granice oko x u kojima se nalazi parametar µ i pridruženu vjerojatnost za takvo odstupanje. (µ = x ± pogreška, uz određenu vjerojatnost, tj. pouzdanost). Poznavanje distribucije uzorkovanja neke statistike temelj je za inferencijalno statističko zaključivanje (intervale procjene parametara populacije, testiranje hipoteza). Svaki parametar populacije (srednja vrijednost µ, proporcija π, varijanca σ2, …) ima svoju distribuciju uzorkovanja. Važno svojstvo distribucije vjerojatnosti statistike su njezino očekivanje i standardna devijacija. Ta se standardna devijacija distribucije neke statistike naziva STANDARDNA POGREŠKA (SE). Od posebnog je značenja distribucija uzorkovanja srednje vrijednosti.
Ta se distribucija vjerojatnosti statistike uzorka naziva se DISTRIBUCIJA UZORKOVANJA
(engl. sampling distribution)
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 22/56
10. Distribucija uzorkovanja srednje vrijednosti
CENTRALNI GRANIČNI TEOREM
(pogledati tekst i simulacije na adresi http://www.ruf.rice.edu/~lane/rvls.html, posebno za ilustraciju CGT pogledati animirani primjer na adresi http://www.ruf.rice.edu/~lane/stat_sim/sampling_dist/index.html)
Standardna pogreška (engl. standard error) nekog parametra je sandardna devijacija distribucije uzorkovanja tog parametra. Ponekad se označava sa SE. Primjer: Standardna pogreška distribucije uzorkovanja
srednje vrijednosti je n
SE XXσ
=σ= , gdje je X slučajna
varijabla osnovnog skupa (na primjer: visine populacije studenata Zagrebačkog Sveučilišta, težine proizvoda koje proizvede neka tvornica, itd.). Često se umjesto σX piše samo σ. Prije smo napomenuli da je
Parametar = Statistika ± pogreška.
Neka je dana populacija sa srednjom vrijednošću µ i standardnom devijacijom σ. Neka je x srednja vrijednost od n slučajno odabranih nezavisnih opservacija iz te populacije. Distribucija uzorkovanja srednje vrijednosti približava se normalnoj sa očekivanjem µ i standardnom devijacijom
nσ , kada n→∞
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 23/56
Ako za statistiku koja nas zanima odaberemo srednju vrijednost tada je
µ = x ± pogreška.
No sada, na temelju centralnog graničnog teorema koji nam kaže da su srednje vrijednosti uzoraka veličine n također distribuirane normalno sa standardnom pogreškom SE =
nσ , možemo pisati:
µ = x ± up n
σ , sa pouzdanošću I(up),
gdje je u0 vrijednost jedinične normalne razdiobe, a I(up)
pripadna pouzdanost (vjerojatnost). Te se vrijednosti očitavaju u statističkim tablicama.
up 1.64 1.96 2.58 pouzdanost I(up) 90% 95% 99% Intervalna procjena očekivanja (za velike uzorke, n≥30)
µ = x ± up nσ , sa pouzdanošću I(up),
dok je za male uzorke umjesto vrijednosti up jedinične normalne distribucije vrijednost studentove t-distribucije koja se očitava iz statističkih tablica za zadani broj stupnjeva slobode k, gdje je k=n-1, a n je broj elemenata u uzorku.
µ = x ± t(k)
nσ , s pouzdanošću ovisnom o t(k).
Centralni granični teorem (CGT) n
XU
σµ−
=
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 24/56
11. Intervalne procjene
Iz tvrdnje CGT-a slijede formule za Intervalne procjene očekivanja µ (za velike n, n>30):
X :N( µ, σ2/n ) P( x - 1.65nσ
< µ < x + 1.65nσ
) = 90%
P( x - 1.96nσ
< µ < x + 1.96nσ
) = 95%
P( x - 2.58nσ
< µ < x + 2.58nσ
) = 99%
Primjer:
Naka je X je normalno distribuirana sl. varijabla (kraće ćemo reći normalna distribucija). Naka su parametri od X očekivanje 34 i standardna devijacija 4. To zapisujemo X:N(34, 42). Kolika je vjerojatnost da slučajno izvučen primjer iz te distribucije poprimi vrijednost veću od 30? P(X > 30) = P(U > (30 – 34)/4) ) = P(U > -1) = (očitavamo iz stat. tablica) = 0.841 Ako sada izvlačimo uzorak od 16 elemenata iz zadane distribucije X: N(34, 42) i računamo srednju vrijednost, kolika je vjerojatnost da srednja vrijednost izračunata iz tog uzorka bude veća od 30? Prema CGT, X je distribuirano s očekivanjem 34 i standardnom devijacijom SE = 164 = 1, dakle P( X > 30) =(standardizacija)=P(U > (30 – 34)/1) ) = P( U > -4) = 1.
-7.5 -5 -2.5 2.5 5 7.5
0.1
0.2
0.3
0.4
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 25/56
12. Binomna distribucija
Slučajni pokus: dva moguća ishoda, A i nonA. Vjerojatnost događaja A, P(A) = π i vjerojatnost da se ne desi A, P(non A) = 1 - π. Primjer: Promatramo jedan proizvod: proizvod je ispravan s vjerojatnošću π. Mogući događaji: A = proizvod je ispravan, P(A) = π non A = proizvod je neispravan, P(non A) = 1 - π. Pretpostavimo da imamo nizove od n takvih nezavisnih pokusa (Bernoullijevi nizovi). Kolika je vjerojatnost da će se događaj A pojaviti točno x puta u tom nizu? Primjer: Uzorak od n proizvoda, kolika je vjerojatnost da točno x od n proizvoda ( 0 ≤ x ≤ n ) bude ispravno? Binomna slučajna varijabla s parametrima n i π. Kolika je vjerojatnost da će se događaj A pojaviti točno x puta u tom nizu? tj. Kolika je vjerojatnost da slučajna varijabla X poprimi vrijednost x?
P(X = x) = ( ) xnxxn −−⎟⎟⎠
⎞⎜⎜⎝
⎛ππ 1 (1)
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 26/56
Kolika je vjerojatnost da će se događaj A pojaviti između x1 i x2 puta u tom nizu od n pokusa?
P(x1 ≤ X ≤ x2) = ( )in
xi
ix
in −
=
−⎟⎟⎠
⎞⎜⎜⎝
⎛∑ ππ 1 2
1
. (2)
Očekivanje binomne slučajne varijable X je E(X) = nπ Varijanca binomne slučajne varijable V(X) = σ2 = nπ(1-π)
Primjer: n = 15, π = 0.2 x = 4 P(X = 4) = 0.188
Primjer: Da li je povoljno kladiti se da će u 24 uzastopna bacanja igraće kocke barem jednom pasti dvostruka šestica?
Primjer: N = 300, π = 0.2, P( 100 > X > 50) = ?
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 27/56
Aproksimacija binomne normalnom (Moivre-Laplaceova formula)
( )( ) ( ) ⎟
⎟⎠
⎞⎜⎜⎝
⎛
ππ−π−
≤≤ππ−π−
≈≤≤11
2121 n
nxU
nnx
PxXxP .
Uz uvjet nπ > 5 i nπ(1-π) > 5. Proporcija X binomna slučajna varijabla s parametrima n i π, tj. X:B(π, n) Proporcija je omjer P = X/n.
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 28/56
Promatramo nizove od n elemenata. Zanima nas broj elemenata u tom nizu od n koji imaju neko svojstvo A. Označimo taj broj s x.
(Bernoullijevi nizovi) Proporcija P je omjer P = X/n Primjer.
Neka je dana neka hipoteza h.
Pretpostavimo da imamo uzorak sastavljen 14 elemenata tj. primjera za učenje. Ako 8 od 14 primjera zadovoljava hipotezu h tada je proporcija uspjeha hipoteze h na tom skupu (uzorku) jednaka p1 = x/n = 8/14.
Uzmimo neki drugi uzorak tj. skup primjera za učenje i neka je na tom skupu proporcija valjanosti hipoteza p2 = 5/14. Neka je dan neki treći skup primjera za učenje iste veličine i neka je na njemu p3 = 7/14. . Ako nastavimo s tim postupkom u ∞ dobivamo → distribuciju uzorkovanja proporcije koju označavamo s P.
(Posljedica Moivre -Laplaceovog teorema - CGT) Distribucija uzorkovanja proporcije za velike n približava se normalnoj distribuciji s
Očekivanjem π i
Standardnom devijacijom σP = n
)1( π−π.
Distribucija uzorkovanja proporcije.
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 29/56
13. Intervalne procjene proporcije
Parametar populacije = statistika_uzorka ± pogreška Primjeri: π = p ± pogreška, µ = x ± pogreška. Na temelju poznate distribucije uzorkovanja proporcije izvode se intervalne procjene proporcije.
P( p - 2.58n
)1( π−π < π < p + 2.58
n)1( π−π) = 99%
P( p – 1.96n
)1( π−π < π < p + 1.96
n)1( π−π) = 95%
Primjer: Jedan strijelac je pogodio 5 puta u metu od 10 pokušaja. Drugi strijelac je pogodio 50 puta u metu od 100 pokušaja. Što možemo reći o pravoj proporciji pogodaka jednog i drugog strijelca.
P( 0.5 – 1.9610
)5.01(5.0 − < π < 0.5 + 1.96
10)5.01(5.0 −) = 95%
P( 0.5 – 1.96100
)5.01(5.0 − < π < 0.5 + 1.96
100)5.01(5.0 −) = 95%
Prvi strijelac: P( 0.5 – 1.96*0.158 < π < 0.5 + 1.96*0.158) = 95% P( 0.5 – 0.31 < π < 0.5 + 0.31) = 95% P( 0.19 < π < 0.81) = 95% Drugi strijelac: P( 0.5 – 1.96*0.05 < π < 0.5 + 1.96*0.05) = 95% P( 0.5 – 0.098 < π < 0.5 + 0.098) = 95% P( 0.402 < π < 0.598) = 95%
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 30/56
14. Testiranje hipoteza
1. direktno statističko zaključivanje (inferencijalno): točkovne ili intervalne procjene - uzorak koristimo za procjenu parametra populacije. 2. indirektno: testiranje hipoteza Uzorak podržava ili diskreditira a priori postavljenu tvrdnju ili pretpostavku o stvarnoj vrijednosti parametra populacije Hipoteza o populacionom parametru proizlazi iz • prethodnih ispitivanja • teoretskih pretpostavki. Ako postupkom testiranja nađemo da je H0 neprihvatljiva s aspekta vjerojatnosti, tada prihvaćamo (vjerujemo) u alternativnu hipotezu. Isto kao što ne možemo naći 100% interval pouzdanosti tako ni testiranje ne daje 100% sigurnost u ispravnost odluke već su pouzdanosti s kojim radimo 90, 95, 99%. Naime, u postupku testiranja unaprijed zadajemo (i time kontroliramo) pogrešku (tj. rizik s kojim radimo statistički test) a to je vjerojatnost odbacivanja istinite hipoteze. Ta se vjerojatnost naziva nivo signifikantnosti (nivo značajnosti) ili pogreška prvog reda i označava se s α.
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 31/56
Postupak: Postavljaju se dvije međusobno isključive hipoteze koje zajednički iscrpljuju sve mogućnosti:
ili
U zadnja dva slučaja moramo biti sigurni da θ > a, θ < a, nije moguće !!!
Postavljanje hipoteza dešava se na logičkoj razini, tj. vezano je za problem poznavanja područja problema. Prihvaćanje hipoteze tj. vjerovanje u određenu hipotezu je stvar statističke odluke.
dvostrani test
jednostrani
testovi
H0 θ = a H1 θ < a
ili H0 θ = a H1 θ > a
H0 θ = a H1 θ ≠ a
jednostrani test dvostrani test
Površina odgovara vjerojatnosti α, tj. nivou signifikantnosti testa
Površine zajedno odgovaraju vjerojatnosti α, tj. nivou signifikantnosti testa
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 32/56
Primjer:
H0 µ = 20 H1 µ ≠ 20
Uzorak od 100 elemenata dao je a) x = 19.1 b) x = 19.9 c) x = 16. Pretpostavimo da znamo da je st.dev. populacije σ = 3. Pitanje je da li je moguće, tj. koliko je vjerojatno da dobijemo srednju vrijednost uzorka x = 19.1 ako je µ = 20. Ako je ta vjerojatnost mala onda smo skloni ne vjerovati u pretpostavku iz nulte hipoteze. Pitanje je koliko je to “malo vjerojatno” ? Obično je to 1% ili 5% i naziva se nivo značajnosti (signifikantnosti) i označava se s α. α je vjerojatnost odbacivanja istinite hipoteze! Rizik testiranja koji se određuje unaprijed! a) x = 19.1, odaberemo α = 0.05 tj. 5%. Radimo dvostrani U - test.
U = n
Xσ
µ− =100
3201.19 − = - 3
Vjerojatnost da je P (U < - 3) je praktički jednaka 0 (pa onda i 2*P (U < - 3)≈0, jer radimo dvostrani test pa gledamo površine u oba repa), tj. ta je vjerojatnost puno manja od 0.05 (koliki je nivo signifikantnosti testa) pa odbacujemo nultu hipotezu. Interpretacija: Vjerojatnost da na temelju uzorka od 100 elemenata dobijemo srednju vrijednost 19.1, ako je prava vrijednost 20, je praktički nula pa smo stoga skloni NE vjerovati u nultu hipotezu tj. odbacujemo je. b) x = 19.9, odaberemo α = 0.05 tj. 5%. Radimo dvostrani U - test.
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 33/56
U = n
Xσ
µ− =100
3209.19 − = - 0.33
Iz statističkih tablica slijedi da je vjerojatnost 2*P (U < - 0.33) = 2*0.37 = 0.74 što je puno veće od α = 0.05 (koliki je nivo signifikantnosti testa) => prihvaćamo nultu hipotezu. Interpretacija: Nemamo razloga, na temelju predočenog uzorka (uzorak od 100 elemenata čija je srednja vrijednost x =19.9), sumnjati u istinitost nulte hipoteze! Vjerojatnost da dobijemo srednju vrijednost uzorka (po apsolutnoj vrijednosti jednaku ili veću od) x = 19.1 je 0.74, ako je stvarna srednja vrijednost populacije 20. To je puno veća vjerojatnost od 0.05 što je granična vjerojatnost s kojom radimo testiranje. Mogli bi reći da uzorak podržava tvrdnju iz nulte hipoteze s vjerojatnošću 0.74.
-0.33
Površina 0.37
Dvostrani test: ukupna provršina (vjerojatnost) 2*P (U < - 0.33) 2*0.37 = 0.74
Površina = 0.37
Površina = 0.37
0.33
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 34/56
15. Pogreške prvog i drugog reda
Prilikom testiranja možemo učiniti dva tipa pogrešaka. Greške I i II reda. Usporedba postupka statističkog testiranja i pravosudnog postupka: H0 Osumnjičeni je nevin H1 Osumnjičeni je kriv
Stvarno stanje Stvarno stanje Odluka suda Nevin Kriv
Zaključak
H0 je istina H0 je laž Nevin √
pogreškaH0 prihvaćamo
√ β (greška II reda)
Kriv pogreška
√ H0 odbacujemo
α (greška I reda)
√
Pogreška I reda ili α je pogreška koju uvijek možemo kontrolirati prilikom statističkog zaključivanja. Ona se zadaje unaprijed, a hipoteze se formuliraju tako da ona pogreška koja nam je važnija bude pogreška prvog reda α. Na primjer, u pravosudnom postupku možemo učiniti dvije pogreške, da nevinog čovjeka osudimo ili da krivog oslobodimo. Možemo se odlučiti da je važnije kontrolirati vjerojatnost pogreške da nevinog čovjeka osudimo. Formuliramo hipoteze:
H0 Osumnjičeni je nevin i H1 Osumnjičeni je kriv.
Pogreška prvog reda ili α je vjerojatnost odbacivanja hipoteze H0 kada je ona zapravo istinita, tj. u ovom slučaju vjerojatnost da nevinog čovjeka proglasimo krivim. Kada bi obrnuli hipoteze i stavili H0 Osumnjičeni je kriv, tada bi zadavali unaprijed i time kontrolirali pogrešku da krivog čovjeka oslobodimo. Pogreška II reda ili β Vjerojatnost prihvaćanja hipoteze H0 kada je H1 istina (dakle H0 je laž)! U našem primjeru postavljenih hipoteza:
H0 Osumnjičeni je nevin
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 35/56
H1 Osumnjičeni je kriv to je slučaj kada je osumnjičeni zaista kriv no mi ga proglasimo nevinim. β ovisi o: • pravoj vrijednosti parametra o kojem raspravljamo (alternativna
hipoteza), β pada kada je veća razlika između pretpostavljene i prave vrijednosti parametra koji se testira (distribucije su razdijeljene)
• pogrešci α, tj. β raste kada α pada i obrnuto, te jednostranom ili dvostranom testu, β
• standardnoj devijaciji populacije, β se povećava što je st.dev. populacije veća
• veličini uzorka, β se smanjuje kada veličina uzorka raste. zadnja dva parametra određuju standardnu pogrešku SE.
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 36/56
16. Primjer: testiranje proporcija
1. Formuliranje statističke hipoteze
H0 π = 0.005 H1 π < 0.005
(jednostrani, lijevi test – područje odbacivanja hipoteze je na lijevo)
2. Odredi statistiku za testiranje : proporcija P
Znamo da vrijedi U =
npp
P)1( −
π−
3. Odaberi nivo značajnosti testa tj. pogrešku prvog reda α, neka je α = 5% i pripadnu kritičnu vrijednost očitaj iz tablica. Za odabrani nivo značajnosti i jednostrani test ukrit=-1.64
4. Uzmi slučajan uzorak n=2000 i izračunaj vrijednost
statistike P na njemu, tj. p=3/2000=0.0015
26.2
2000)005.01(005.0
005.00015.0−=
−−
=u
5. Donesi odluku: Ako je izračunata vrijednost statistike u < ukrit odbaci nultu hipotezu. Kako je –2.26 < -1.64 H0 odbacujemo!
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 37/56
Područje odbacivanja H0
Područje prihvaćanja H0
-1.64 0.0 -2.26
-3 -2 -1 1 2 3
0.1
0.2
0.3
0.4
Površina α=5%
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 38/56
χ2 test
Neparametarski test Koristi se za dvije kategorije testova:
• Testiranje ponašanja po distribuciji ( engl. goodness of fit )
• Testiranje nezavisnosti klasifikacija: kontigencijske tablice (engl. contigency tables)
H0 dvije kvalitativne populacijske varijable su nezavisne RxS tablice
χ2 = Σ (fobs- fizracunata)2 / fizracunata
PUŠ AĆ I NEPUŠ AĆ I total
MUŠ KARCI 110 90 200
Ž ENE 104 96 200
total 214 186 400
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 39/56
Teorijske frekvencije
PUŠAĆI NEPUŠAĆI total
MUŠKARCI 107= (214*200/400)
93 200
ŽENE 107 93 200
total 214 186 400
χ2 = (110-107)2/107 + (104-107)2/107 +(90-93)/93 +(96-93)/93 = 0.084 + 0.084 + 0.097 + 0.097 = 0.362
koristiti statističke tablice ili program
Broj stupnjeva slobode = (R-1)(S-1)
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 40/56
ANOVA
(ANALIZA VARIJANCE) R.A. Fisher (1890. – 1962.) “Fisher was a genius who almost single-handedly created the foundations for modern statistical science ….” Anders Hald A History of Mathematical Statistics (1998)
Svrha:
• Nalaženje faktora koji najviše utječu na model (primjer regresija)
• Reducira se na testiranje razlike između srednjih vrijednosti više uzoraka.
• U principu uzorci nisu nezavisni i dobiveni su dizajnom eksperimenta (kada se kontrolira vrijednost faktora)
2 populacije ANOVA → t-test Zašto se ne testira nizom t-testova? 1. broj testova n(n-1)/2 2. nivo značajnosti se automatski povećava:
α=0.01 za pojedinačni test, vjerojatnost izbjegavanja pogreške je 0.99 pa je vjerojatnost izbjegavanja pogreške α jest (1-α)k za k testova. Vjerojatnost α u k testova je 1-(1-α)k što je za k*10 iznosi 0.364
3. Individualni testovi nisu nezavisni jedan od drugog 4. Individualni testovi mogu proizvesti kontradiktoran
rezultat (sve su srednje vrijednosti jednake, jedan test odbacuje hipotezu)
Testiranje x pomoću usporedbom varijanci!
Varijanca je suma kvadrata devijacija podataka od njihove srednje vrijednosti SS (sum of squares) podijeljena s (n-1).
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 41/56
VARIJANCA MOŽE BITI PARTICIONIRANA!
TOTALNA VARIJABILNOST SSTOTAL = VARIJABILNOST UNUTAR GRUPA SSERROR (ILI RESIDUAL) +
VARIJABILNOST IZMEĐU GRUPA SS(EFFECT)
Particioniranje varijance:
Grupa 1 Grupa 2
O 1 3 6 O 2 2 7 O 3 1 5
x 2 6 SS 2 2
Ukupna x 4 Total SS 28
Uoči: SS koji se temelji na varijabilnosti unutar grupa (2) je znatno manje nego ukupana varijabilnost (28). Razlog te razlike leži u različitosti srednjih vrijednosti grupa! ERROR variance (due to random error),
SS (unutar grupa) = 2 + 2 = 4 SS Effect, SS(zbog varijabilnosti sred.vr.) = 28 – (2+2) = 24 TOTALNA
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 42/56
Mnoge stat. procedure koriste omjer ostvarijabiln aNebjašnjenostvarijabiln Objašnjena
Error
Effect
MSError SquareMean MSEffect SquareMean
tj. grupa unutar ostVarijabilngrupaizmedju ostVarijabiln
H0 nema razlike između grupa
Čak i kada vrijedi H0 očekujemo manje razlike u očekivanjima između grupa, ali procijenjene varijance
između grupa i unutar grupa trebaju biti jednake.
F test – da li se omjer varijanci bitno razlikuje od 1.
• n broj elemenata, k broj grupa (uzoraka) • i indeks podatka u uzorku(grupi) • j je indeks grupe
F (n-k, k-1) VAŽNO: pretpostavke ANOVE:
• Podaci su normalno distribuirani • Varijance uzoraka su jednake
Testiranje jednakosti varijanci: Barlett, Cochran
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 43/56
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 44/56
ANOVA I REGRESIJA ANOVA je moćni postupak za analizu kvalitete regresijskog modela. VARIJANCA unutar modela može se paticionirati, a zatim se ti dijelovi stavljaju u odnos tako otkrivajući činjenice o modelu! ANOVA služi i za provjeru modela (goodness (or lack) of fit)
TOTALNA VARIJABILNOST SSTOTAL = VARIJABILNOST REZIDUALA (POGREŠKE-ERROR)
SSRESIDUAL + VARIJABILNOST OBJAŠNJENA REG. MODELOM SSREG
∑∑∑ −+−=+=−= 222 )ˆ()ˆ()( yyyySSSSyySS iiiREGRESSIONERRORiTOTAL
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 45/56
VIŠESTRUKI REGRESIJSKI MODEL
(engl. Multiple Linear Regression)
Linearna regresija
ii bXaY +=ˆ
ii YY −ˆ jest rezidual ili pogreška koja nastaje kada predviđamo Y u zavisnosti od X.
Reziduali predstavljaju onaj dio varijabilnosti koji nije moguće objasniti modelom. Reziduali se moraju pažljivo provjeriti jer oni odražavaju ispunjavanje pretpostavki modela – najbolje grafički (posebno za male uzorke kada numerički postupci nisu odgovarajući)
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 46/56
(analiza reziduala - animacija linearna regresija - uvid u zadovoljavanje pretpostavki - grafički) Najbolji fit regresijske funkcije može se dobiti
minimiziranjem sume kvadrata pogreške ∑ −i
ii YY2)ˆ(min .
Da li se best fit može dobiti na drugi način ? Zašto baš min
SS?
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 47/56
Mjera korisnosti modela – koeficijent determinacije R2 (goodness of fit)
Mjeri proporciju varijance zavisne varijable oko njezine srednje vrijednosti koja je objašnjena prediktorskim varijablama.
0 < R2 < 1 Veći R znači veću snagu modela u objašnjavanju regresijske funkcije i dakle, bolju predikciju zavisne varijable. Osnovna ideja: izračunati redukciju pogreške predikcije kada je informacija koju osigurava nezavisna varijabla uključena u model.
∑∑∑ −+−=+=−= 222 )ˆ()ˆ()( yyyySSSSyySS iiiREGRESSIONERRORiTOTAL
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 48/56
1. Ako nema x u modelu, tj. nema doprinosa x-a predikciji y onda je najbolji pogodak srednja vrijednost y
2. Ako sada uključimo informacije s kojom x predviđa y, pogreška je reducirana. S obzirom da regresijska funkcija predstavlja najbolji
opis podataka (best fit) pogreška je
∑=
−=n
iiierror yySS
1
2)ˆ(
• R2 je relativno smanjenje pogreške kada je informacija o X uključena u model
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 49/56
TOT
ERRTOT
TOT
REG
SSSSSS
SSSSR −==2
• To je količina varijacije Y objašnjena s X.
• Za jednostavnu linearnu regresiju koeficijent
determinacije jest kvadrat korelacijskog koeficijenta između X i Y. (Pogledati animaciju RUVL kompozicija r2)
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 50/56
Pretpostavke za jednostavnu linearnu i multiplu regresiju:
• Odnos između x i y je linearan (uoči razliku između ne-linearne i krivolinijske asocijacije → može biti transformirana).
• Sve varijable su nezavisne, nema korelacije s bilo kojom trećom varijablom.
• Za svaki X, vrijednosti Y su distribuirani normalno • Za svaki X, Y distribucija ima istu varijancu. (homoscedastic
data). HOMOSCEDASTIC data – slučajna pogreška je normalno distribuirana
To se grafički provjerava crtanjem pogreške u odnosu na signal bez pogreške.
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 51/56
Vrlo često nije zadovoljeno posebno kada podaci pokrivaju široki rang. Inače se kaže da su podaci heteroscedatic – slučajna pogreška (rezidual) zavisi od jačine signala, veličine nezavisne varijable.
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 52/56
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 53/56
VIŠE NEZAVISNIH VARIJABLI (Francis Galton, 1886.)
y = a0 + a1 x1 + a2 x2 + …… + ak xk + ε
ε je ERROR ili RESIDUAL s očekivanjem 0.
• Jednadžba određuje hiperravninu u k-dim prostoru (k broj varijabli)
• a0, a1, ……an određeni tako da je suma kvadrata pogreške je minimalna
Neke napomene za interpretaciju:
• Za k = 1 jednostavna linearna regresija • F-ratio testira nultu hipotezu da su svi koeficijenti nezavisnih
varijabli 0 tj. H0 a0 = a1 = ……= an = 0
F(k, n-k-1) F se odnosi prema r2 (godness to of fit):
krknrF)1(
)1(2
2
−−−
=
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 54/56
• SSRES je procjena varijabilnosti duž regresijske linije i koristi se
za nalaženje procjenjene standardne pogreške pojedinih regresijskih koeficijenata ai. Procjena standardne pogreške je distribuirana kao t(n-k-1). Interval pouzdanosti je dan s +/- t(α/2, n-k-1)s(ai)
• Ako su dvije nezavisne varijable izrazito korelirane, teško je
procijeniti regresijske koeficijente i dobivene vrijednosti koeficijenata ne reflektiraju stvarne ovisnosti. (važno: outlieri mogu značajno utjecati na kolinearnost!)
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 55/56
RAČUNANJE JEDINSTVENE I DIJELJENE VARIJANCE IZMEĐU NEZAVISNIH VARIJABLI
Temelj za procjenu svih regresijskih odnosa je korelacija između nezavisne varijable i zavisnih varijabli. Korelacija je osnova za oblikovanje regresijske varijate procjenom regresijskih koeficijenata za za svaku nezavisnu varijablu koja maksimizira predviđanje zavisne varijable. Za slučaj Y = a X1 + a0 postotak objašnjene varijabilnosti zavisne varijable je kvadrat korelacije Za slučaj više nezavisnih varijabli potrebno je razmotriti postojanje korelacije između nezavisnih varijabli jer one dijele nešto prediktivne moći. Stoga se direktna korelacija zavisna i nezavisna varijable ne može uzeti u obzir. Parcijalni korelacijski koeficijent je korelacija Xi i Yi kada su utjecaji drugih nezavisnih varijabli uklonjeni. Semiparcijalni koeficijent se razlikuje od gornjeg jer predstavlja korelaciju Xi i Yi kada su efekti drugih nezivisnih varijabli uklonjeni samo iz Xi. Koristi se za identifikaciju varijable koje imaju najveću inkrementalnu prediktivnu moć. Kvadrat daje jedinstvenu varijancu obkešnjenu s nezavisnom varijablom.
Y1
X1 Y
Prof.dr.sc. Bojana Dalbelo Bašić FER
BILJEŠKE ZA PREDAVANJA (za internu uporabu)
Uvod u statističko zaključivanje 2005/2006
17.03.2004. 56/56
a b
c
d
X2 X1