of 56 /56
Prof.dr.sc. Bojana Dalbelo Bašić FER BILJEŠKE ZA PREDAVANJA (za internu uporabu) Uvod u statističko zaključivanje 2005/2006 17.03.2004. 1/56 Uvod u statističko zaključivanje 1. Statistika - Nazivlje ............................................................ 2 2. Statistika – podjela statističkih analiza ................................. 2 3. Objekti, varijable, mjerne skale ........................................... 3 4. Ekstremne i nedostajuće vrijednosti podaci .......................... 4 5. Ciljevi statističke analize ..................................................... 9 6. Deskriptivna statistika ........................................................ 9 7. Standardizacija ................................................................ 15 8. Čebiševljev teorem .......................................................... 15 9. Teorijske Distribucije........................................................ 16 10. Distribucija uzorkovanja srednje vrijednosti. ................... 22 11. Intervalne procjene ...................................................... 24 12. Binomna distribucija ..................................................... 25 13. Intervalne procjene proporcije ....................................... 29 14. Testiranje hipoteza ....................................................... 30 15. Pogreške prvog i drugog reda........................................ 34 16. Primjer: testiranje proporcija ......................................... 36

Uvod u statističko zaključivanje - zemris.fer.hr u statisticko zakljucivanje.pdf · nazive: biometrija, psihometrija, tehnometrija itd. Neka područja znanosti razvila su vlastito

  • Author
    others

  • View
    3

  • Download
    0

Embed Size (px)

Text of Uvod u statističko zaključivanje - zemris.fer.hr u statisticko zakljucivanje.pdf · nazive:...

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 1/56

    Uvod u statističko zaključivanje

    1. Statistika - Nazivlje ............................................................ 2

    2. Statistika – podjela statističkih analiza ................................. 2

    3. Objekti, varijable, mjerne skale........................................... 3

    4. Ekstremne i nedostajuće vrijednosti podaci.......................... 4

    5. Ciljevi statističke analize ..................................................... 9

    6. Deskriptivna statistika ........................................................ 9

    7. Standardizacija ................................................................ 15

    8. Čebiševljev teorem .......................................................... 15

    9. Teorijske Distribucije........................................................ 16

    10. Distribucija uzorkovanja srednje vrijednosti. ................... 22

    11. Intervalne procjene ...................................................... 24

    12. Binomna distribucija ..................................................... 25

    13. Intervalne procjene proporcije....................................... 29

    14. Testiranje hipoteza ....................................................... 30

    15. Pogreške prvog i drugog reda........................................ 34

    16. Primjer: testiranje proporcija ......................................... 36

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 2/56

    UVOD

    Data mining = dubinska analiza (inteligentna analiza podataka)

    = rudarenje podataka Većina metoda za dubinsku analizu podataka (engl. data mining) temelji se na multivarijatnoj statistici -> zahtijeva znanje temeljne statistike!

    1. Statistika - Nazivlje

    • riječ STATISTIKA (lat. status = stanje)

    Statistika - science of making sense out of data. Statistika primijenjena u raznim znanostima nosi različite nazive: biometrija, psihometrija, tehnometrija itd. Neka područja znanosti razvila su vlastito nazivlje – od tuda različita imena za iste metode! (Primjer: PCA = Karhunen-Loève transformacija; Z = U )

    2. Statistika – podjela statističkih analiza

    Prema načinima stvaranja zaključka

    • deskriptivna (numerički i grafički postupci, usporedba s EDA exploratory data analysis)

    • inferencijalna (intervalne procjene, testiranje hipoteza na temelju uzorka)

    KAKO ispravno generalizirati na temelju uzorka?

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 3/56

    Prema broju varijabli u analizi riječ VARIJABLA (engl. variable = variate = factor)

    • univarijatna • bivarijatna • multivarijatna

    (testiranje, eksplorativna statistika) Prema vrsti modela

    • parametarska • neparametarska

    Inferencijalno statističko zaključivanje temelji se na teoriji vjerojatnosti

    • Slučajni pokus, slučajni događaj • Slučajna varijabla

    (pridruživanje numeričke vrijednosti ishodu slučajnog pokusa)

    3. Objekti, varijable, mjerne skale

    • Objekti (entiteti, jedinice) • Varijable (= obilježja, značajke, atributi) Varijable s obzirom na ulogu u statističkoj analizi:

    • zavisne, kriterijske varijable (engl. target, dependent, criterion, response variable)

    • nezavisne, prediktorske varijable

    (engl. independent, predictior, controlled, regressor variable)

    (Primjer: kako spol, dob i obrazovanje utječu na prihode ili, kako prihodi, zaposlenost i posjedovanje nekretnina utječe na dodjelu kredita)

    SAS

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 4/56

    kvantitativne

    kvalitativne

    Varijable s obzirom na mjerne skale: • Mjerne skale:

    • nominalna (engl. nominal) • uređajna ( relacija < ) (engl. ordinal)

    [opservacije nisu ekvidistantne, primjer: skala tvrdoće]

    • intervalna (operacije + i -)

    [ekvidistantne opservacije, nema ishodišta, primjer °C, °F]

    • racionalna (operacije +, -, *, /) [primjer °K]

    Prve dvije skale još se zovu kategorijske (engl. categorical). Zadnje dvije još se zovu metrička skala. Alternativni par naziva: diskretne vs. kontinuirane.

    4. Ekstremne i nedostajuće vrijednosti podaci

    (engl. outliers and missing values) Statistical Computing Metode multivarijatne statističke metode razvijene prije nastanka računala. Masovna uporaba stat. metoda: GIGO efekt Pažnja: u svakom velikom skupu podatka ima pogrešaka. Ekstremne vrijednosti (engl. outliers) Podaci koji su nekonzistentni s većinom podataka. Kako odeđujemo outliere? Od kuda dolaze outlieri? Što učiniti s njima? Važno je znati: Ekstremne vrijednosti mogu značajno utjecati na rezultate analize!

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 5/56

    Porijeklo

    • Provjeriti jesu li pogreške u unosu ili mjerenju! Ispraviti ili podatke koje ne možemo ispraviti – ukloniti.

    • Priroda pojave.

    Određivanje • Posebne metode. Grafičke metode mogu pomoći! • Na temelju IQR-a: Q0.25-1.5IQR < x < Q0.75+1.5IQR • Na temelju teorema (Čebišev): ±4σ od srednje

    vrijednosti obuhvaća 94% podataka. Što učiniti?

    • Nema jedinstvenog recepta! • Potrebno iskustvo eksperta.

    Da li nas takvi podaci vode prema istini? DA - tada uključiti u analizu. NE - ukloniti podatke. Opisati u izvještaju – stručnjaci s drugačijim mišljenjem mogu raditi alternativne analize.

    Nedostajuće vrijednosti

    • nadomještanje s nulom ili nekom konstantom • nadomještanje sa srednjom vrijednošću (pažnja može

    kreirati outliere !) za metričke podatke ili s najčešće pojavljivanim atributom za nemetričke podatke

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 6/56

    • uklanjanje podataka (redaka) s nedostajućim vrijednostima (nije zadovoljavajuće ali je najsigurnije) Primjer: 2000 podataka od toga 1300 sa nedostajućim vrijednostima! Razmotriti strategiju uzorkovanja! Zašto potrošiti resurse za sakupljanje nepotpunih podataka koji će biti odbačeni.

    • Nadomještanje s najčešće pojavljivanom vrijednošću u

    klasi

    • Regresija

    • EM algoritam (engl. Expectation Maximization)

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 7/56

    Populacija, uzorak, uzorkovanje Populacija – skup svih mogućih vrijednosti nekog opažanja ili mjerenja - ne objekata! (matematički: vrijednosti slučajne varijable). (broj elemenata N) Uzorak – podskup populacije (konačna ili beskonačna). Populacija je opisana parametrima. na populaciju i označava se malim grčkim slovima (µ, σ, π itd). Statistika (ili procjenitelj) - procjena nekog parametra populacije na temelju uzorka

    parametar statistika srednja vrijednost

    µ x standardna devijacija

    σ s

    varijanca σ2 s2 proporcija π p

    Često nam vrijednosti parametra populacija nisu dostupne te ih procjenjujemo na temelju uzorka. (broj elemenata n)

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 8/56

    Postupak uzimanja uzorka je uzorkovanje 1. s vraćanjem ili 2. bez vraćanja

    Slučajni uzorak je reprezentativni uzorak. Nalaženje reprezentativnog uzorka može biti zahtjevno, i zato često pristrano! (Primjer: telefonska anketa) Uzimanje (slučajnog) reprezentativnog uzorka:

    1. Numerirati objekte 2. Generirati onoliko slučajnih brojeva koliki je uzorak

    (tablica ili generator slučajnih brojeva) 3. Uzeti one objekte koji odgovaraju tim brojevima

    Stratificiran uzorak (engl. stratified random sample) Uzorak dobiven podjelom populacije na nepreklapajuće dijelove, (engl. strata) i uzimanje slučajnog uzorka iz svakog dijela.

    • važna metoda kada je jedna od ciljnih klasa vrlo mala u odnosu na populaciju

    Napomena: još se često koristi termin particija skupa za podjelu skupa na nepreklapajuće dijelove.

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 9/56

    DESKRIPTIVNA I INFERENCIJALNA STATISTIKA

    5. Ciljevi statističke analize

    6. Deskriptivna statistika

    Mjere centralne tendencije:

    • aritmetička sredina (engl. mean) • medijan • mod • geometrijska sredina • harmonijska sredina

    skupljanje podataka

    manipulacija podacima interpretacija

    • redukcija podataka • alat za inferencijalno

    zaključivanje • identifikacija relacija ili

    asocijacija (grupiranja) među podacima

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 10/56

    Mjere rasipanja

    • varijanca (srednje kvadratno odstupanje) • standardna devijacija • rang (max-min) • interkvartilni rang

    Koliko podataka sadrži IQR?

    • srednje apsolutno odstupanje • koeficijent varijacije

    (s/x, bez dimenzije - usporedba disperzije raznorodnih nizova)

    • GINI

    ∑<

    ⎟⎟⎠

    ⎞⎜⎜⎝

    ⎛ jiji yyn

    2

    1

    • MAD (Median Absolute Deviation) MAD = medi |yi – medj(yj)|

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 11/56

    Mjere zakrivljenosti i spljoštenosti

    • Zakrivljenost (engl. skewness) pozitivna nula negativna

    • Spljoštenost (engl. kustosis) negativna pozitivna

    Normalna distribucija ima oba parametra 0. Distribucije frekvencija

    • relativne • kumulativne

    teorijski model

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 12/56

    Grafički prikazi empirijskih distribucija :

    • histogrami

    Histogram (Irisdat.sta 5v*150c)SEPALLEN = 150*0,5*normal(x; 5,8433; 0,8281)

    3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5

    SEPALLEN

    0

    5

    10

    15

    20

    25

    30

    35

    40

    No

    of o

    bs

    • poligoni • box and whisker plot

    Box Plot (Irisdat.sta 5v*150c)

    Median 25%-75% Non-Outlier Range OutliersSETOSA VERSICOL VIRGINIC

    IRISTYPE

    4,0

    4,5

    5,0

    5,5

    6,0

    6,5

    7,0

    7,5

    8,0

    8,5

    SEPA

    LLEN

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 13/56

    • stem and leaf plot

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 14/56

    Provjera normalnosti podataka: grafički prikazi (najčešće histrogrami)+ testovi (Shapiro-Wilk, Kolmogorov-Smirnov). Prikaz multivarijatnih podataka – Chernoff faces

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 15/56

    7. Standardizacija

    Omogućava određivanje relativnog položaja nekog podatka (u ekonomiji z-skor) i time usporedbu podataka različitih obilježja:

    sxxu −=

    Standardizirane vrijednosti varijable pokazuju relativan položaj neke vrijednosti u nizu, one ne ovise o mjernim jedinicama pa služe za usporedbu raznorodnih nizova.

    8. Čebiševljev teorem

    Za bilo koju distribuciju vrijedi da se u intervalu

    x ± kσ, k>1 nalazi se najmanje (1-1/k2)% podataka. Primjer

    Za k= 2 izračunamo da je barem 75% podataka unutar intervala x ± 2s.

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 16/56

    Za podatke distribuirane po normalnoj distribuciji vrijedi:

    U intervalu x ± s nalazi se približno 68% podataka, U intervalu x ± 2s nalazi se približno 95% podataka, U intervalu x ± 3s nalazi se približno 99% podataka.

    9. Teorijske Distribucije

    Najvažnije su:

    • binomna • normalna

    • t –distribucija (Gosset)

    • χ2

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 17/56

    • F distribucija (Fisher)

    To su distribucije uzorkovanja (opisane matematički) koje nastaju ponovljenim uzorkovanjima i izračunom statistike (procjenitelja) iz uzorka. (simulacija) Normalna distribucija*

    -3 -2 -1 1 2 3

    0.1

    0.2

    0.3

    0.4

    * Uobičajena oznaka za normalnu distribuciju s parametrima: očekivanjem µ i varijancom σ2 je N(µ, σ2).

    Normalna distribucija s očekivanjem µ = 0 i standardnom devijacijom σ = 1. X : N(0,1) - Označavamo je s U ili Z. Vrijednosti vjerojatnosti tj. površina ispod krivulje U dani su u statističkim tablicama.

    2

    21

    21)(

    ⎟⎠⎞

    ⎜⎝⎛ −−

    = σµ

    πσ

    x

    exf

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 18/56

    Velika većina obilježja u prirodi distribuirana je prema normalnoj razdiobi. Iz tablica za jediničnu normalnu distribuciju U očitavamo: P( -1.65 < U < 1.65) = 90% P( -1.96 < U < 1.96) = 95% P( -2.58 < U < 2.58) = 99%

    Neka je X normalno distribuirana, tj. X: N(µ, σ2). Vrijedi transformacija: STANDARDIZACIJA najvažnija transformacija podataka

    - svođenje X: N(µ, σ2) na U sa transformacijom σµ−

    =X

    U .

    X:N( µ, σ2 ) P( µ - 1.65σ < X < µ + 1.65σ) = 90%

    P( µ - 1.96σ < X < µ + 1.96σ) = 95% P( µ - 2.58σ < X < µ + 2.58σ) = 99%

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 19/56

    INFERENCIJALNA STATISTIKA

    Populacija uzorak, parametar, statistika (procjenitelj)

    Populacija – skup svih mogućih vrijednosti opažanja ili mjerenja, ne objekata ili (matematički: vrijednosti slučajne varijable). (broj elemenata N) Uzorak – podskup populacije (konačna ili beskonačna).

    - uzorkovanje (s vraćanjem ili bez) - slučajni uzorak (svaki element populacije

    ima istu vjerojatnost biti izabran!) (broj elemenata n)

    Parametar je bilo koja funkcija populacije, neko svojstvo populacije koje nas zanima, npr. srednja vrijednost, standardna devijacija, proporcija, itd. Parametar se odnosi na populaciju i označava se malim grčkim slovima (µ, σ, π itd). Često nam vrijednosti parametra populacija nisu dostupne te ih procjenjujemo na temelju uzorka. Procjena nekog parametra populacije na temelju uzorka naziva se statistika (ili procjenitelj) i označava se malim slovima ( x , s, p,…). Općenito je vrijednost statistike i nepoznatog parametra populacije dana s izrazom:

    populacija

    uzorak

    smjer zaključivanja

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 20/56

    Ono što želimo znati je s kojom točnošću (preciznošću) i s kojom pouzdanošću (vjerojatnosti), neka statistika procjenjuje parametar populacije. Primjer: µ = x ± pogreška Parametar (µ, π, σ2) → svojstvo populacije Statistika ( x , p, s2) → funkcija uzorka - za svaki novi uzorak izvučen iz iste populacije (istog osnovnog skupa) možemo dobiti različitu vrijednost statistike. (animacija) Ali, ako znamo kako je statistika uzorka distribuirana – tj. ako znamo kako je distribuirana vrijednost statistike ( x ) na temelju beskonačno mnogo uzoraka iste veličine izvučenih iz te populacije (to je distribucija vjerojatnosti statistike uzorka)

    nepoznato

    Parametar_populacije = Statistika ± pogreška

    populacija

    uzorak →

    → PARAMETAR

    STATISTIKA

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 21/56

    Ako znamo distribuciju uzorkovanja tada uz pomoć vjerojatnosti možemo procijeniti s kojom pouzdanošću se parametar populacije nalazi u određenim granicama. Dakle, možemo odrediti granice oko x u kojima se nalazi parametar µ i pridruženu vjerojatnost za takvo odstupanje. (µ = x ± pogreška, uz određenu vjerojatnost, tj. pouzdanost). Poznavanje distribucije uzorkovanja neke statistike temelj je za inferencijalno statističko zaključivanje (intervale procjene parametara populacije, testiranje hipoteza). Svaki parametar populacije (srednja vrijednost µ, proporcija π, varijanca σ2, …) ima svoju distribuciju uzorkovanja. Važno svojstvo distribucije vjerojatnosti statistike su njezino očekivanje i standardna devijacija. Ta se standardna devijacija distribucije neke statistike naziva STANDARDNA POGREŠKA (SE). Od posebnog je značenja distribucija uzorkovanja srednje vrijednosti.

    Ta se distribucija vjerojatnosti statistike uzorka naziva se DISTRIBUCIJA UZORKOVANJA

    (engl. sampling distribution)

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 22/56

    10. Distribucija uzorkovanja srednje vrijednosti

    CENTRALNI GRANIČNI TEOREM

    (pogledati tekst i simulacije na adresi http://www.ruf.rice.edu/~lane/rvls.html, posebno za ilustraciju CGT pogledati animirani primjer na adresi http://www.ruf.rice.edu/~lane/stat_sim/sampling_dist/index.html)

    Standardna pogreška (engl. standard error) nekog parametra je sandardna devijacija distribucije uzorkovanja tog parametra. Ponekad se označava sa SE. Primjer: Standardna pogreška distribucije uzorkovanja

    srednje vrijednosti je n

    SE XXσ

    =σ= , gdje je X slučajna

    varijabla osnovnog skupa (na primjer: visine populacije studenata Zagrebačkog Sveučilišta, težine proizvoda koje proizvede neka tvornica, itd.). Često se umjesto σX piše samo σ. Prije smo napomenuli da je

    Parametar = Statistika ± pogreška.

    Neka je dana populacija sa srednjom vrijednošću µ i standardnom devijacijom σ. Neka je x srednja vrijednost od n slučajno odabranih nezavisnih opservacija iz te populacije. Distribucija uzorkovanja srednje vrijednosti približava se normalnoj sa očekivanjem µ i standardnom devijacijom

    nσ , kada n→∞

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 23/56

    Ako za statistiku koja nas zanima odaberemo srednju vrijednost tada je

    µ = x ± pogreška.

    No sada, na temelju centralnog graničnog teorema koji nam kaže da su srednje vrijednosti uzoraka veličine n također distribuirane normalno sa standardnom pogreškom SE =

    nσ , možemo pisati:

    µ = x ± up n

    σ , sa pouzdanošću I(up),

    gdje je u0 vrijednost jedinične normalne razdiobe, a I(up)

    pripadna pouzdanost (vjerojatnost). Te se vrijednosti očitavaju u statističkim tablicama.

    up 1.64 1.96 2.58 pouzdanost I(up) 90% 95% 99% Intervalna procjena očekivanja (za velike uzorke, n≥30)

    µ = x ± up nσ , sa pouzdanošću I(up),

    dok je za male uzorke umjesto vrijednosti up jedinične normalne distribucije vrijednost studentove t-distribucije koja se očitava iz statističkih tablica za zadani broj stupnjeva slobode k, gdje je k=n-1, a n je broj elemenata u uzorku.

    µ = x ± t(k)

    nσ , s pouzdanošću ovisnom o t(k).

    Centralni granični teorem (CGT) n

    XU

    σµ−

    =

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 24/56

    11. Intervalne procjene

    Iz tvrdnje CGT-a slijede formule za Intervalne procjene očekivanja µ (za velike n, n>30):

    X :N( µ, σ2/n ) P( x - 1.65nσ

    < µ < x + 1.65nσ

    ) = 90%

    P( x - 1.96nσ

    < µ < x + 1.96nσ

    ) = 95%

    P( x - 2.58nσ

    < µ < x + 2.58nσ

    ) = 99%

    Primjer:

    Naka je X je normalno distribuirana sl. varijabla (kraće ćemo reći normalna distribucija). Naka su parametri od X očekivanje 34 i standardna devijacija 4. To zapisujemo X:N(34, 42). Kolika je vjerojatnost da slučajno izvučen primjer iz te distribucije poprimi vrijednost veću od 30? P(X > 30) = P(U > (30 – 34)/4) ) = P(U > -1) = (očitavamo iz stat. tablica) = 0.841 Ako sada izvlačimo uzorak od 16 elemenata iz zadane distribucije X: N(34, 42) i računamo srednju vrijednost, kolika je vjerojatnost da srednja vrijednost izračunata iz tog uzorka bude veća od 30? Prema CGT, X je distribuirano s očekivanjem 34 i standardnom devijacijom SE = 164 = 1, dakle P( X > 30) =(standardizacija)=P(U > (30 – 34)/1) ) = P( U > -4) = 1.

    -7.5 -5 -2.5 2.5 5 7.5

    0.1

    0.2

    0.3

    0.4

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 25/56

    12. Binomna distribucija

    Slučajni pokus: dva moguća ishoda, A i nonA. Vjerojatnost događaja A, P(A) = π i vjerojatnost da se ne desi A, P(non A) = 1 - π. Primjer: Promatramo jedan proizvod: proizvod je ispravan s vjerojatnošću π. Mogući događaji: A = proizvod je ispravan, P(A) = π non A = proizvod je neispravan, P(non A) = 1 - π. Pretpostavimo da imamo nizove od n takvih nezavisnih pokusa (Bernoullijevi nizovi). Kolika je vjerojatnost da će se događaj A pojaviti točno x puta u tom nizu? Primjer: Uzorak od n proizvoda, kolika je vjerojatnost da točno x od n proizvoda ( 0 ≤ x ≤ n ) bude ispravno? Binomna slučajna varijabla s parametrima n i π. Kolika je vjerojatnost da će se događaj A pojaviti točno x puta u tom nizu? tj. Kolika je vjerojatnost da slučajna varijabla X poprimi vrijednost x?

    P(X = x) = ( ) xnxxn −−⎟⎟⎠

    ⎞⎜⎜⎝

    ⎛ππ 1 (1)

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 26/56

    Kolika je vjerojatnost da će se događaj A pojaviti između x1 i x2 puta u tom nizu od n pokusa?

    P(x1 ≤ X ≤ x2) = ( )in

    xi

    ix

    in −

    =

    −⎟⎟⎠

    ⎞⎜⎜⎝

    ⎛∑ ππ 1 2

    1

    . (2)

    Očekivanje binomne slučajne varijable X je E(X) = nπ Varijanca binomne slučajne varijable V(X) = σ2 = nπ(1-π)

    Primjer: n = 15, π = 0.2 x = 4 P(X = 4) = 0.188

    Primjer: Da li je povoljno kladiti se da će u 24 uzastopna bacanja igraće kocke barem jednom pasti dvostruka šestica?

    Primjer: N = 300, π = 0.2, P( 100 > X > 50) = ?

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 27/56

    Aproksimacija binomne normalnom (Moivre-Laplaceova formula)

    ( )( ) ( ) ⎟

    ⎟⎠

    ⎞⎜⎜⎝

    ππ−π−

    ≤≤ππ−π−

    ≈≤≤11

    2121 n

    nxU

    nnx

    PxXxP .

    Uz uvjet nπ > 5 i nπ(1-π) > 5. Proporcija X binomna slučajna varijabla s parametrima n i π, tj. X:B(π, n) Proporcija je omjer P = X/n.

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 28/56

    Promatramo nizove od n elemenata. Zanima nas broj elemenata u tom nizu od n koji imaju neko svojstvo A. Označimo taj broj s x.

    (Bernoullijevi nizovi) Proporcija P je omjer P = X/n Primjer.

    Neka je dana neka hipoteza h.

    Pretpostavimo da imamo uzorak sastavljen 14 elemenata tj. primjera za učenje. Ako 8 od 14 primjera zadovoljava hipotezu h tada je proporcija uspjeha hipoteze h na tom skupu (uzorku) jednaka p1 = x/n = 8/14.

    Uzmimo neki drugi uzorak tj. skup primjera za učenje i neka je na tom skupu proporcija valjanosti hipoteza p2 = 5/14. Neka je dan neki treći skup primjera za učenje iste veličine i neka je na njemu p3 = 7/14. . Ako nastavimo s tim postupkom u ∞ dobivamo → distribuciju uzorkovanja proporcije koju označavamo s P.

    (Posljedica Moivre -Laplaceovog teorema - CGT) Distribucija uzorkovanja proporcije za velike n približava se normalnoj distribuciji s

    Očekivanjem π i

    Standardnom devijacijom σP = n

    )1( π−π.

    Distribucija uzorkovanja proporcije.

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 29/56

    13. Intervalne procjene proporcije

    Parametar populacije = statistika_uzorka ± pogreška Primjeri: π = p ± pogreška, µ = x ± pogreška. Na temelju poznate distribucije uzorkovanja proporcije izvode se intervalne procjene proporcije.

    P( p - 2.58n

    )1( π−π < π < p + 2.58

    n)1( π−π) = 99%

    P( p – 1.96n

    )1( π−π < π < p + 1.96

    n)1( π−π) = 95%

    Primjer: Jedan strijelac je pogodio 5 puta u metu od 10 pokušaja. Drugi strijelac je pogodio 50 puta u metu od 100 pokušaja. Što možemo reći o pravoj proporciji pogodaka jednog i drugog strijelca.

    P( 0.5 – 1.9610

    )5.01(5.0 − < π < 0.5 + 1.96

    10)5.01(5.0 −) = 95%

    P( 0.5 – 1.96100

    )5.01(5.0 − < π < 0.5 + 1.96

    100)5.01(5.0 −) = 95%

    Prvi strijelac: P( 0.5 – 1.96*0.158 < π < 0.5 + 1.96*0.158) = 95% P( 0.5 – 0.31 < π < 0.5 + 0.31) = 95% P( 0.19 < π < 0.81) = 95% Drugi strijelac: P( 0.5 – 1.96*0.05 < π < 0.5 + 1.96*0.05) = 95% P( 0.5 – 0.098 < π < 0.5 + 0.098) = 95% P( 0.402 < π < 0.598) = 95%

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 30/56

    14. Testiranje hipoteza

    1. direktno statističko zaključivanje (inferencijalno): točkovne ili intervalne procjene - uzorak koristimo za procjenu parametra populacije. 2. indirektno: testiranje hipoteza Uzorak podržava ili diskreditira a priori postavljenu tvrdnju ili pretpostavku o stvarnoj vrijednosti parametra populacije Hipoteza o populacionom parametru proizlazi iz • prethodnih ispitivanja • teoretskih pretpostavki. Ako postupkom testiranja nađemo da je H0 neprihvatljiva s aspekta vjerojatnosti, tada prihvaćamo (vjerujemo) u alternativnu hipotezu. Isto kao što ne možemo naći 100% interval pouzdanosti tako ni testiranje ne daje 100% sigurnost u ispravnost odluke već su pouzdanosti s kojim radimo 90, 95, 99%. Naime, u postupku testiranja unaprijed zadajemo (i time kontroliramo) pogrešku (tj. rizik s kojim radimo statistički test) a to je vjerojatnost odbacivanja istinite hipoteze. Ta se vjerojatnost naziva nivo signifikantnosti (nivo značajnosti) ili pogreška prvog reda i označava se s α.

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 31/56

    Postupak: Postavljaju se dvije međusobno isključive hipoteze koje zajednički iscrpljuju sve mogućnosti:

    ili

    U zadnja dva slučaja moramo biti sigurni da θ > a, θ < a, nije moguće !!!

    Postavljanje hipoteza dešava se na logičkoj razini, tj. vezano je za problem poznavanja područja problema. Prihvaćanje hipoteze tj. vjerovanje u određenu hipotezu je stvar statističke odluke.

    dvostrani test

    jednostrani

    testovi

    H0 θ = a H1 θ < a

    ili H0 θ = a H1 θ > a

    H0 θ = a H1 θ ≠ a

    jednostrani test dvostrani test

    Površina odgovara vjerojatnosti α, tj. nivou signifikantnosti testa

    Površine zajedno odgovaraju vjerojatnosti α, tj. nivou signifikantnosti testa

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 32/56

    Primjer:

    H0 µ = 20 H1 µ ≠ 20

    Uzorak od 100 elemenata dao je a) x = 19.1 b) x = 19.9 c) x = 16. Pretpostavimo da znamo da je st.dev. populacije σ = 3. Pitanje je da li je moguće, tj. koliko je vjerojatno da dobijemo srednju vrijednost uzorka x = 19.1 ako je µ = 20. Ako je ta vjerojatnost mala onda smo skloni ne vjerovati u pretpostavku iz nulte hipoteze. Pitanje je koliko je to “malo vjerojatno” ? Obično je to 1% ili 5% i naziva se nivo značajnosti (signifikantnosti) i označava se s α. α je vjerojatnost odbacivanja istinite hipoteze! Rizik testiranja koji se određuje unaprijed! a) x = 19.1, odaberemo α = 0.05 tj. 5%. Radimo dvostrani U - test.

    U = n

    µ− =100

    3201.19 − = - 3

    Vjerojatnost da je P (U < - 3) je praktički jednaka 0 (pa onda i 2*P (U < - 3)≈0, jer radimo dvostrani test pa gledamo površine u oba repa), tj. ta je vjerojatnost puno manja od 0.05 (koliki je nivo signifikantnosti testa) pa odbacujemo nultu hipotezu. Interpretacija: Vjerojatnost da na temelju uzorka od 100 elemenata dobijemo srednju vrijednost 19.1, ako je prava vrijednost 20, je praktički nula pa smo stoga skloni NE vjerovati u nultu hipotezu tj. odbacujemo je. b) x = 19.9, odaberemo α = 0.05 tj. 5%. Radimo dvostrani U - test.

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 33/56

    U = n

    µ− =100

    3209.19 − = - 0.33

    Iz statističkih tablica slijedi da je vjerojatnost 2*P (U < - 0.33) = 2*0.37 = 0.74 što je puno veće od α = 0.05 (koliki je nivo signifikantnosti testa) => prihvaćamo nultu hipotezu. Interpretacija: Nemamo razloga, na temelju predočenog uzorka (uzorak od 100 elemenata čija je srednja vrijednost x =19.9), sumnjati u istinitost nulte hipoteze! Vjerojatnost da dobijemo srednju vrijednost uzorka (po apsolutnoj vrijednosti jednaku ili veću od) x = 19.1 je 0.74, ako je stvarna srednja vrijednost populacije 20. To je puno veća vjerojatnost od 0.05 što je granična vjerojatnost s kojom radimo testiranje. Mogli bi reći da uzorak podržava tvrdnju iz nulte hipoteze s vjerojatnošću 0.74.

    -0.33

    Površina 0.37

    Dvostrani test: ukupna provršina (vjerojatnost) 2*P (U < - 0.33) 2*0.37 = 0.74

    Površina = 0.37

    Površina = 0.37

    0.33

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 34/56

    15. Pogreške prvog i drugog reda

    Prilikom testiranja možemo učiniti dva tipa pogrešaka. Greške I i II reda. Usporedba postupka statističkog testiranja i pravosudnog postupka: H0 Osumnjičeni je nevin H1 Osumnjičeni je kriv

    Stvarno stanje Stvarno stanje Odluka suda Nevin Kriv

    Zaključak

    H0 je istina H0 je laž Nevin √

    pogreškaH0 prihvaćamo

    √ β (greška II reda)

    Kriv pogreška

    √ H0 odbacujemo

    α (greška I reda)

    Pogreška I reda ili α je pogreška koju uvijek možemo kontrolirati prilikom statističkog zaključivanja. Ona se zadaje unaprijed, a hipoteze se formuliraju tako da ona pogreška koja nam je važnija bude pogreška prvog reda α. Na primjer, u pravosudnom postupku možemo učiniti dvije pogreške, da nevinog čovjeka osudimo ili da krivog oslobodimo. Možemo se odlučiti da je važnije kontrolirati vjerojatnost pogreške da nevinog čovjeka osudimo. Formuliramo hipoteze:

    H0 Osumnjičeni je nevin i H1 Osumnjičeni je kriv.

    Pogreška prvog reda ili α je vjerojatnost odbacivanja hipoteze H0 kada je ona zapravo istinita, tj. u ovom slučaju vjerojatnost da nevinog čovjeka proglasimo krivim. Kada bi obrnuli hipoteze i stavili H0 Osumnjičeni je kriv, tada bi zadavali unaprijed i time kontrolirali pogrešku da krivog čovjeka oslobodimo. Pogreška II reda ili β Vjerojatnost prihvaćanja hipoteze H0 kada je H1 istina (dakle H0 je laž)! U našem primjeru postavljenih hipoteza:

    H0 Osumnjičeni je nevin

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 35/56

    H1 Osumnjičeni je kriv to je slučaj kada je osumnjičeni zaista kriv no mi ga proglasimo nevinim. β ovisi o: • pravoj vrijednosti parametra o kojem raspravljamo (alternativna

    hipoteza), β pada kada je veća razlika između pretpostavljene i prave vrijednosti parametra koji se testira (distribucije su razdijeljene)

    • pogrešci α, tj. β raste kada α pada i obrnuto, te jednostranom ili dvostranom testu, β

    • standardnoj devijaciji populacije, β se povećava što je st.dev. populacije veća

    • veličini uzorka, β se smanjuje kada veličina uzorka raste. zadnja dva parametra određuju standardnu pogrešku SE.

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 36/56

    16. Primjer: testiranje proporcija

    1. Formuliranje statističke hipoteze

    H0 π = 0.005 H1 π < 0.005

    (jednostrani, lijevi test – područje odbacivanja hipoteze je na lijevo)

    2. Odredi statistiku za testiranje : proporcija P

    Znamo da vrijedi U =

    npp

    P)1( −

    π−

    3. Odaberi nivo značajnosti testa tj. pogrešku prvog reda α, neka je α = 5% i pripadnu kritičnu vrijednost očitaj iz tablica. Za odabrani nivo značajnosti i jednostrani test ukrit=-1.64

    4. Uzmi slučajan uzorak n=2000 i izračunaj vrijednost

    statistike P na njemu, tj. p=3/2000=0.0015

    26.2

    2000)005.01(005.0

    005.00015.0−=

    −−

    =u

    5. Donesi odluku: Ako je izračunata vrijednost statistike u < ukrit odbaci nultu hipotezu. Kako je –2.26 < -1.64 H0 odbacujemo!

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 37/56

    Područje odbacivanja H0

    Područje prihvaćanja H0

    -1.64 0.0 -2.26

    -3 -2 -1 1 2 3

    0.1

    0.2

    0.3

    0.4

    Površina α=5%

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 38/56

    χ2 test

    Neparametarski test Koristi se za dvije kategorije testova:

    • Testiranje ponašanja po distribuciji ( engl. goodness of fit )

    • Testiranje nezavisnosti klasifikacija: kontigencijske tablice (engl. contigency tables)

    H0 dvije kvalitativne populacijske varijable su nezavisne RxS tablice

    χ2 = Σ (fobs- fizracunata)2 / fizracunata

    PUŠ AĆ I NEPUŠ AĆ I total

    MUŠ KARCI 110 90 200

    Ž ENE 104 96 200

    total 214 186 400

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 39/56

    Teorijske frekvencije

    PUŠAĆI NEPUŠAĆI total

    MUŠKARCI 107= (214*200/400)

    93 200

    ŽENE 107 93 200

    total 214 186 400

    χ2 = (110-107)2/107 + (104-107)2/107 +(90-93)/93 +(96-93)/93 = 0.084 + 0.084 + 0.097 + 0.097 = 0.362

    koristiti statističke tablice ili program

    Broj stupnjeva slobode = (R-1)(S-1)

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 40/56

    ANOVA

    (ANALIZA VARIJANCE) R.A. Fisher (1890. – 1962.) “Fisher was a genius who almost single-handedly created the foundations for modern statistical science ….” Anders Hald A History of Mathematical Statistics (1998)

    Svrha:

    • Nalaženje faktora koji najviše utječu na model (primjer regresija)

    • Reducira se na testiranje razlike između srednjih vrijednosti više uzoraka.

    • U principu uzorci nisu nezavisni i dobiveni su dizajnom eksperimenta (kada se kontrolira vrijednost faktora)

    2 populacije ANOVA → t-test Zašto se ne testira nizom t-testova? 1. broj testova n(n-1)/2 2. nivo značajnosti se automatski povećava:

    α=0.01 za pojedinačni test, vjerojatnost izbjegavanja pogreške je 0.99 pa je vjerojatnost izbjegavanja pogreške α jest (1-α)k za k testova. Vjerojatnost α u k testova je 1-(1-α)k što je za k*10 iznosi 0.364

    3. Individualni testovi nisu nezavisni jedan od drugog 4. Individualni testovi mogu proizvesti kontradiktoran

    rezultat (sve su srednje vrijednosti jednake, jedan test odbacuje hipotezu)

    Testiranje x pomoću usporedbom varijanci!

    Varijanca je suma kvadrata devijacija podataka od njihove srednje vrijednosti SS (sum of squares) podijeljena s (n-1).

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 41/56

    VARIJANCA MOŽE BITI PARTICIONIRANA!

    TOTALNA VARIJABILNOST SSTOTAL = VARIJABILNOST UNUTAR GRUPA SSERROR (ILI RESIDUAL) +

    VARIJABILNOST IZMEĐU GRUPA SS(EFFECT)

    Particioniranje varijance:

    Grupa 1 Grupa 2

    O 1 3 6 O 2 2 7 O 3 1 5

    x 2 6 SS 2 2

    Ukupna x 4 Total SS 28

    Uoči: SS koji se temelji na varijabilnosti unutar grupa (2) je znatno manje nego ukupana varijabilnost (28). Razlog te razlike leži u različitosti srednjih vrijednosti grupa! ERROR variance (due to random error),

    SS (unutar grupa) = 2 + 2 = 4 SS Effect, SS(zbog varijabilnosti sred.vr.) = 28 – (2+2) = 24 TOTALNA

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 42/56

    Mnoge stat. procedure koriste omjer ostvarijabiln aNebjašnjenostvarijabiln Objašnjena

    Error

    Effect

    MSError SquareMean MSEffect SquareMean

    tj. grupa unutar ostVarijabilngrupaizmedju ostVarijabiln

    H0 nema razlike između grupa

    Čak i kada vrijedi H0 očekujemo manje razlike u očekivanjima između grupa, ali procijenjene varijance

    između grupa i unutar grupa trebaju biti jednake.

    F test – da li se omjer varijanci bitno razlikuje od 1.

    • n broj elemenata, k broj grupa (uzoraka) • i indeks podatka u uzorku(grupi) • j je indeks grupe

    F (n-k, k-1) VAŽNO: pretpostavke ANOVE:

    • Podaci su normalno distribuirani • Varijance uzoraka su jednake

    Testiranje jednakosti varijanci: Barlett, Cochran

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 43/56

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 44/56

    ANOVA I REGRESIJA ANOVA je moćni postupak za analizu kvalitete regresijskog modela. VARIJANCA unutar modela može se paticionirati, a zatim se ti dijelovi stavljaju u odnos tako otkrivajući činjenice o modelu! ANOVA služi i za provjeru modela (goodness (or lack) of fit)

    TOTALNA VARIJABILNOST SSTOTAL = VARIJABILNOST REZIDUALA (POGREŠKE-ERROR)

    SSRESIDUAL + VARIJABILNOST OBJAŠNJENA REG. MODELOM SSREG

    ∑∑∑ −+−=+=−= 222 )ˆ()ˆ()( yyyySSSSyySS iiiREGRESSIONERRORiTOTAL

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 45/56

    VIŠESTRUKI REGRESIJSKI MODEL

    (engl. Multiple Linear Regression)

    Linearna regresija

    ii bXaY +=ˆ

    ii YY −ˆ jest rezidual ili pogreška koja nastaje kada predviđamo Y u zavisnosti od X.

    Reziduali predstavljaju onaj dio varijabilnosti koji nije moguće objasniti modelom. Reziduali se moraju pažljivo provjeriti jer oni odražavaju ispunjavanje pretpostavki modela – najbolje grafički (posebno za male uzorke kada numerički postupci nisu odgovarajući)

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 46/56

    (analiza reziduala - animacija linearna regresija - uvid u zadovoljavanje pretpostavki - grafički) Najbolji fit regresijske funkcije može se dobiti

    minimiziranjem sume kvadrata pogreške ∑ −i

    ii YY2)ˆ(min .

    Da li se best fit može dobiti na drugi način ? Zašto baš min

    SS?

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 47/56

    Mjera korisnosti modela – koeficijent determinacije R2 (goodness of fit)

    Mjeri proporciju varijance zavisne varijable oko njezine srednje vrijednosti koja je objašnjena prediktorskim varijablama.

    0 < R2 < 1 Veći R znači veću snagu modela u objašnjavanju regresijske funkcije i dakle, bolju predikciju zavisne varijable. Osnovna ideja: izračunati redukciju pogreške predikcije kada je informacija koju osigurava nezavisna varijabla uključena u model.

    ∑∑∑ −+−=+=−= 222 )ˆ()ˆ()( yyyySSSSyySS iiiREGRESSIONERRORiTOTAL

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 48/56

    1. Ako nema x u modelu, tj. nema doprinosa x-a predikciji y onda je najbolji pogodak srednja vrijednost y

    2. Ako sada uključimo informacije s kojom x predviđa y, pogreška je reducirana. S obzirom da regresijska funkcija predstavlja najbolji

    opis podataka (best fit) pogreška je

    ∑=

    −=n

    iiierror yySS

    1

    2)ˆ(

    • R2 je relativno smanjenje pogreške kada je informacija o X uključena u model

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 49/56

    TOT

    ERRTOT

    TOT

    REG

    SSSSSS

    SSSSR −==2

    • To je količina varijacije Y objašnjena s X.

    • Za jednostavnu linearnu regresiju koeficijent

    determinacije jest kvadrat korelacijskog koeficijenta između X i Y. (Pogledati animaciju RUVL kompozicija r2)

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 50/56

    Pretpostavke za jednostavnu linearnu i multiplu regresiju:

    • Odnos između x i y je linearan (uoči razliku između ne-linearne i krivolinijske asocijacije → može biti transformirana).

    • Sve varijable su nezavisne, nema korelacije s bilo kojom trećom varijablom.

    • Za svaki X, vrijednosti Y su distribuirani normalno • Za svaki X, Y distribucija ima istu varijancu. (homoscedastic

    data). HOMOSCEDASTIC data – slučajna pogreška je normalno distribuirana

    To se grafički provjerava crtanjem pogreške u odnosu na signal bez pogreške.

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 51/56

    Vrlo često nije zadovoljeno posebno kada podaci pokrivaju široki rang. Inače se kaže da su podaci heteroscedatic – slučajna pogreška (rezidual) zavisi od jačine signala, veličine nezavisne varijable.

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 52/56

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 53/56

    VIŠE NEZAVISNIH VARIJABLI (Francis Galton, 1886.)

    y = a0 + a1 x1 + a2 x2 + …… + ak xk + ε

    ε je ERROR ili RESIDUAL s očekivanjem 0.

    • Jednadžba određuje hiperravninu u k-dim prostoru (k broj varijabli)

    • a0, a1, ……an određeni tako da je suma kvadrata pogreške je minimalna

    Neke napomene za interpretaciju:

    • Za k = 1 jednostavna linearna regresija • F-ratio testira nultu hipotezu da su svi koeficijenti nezavisnih

    varijabli 0 tj. H0 a0 = a1 = ……= an = 0

    F(k, n-k-1) F se odnosi prema r2 (godness to of fit):

    krknrF)1(

    )1(2

    2

    −−−

    =

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 54/56

    • SSRES je procjena varijabilnosti duž regresijske linije i koristi se

    za nalaženje procjenjene standardne pogreške pojedinih regresijskih koeficijenata ai. Procjena standardne pogreške je distribuirana kao t(n-k-1). Interval pouzdanosti je dan s +/- t(α/2, n-k-1)s(ai)

    • Ako su dvije nezavisne varijable izrazito korelirane, teško je

    procijeniti regresijske koeficijente i dobivene vrijednosti koeficijenata ne reflektiraju stvarne ovisnosti. (važno: outlieri mogu značajno utjecati na kolinearnost!)

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 55/56

    RAČUNANJE JEDINSTVENE I DIJELJENE VARIJANCE IZMEĐU NEZAVISNIH VARIJABLI

    Temelj za procjenu svih regresijskih odnosa je korelacija između nezavisne varijable i zavisnih varijabli. Korelacija je osnova za oblikovanje regresijske varijate procjenom regresijskih koeficijenata za za svaku nezavisnu varijablu koja maksimizira predviđanje zavisne varijable. Za slučaj Y = a X1 + a0 postotak objašnjene varijabilnosti zavisne varijable je kvadrat korelacije Za slučaj više nezavisnih varijabli potrebno je razmotriti postojanje korelacije između nezavisnih varijabli jer one dijele nešto prediktivne moći. Stoga se direktna korelacija zavisna i nezavisna varijable ne može uzeti u obzir. Parcijalni korelacijski koeficijent je korelacija Xi i Yi kada su utjecaji drugih nezavisnih varijabli uklonjeni. Semiparcijalni koeficijent se razlikuje od gornjeg jer predstavlja korelaciju Xi i Yi kada su efekti drugih nezivisnih varijabli uklonjeni samo iz Xi. Koristi se za identifikaciju varijable koje imaju najveću inkrementalnu prediktivnu moć. Kvadrat daje jedinstvenu varijancu obkešnjenu s nezavisnom varijablom.

    Y1

    X1 Y

  • Prof.dr.sc. Bojana Dalbelo Bašić FER

    BILJEŠKE ZA PREDAVANJA (za internu uporabu)

    Uvod u statističko zaključivanje 2005/2006

    17.03.2004. 56/56

    a b

    c

    d

    X2 X1