Univerzitet u Novom Sadu
Centar za primenjenu statistiku
Master studije iz primenjene statistike
ANALIZA TAČNOSTI U MEMORIJSKIM ZADACIMA:
POREĐENJE STATISTIČKIH STRATEGIJA
Master rad
Student: Mentor:
Milica Popović Stijačić, PS 7/2011 Prof. Ljiljana Mihić
U Novom Sadu, novembar 2015. godine
1
Univerzitet u Novom Sadu
Univerzitetski centar za primenjenu statistiku
Ključna dokumentacijska informacija
Redni broj: RBR
Identifikacioni broj:
IBR
Tip dokumentacije: TD
Monografska dokumentacija
Tip zapisa:
TZ
Tekstualni štampani materijal
Vrsta rada (dipl., mag., dokt.): VR
Master rad
Ime i prezime autora:
AU
Milica Popović Stijačić
Mentor (titula, ime, prezime, zvanje):
MN
Prof. dr Ljiljana Mihić
Naslov rada:
NR
Analiza tačnosti u memorijskim zadacima: poređenje statističkih
strategija
Jezik publikacije:
JP
Srpski
Jezik izvoda:
JI
srp. / eng.
Zemlja publikovanja:
ZP
R Srbija
Uže geografsko područje:
UGP
Vojvodina, Novi Sad
Godina:
GO
2015.
Izdavač:
IZ
autorski reprint
Mesto i adresa:
MA
Novi Sad, Trg Dositeja Obradovića 5
2
Fizički opis rada:
FO
(9 poglavlja /38 stranica /1 slika / 13 grafikona / 32 referenci /6
priloga)
Naučna oblast:
NO
Primenjena statististika
Naučna disciplina:
ND
Statistika u društvenim naukama
Predmetna odrednica, ključne reči:
PO
ANOVA, logistička regresija, mešoviti logit modeli,
samouzorkovanje
UDK
Čuva se:
ČU
Biblioteka
Važna napomena:
VN
Izvod:
IZ
Problem ovog istraživanja bio je ispitivanje
efekata tri različite statističke analize nad proporcijama,
odnosno nad binarnim varijablama, koje predstavljaju
jednu od najčešćih mera u psiholingvističkim
istraživanjima. Međutim, primena ANOVE nad
proporcijama narušava bar dve klasične pretpostavke
linearnih modela kao što su nezavisnost varijanse greške
od aritmetičke sredine, a drugi je da zavisna varijabla
može da primi bilo koju realnu vrednost, što proporcija
očigledno narušava jer se kreće u opsegu od nula do
jedan. U ovom istraživanju smo demonstrirali dve
poželjne alternativne i adekvatne analize za obradu
binarnih varijabli. To su logistička regresija i mešoviti
logit modeli. Logistička regresija je metoda izbora za
obradu binarnih varijabli, dok je mešoviti logit modeli
dopunjuju, jer dozvoljavaju uključivanje ispitanika i
stimulusa kao izvora varijacije u podacima. U ovom
istraživanju koristili smo podatke iz istraživanja koje je
ispitivalo uticaj broja čula kojima je moguće iskusiti neki
pojam na uspešnost reprodukcije u paradigmi
3
asocijativnog učenja parova reči. U prvom delu
istraživanja smo sve tri analize sproveli nad podacima iz
pomenute studije. U skladu sa pretpostavkama, sve tri
analize dale su slične rezultate, zabeleženi su glavni efekti
zadatka i broja čula, dok efekat interakcije nije zabeležen
ni u jednoj od analiza. U drugom delu istraživanja se
pomoću metode samouzorkovanja proveravala efikasnost
svake analize. U skladu sa hipotezama, ANOVA se
pokazala kao nepouzdana metoda za obradu proporcija -
ocene parametara imale su veliku pristrasnost i
standardnu grešku, te široke intervale poverenja. Nasuprot
tome, ocene parametara logističke regresije i mešovitih
logit modela dobijenih metodom samouzorkovanja
ponašale su se na sličan način – imale su nisku pristrasnot
i standardnu grešku i uske intervale poverenja.
Datum prihvatanja teme od strane NN
veća:
DP
Datum odbrane:
DO
Članovi komisije:
(ime i prezime / titula / zvanje / naziv
organizacije / status)
KO
predsednik: doc. dr Petar Čolović, docent, Filozofski fakultet,
Univerzitet u Novom Sadu
mentor: prof.dr Ljiljana Mihić, vanredni professor, Filozofski
fakultet, Univerzitet u Novom Sadu
član: doc dr. Bojan Janičić, docent, Filozofski fakultet,
Univerzitet u Novom Sadu
član: prof. dr Dušica Đurđević Filipović, vanredni professor,
Filozofski fakultet, Univerzitet u Novom Sadu
4
University of Novi Sad
University Centre for Applied Statistics
Key word documentation
Accession number:
ANO
Identification number:
INO
Document type:
DT
Monograph documentation
Type of record:
TR
Textual printed material
Contents code:
CC
Author:
AU
Milica Popović Stijačić
Mentor:
MN
Prof. dr Ljiljana Mihić
Title:
TI
Analysis of accuracy in memory tasks: a comparison of
statistical strategies
Language of text:
LT
Serbian (Latin)
Language of abstract:
LA
Serbian/English
Country of publication:
CP
Republic of Serbia
Locality of publication:
LP
Vojvodina, Novi Sad
Publication year:
PY
2015
Publisher:
PU
Author`s reprint
Publication place:
PP
Novi Sad, Trg Dositeja Obradovića 5
5
Physical description:
PD
9 chapters/38 pages/1 picture/13 graphs/32 bibliographic
citations/6 appendices
Scientific field
SF
Applied Statistics
Scientific discipline
SD
Statistics in social sciences
Subject, Key words
SKW
ANOVA, logistic regression, mixed logit models,
bootstrapping
UC
Holding data:
HD
Note:
N
Abstract:
AB
In this paper we investigated the effects of three different
statistical analyses over proportions (binary outcomes) which
are the most common measures of accuracy in memory tasks.
The ANOVA application over proportions is very common in
psycholinguistic. However, applying the ANOVA over
proportions violates at least two classical assumptions of linear
models. The first one refers to the homoscedasticity, and the
second refers to the term that a dependant variable can take any
real value, which obviously does not stand for proportions (the
range is from 0 to 1). As a consequence, the power of statistical
test reduces and the probability of type I error increases. In this
research, two alternatives in the analysis of the binary
outcomes are demonstrated. The first one was the binary
logistic regression, and the second one was the mixed logit
models. We used the data from the research in which the
influence of the number of the senses through which a concept
can be experienced on a reproduction was explored. The first
part of the paper compares the effects of the ANOVA, the
binary logistic regression and the mixed logit models over the
same data from the above mentioned study. All three analyses
gave similar results as it was predicted. The effects of the tasks,
as well as the number of the senses were found, but not their
interaction. Finally, the efficacy of each statistical method was
explored in the second part of the paper, by using the bootstrap
estimates of the parameters. In accordance with the predictions,
the bootstrap parameter estimates of the ANOVA had large
bias and standard errors, and wide confidence intervals. On the
other hand, the bootstrap parameter estimates of the binary
6
logistic regression and the mixed logit models were similar –
they had low bias and standard errors and narrow confidence
intervals.
Accepted on Scientific Board on:
AS
Defended:
DE
Thesis Defend Board:
DB
president: Assistant Prof. Petar Čolović, Faculty of
Philosophy,University of Novi Sad
advisor: Associate Prof. dr Ljiljana Mihić, Faculty of
Philosophy,University of Novi Sad
member: Assistant Prof. Bojan Janičić, Faculty of
Philosophy,University of Novi Sad
member: Associate Prof. Dušica Đurđević Filipović, Faculty
of Philosophy,University of Novi Sad
7
SADRŽAJ
Rezime…………………………………………………………………………………. 8
Uvod…………………………………………………………………………………… 10
Istraživačka praksa u analizi tačnosti u memorijskim zadacima………………………. 10
Zabluda o jeziku kao fiksnom faktoru…………………………………………………. 12
Mešoviti linearni modeli – poželjna alternative klasičnoj analizi varijanse…………… 13
Obrada binomnih podataka – logistički modeli……………………………………….. 17
Binarna logistička regresija………………………………………………………. 17
Mešoviti logit modeli……………………………………………………………….. 16
Pretpostavke……………………………………………………………………………. 18
METOD………………………………………………………………………………... 19
REZULTATI……………………………………………………………………………. 23
Anova nad proporcijom tačnih odgovora……………………………………….. 23
Analiza pomoću logističke regresije…………………………………………….. 24
Analiza pomoću mešovitih logit modela………………………………………... 25
Poređenje stabilnosti efekata sva tri metoda pomoću metode samouzorkovanja….. 27
DISKUSIJA…………………………………………………………………………….. 35
Literatura………………………………………………………………………………... 38
DODATAK……………………………………………………………………………... 41
8
ANALIZA TAČNOSTI U MEMORIJSKIM ZADACIMA: POREĐENJE STATISTIČKIH
STRATEGIJA
Rezime
Problem ovog istraživanja bio je ispitivanje efekata tri različite statističke analize nad
proporcijama, odnosno nad binarnim varijablama, koje predstavljaju jednu od najčešćih mera u
psiholingvističkim istraživanjima. U psihološkim istraživanjima tradicionalno se primenjuje
analiza varijanse nad procentom tačnih ili netačnih odgovora. Međutim, primena ANOVE nad
proporcijama narušava bar dve klasične pretpostavke linearnih modela kao što su nezavisnost
varijanse greške od aritmetičke sredine, a drugi je da zavisna varijabla može da primi bilo koju
realnu vrednost, što proporcija očigledno narušava jer se kreće u opsegu od nula do jedan.
Narušavanjem ovih pretpostavki smanjuje se moć testa i povećava verovatnoća greške tipa I.
Drugi problem kod primene ANOVE odnosi se na to što, da bi se i ispitanici i stimulusi tretirali
kao slučajni faktori, moraju se sprovesti dve odvojene analize, po ispitanicima i po stimulusima.
U ovom istraživanju smo demonstrirali dve poželjne alternativne i adekvatne analize za obradu
binarnih varijabli. To su logistička regresija i mešoviti logit modeli. Logistička regresija je
metoda izbora za obradu binarnih varijabli, dok je mešoviti logit modeli dopunjuju, jer
dozvoljavaju uključivanje ispitanika i stimulusa kao izvora varijacije u podacima. U ovom
istraživanju koristili smo podatke iz istraživanja koje je ispitivalo uticaj broja čula kojima je
moguće iskusiti neki pojam na uspešnost reprodukcije u paradigmi asocijativnog učenja parova
reči. U prvom delu istraživanja smo sve tri analize sproveli nad podacima iz pomenute studije. U
skladu sa pretpostavkama, sve tri analize dale su slične rezultate, zabeleženi su glavni efekti
zadatka i broja čula, dok efekat interakcije nije zabeležen ni u jednoj od analiza. U drugom delu
istraživanja se pomoću metode samouzorkovanja proveravala efikasnost svake analize. U skladu
sa hipotezama, ANOVA se pokazala kao nepouzdana metoda za obradu proporcija - ocene
parametara imale su veliku pristrasnost i standardnu grešku, te široke intervale poverenja.
Nasuprot tome, ocene parametara logističke regresije i mešovitih logit modela dobijenih
metodom samouzorkovanja ponašale su se na sličan način – imale su nisku pristrasnot i
standardnu grešku i uske intervale poverenja.
Ključne reči: ANOVA, logistička regresija, mešoviti logit modeli, samouzorkovanje
9
ANALYSIS OF ACCURACY IN MEMORY TASKS: A COMPARISON OF STATISTICAL
STRATEGIES
Abstract
In this paper we investigated the effects of three different statistical analyses over proportions
(binary outcomes) which are the most common measures of accuracy in memory tasks. The ANOVA
application over proportions is very common in psycholinguistic. However, applying the ANOVA over
proportions violates at least two classical terms of linear models. The first one refers to the
homoscedasticity, and the second refers to the term that a dependant variable can take any real value,
which obviously does not stand for proportions (the range is from 0 to 1). As a consequence, the power of
statistical test reduces and the probability of type I error increases. In this research, two alternatives in the
analysis of the binary outcomes are demonstrated. The first one was the binary logistic regression, and the
second one was the mixed logit models. We used the data from the research in which the influence of the
number of the senses through which a concept can be experienced on a reproduction was explored. The
first part of the paper compares the effects of the ANOVA, the binary logistic regression and the mixed
logit models over the same data from the above mentioned study. All three analyses gave similar results
as it was predicted. The effects of the tasks, as well as the number of the senses were recorded, but not
their interaction. Finally, the efficacy of each statistical method was explored in the second part of the
paper, by using the bootstrap estimates of the parameters. In accordance with predictions, the bootstrap
parameter estimates of the ANOVA had large bias and standard errors, and wide confidence intervals. On
the other hand, the bootstrap parameter estimates of the binary logistic regression and the mixed logit
models were similar – they had low bias and standard errors and narrow confidence intervals.
Key words: ANOVA, logistic regression, mixed logit models, bootstrapping
10
Uvod
U novije vreme sve je više zagovornika takozvane “Nove statistike” (Cumming, 2013).
Naime, nakon višedecenijske (zlo)upotrebe p vrednosti za testiranje nulte i alternativne hipoteze,
uvidelo se da se mnoštvo stvari ostavlja po strani. Ovde se pre svega misli na neanaliziranje
veličine efekata, kao i intervala poverenja, te nepravilnu upotrebu statističkih tehnika (Tenjović
& Smederevac, 2011). Neki istraživači su toliko ekstremni protivnici testiranja nulte hipoteze, da
čak tvrde da je većina objavljenih istraživanja netačno (Ioannidis, 2005), a kao argument navode
da je decenijama u naučnim časopisima uslov za objavljivanje bio „značajnost“ efekta. Drugim
rečima, ako postoji pristrasna selekcija istraživačkih radova, onda je i ono što se objavljuje
pristrasno. Ovaj stav donekle je potkrepljen i rezultatima obimne studije koja je za cilj imala
replikaciju velikog broja objavljenih eksperimenata u oblasti psihološke nauke (Open Science
Collaboration, 2015). U okviru ove studije više od polovine objavljenih nalaza nije bilo
replicirano.
U skladu sa novim istraživačkim trendom, a u svrhu poboljšanja istraživačke prakse u
okviru psiholoških istraživanja, cilj ovog rada je da da podstrek za primenu drugačijih linearnih
modela za obradu tačnosti u memorijskim zadacima. Ideja nije nova, jer se u okviru
psiholongvistike i obrade vremena reakcije, istraživači uveliko služe mešovitim lienarnim
modelima (Bayen, 2010,2008; Bayen, Davidson & Bates, 2008; Radanović i Vaci, 2013).
Tehnike naravno nisu nove, ali je novina u tome što se primenjuju za obradu vremena reakcije,
što do skoro nije bila praksa u psihološkim istraživanjima.
Dakle, problem ovog istraživanja odnosi se na to da se uporede efekti ANOVE sa
efektima mešovitih logit modela nad tačnim odgovorima iz zadataka reprodukcije. Prema
autorovom znanju ovakvo poređenje do sada nije izvedeno, te ovaj rad po prvi put pruža uvid u
podesnost odabranih tehnika za analizu podataka prikupljenih u ispitivanju pamćenja.
Istraživačka praksa u analizi tačnosti u memorijskim zadacima
Dosadašnja istraživačka praksa je pokazala da se istraživači dominantno služe ANOVOM
pri obradi tačnih ili netačnih odgovora u memorijskim zadacima (na primer,Hamilton &
Rajaram, 2001; Jaeger, 2008; Marschark & Hunt, 1989; Marschark & Surian, 1992; Murdock,
1962; Paivio, 1969; Paivio, Walsh & Bones, 1994; Quene & van der Bergh, 2008). Izuzetak su
11
istraživanja koja se bave procesima prepoznavanja, koji se najčešće objašnjavaju u duhu teorije
detekcije signala, te se shodno tome u ovim istraživanjima češće primenjuju binarna logistička
regresija kao i analiza ROC (receiver operating characteristic) krive (na primer, Rotello,
Macmillan & Van Tassel, 2000; Yonelinas, 1994).
Najčešća mera uspešnosti reprodukcije u memorijskim zadacima su proporcija (procenat)
tačnih i proporcija (procenat) netačnih odgovora, tj. procenat greške (Kostić, 2005). Ako imamo
listu koja sadrži n stimulusa, onda se proporcija tačne reprodukcije računa kao zbir tačno
reprodukovanih stimulusa podeljen sa n: p= (Ʃs)/n. Dakle, u pitanju je varijabla koja je binarnog
karaktera (ima dva moguća ishoda: 1 – tačno reprodukovano i 0 – nije reprodukovano). Iako je u
pitanju binarna varijabla, istraživači najčešće pribegavaju uprosečavanju po stimulusima i po
ispitanicima, odnosno kreiranju proporcije, kako bi mogli primenjivati analize iz porodica
generalnih linearnih modela (Baayen, 2012), među kojima su najviše u upotrebi jednostruka i
višestruka analiza varijanse i kovarijanse, te višestruka linearna regresija.
Postoje dva osnovna problema pri primeni generalnih linernih modela nad proporcijama
(Baayen, 2012; Jaeger, 2008). Prvi problem odnosi se na narušavanje uslova o
homoskedastičnosti. Drugim rečima, varijansa nije nezavisna od aritmetičke sredine, već se
menja kako se menja sredina, pri čemu dostiže svoj maksimum za vrednost proporcije 0.5.
Ovakav zaključak direktno sledi iz formule za uzoračku varijansu proporcije: σ²= .
Drugi problem je taj što se proporcija kreće u intervalu od 0 do 1, što narušava uslov
linearnih modela da zavisna varijabla može imati bilo koju realnu vrednost.
Prema Jegeru (Jaeger, 2008), fundamentalni problem neprimenjivanja statističkih tehnika
koje su prilagođene kategorijalnim podacima je u tome što se statistička edukacija u okviru
psiholoških nauka zasniva na kontinuiranim podacima. Paradoksalno, većina zavisnih varijabli u
psihološkim naukama je upravo kategorijalne prirode. Posledica toga je stvaranje pogrešnog
uverenja da je analiza kategorijalnih podataka pomoću tehnika iz porodice generalnih linearnih
modela, ukoliko se primeni određena transformacija, adekvatna. Međutim, čak i tada, ističe
Jeger, povećan je rizik od greške tipa I i greške tipa II. Drugim rečima, smanjena je verovatnoća
prihvatanja tačne kao i veorvatnoća odbacivanja pogrešne nulte hipoteze, i istovremeno je
smanjena snaga testova iz porodice generalnih linearnih modela ukoliko se primenjuju nad
12
kategorijalnim podacima. Jeger (2008) takođe navodi narušavanje uslova linernih modela pri
primeni analize varijanse nad proporcijama, ali pored toga navodi i problem interpretabilnosti
rezultata. Naime, intervali poverenja za proporcije mogu da „iskaču“ izvan definisanog 0-1
opsega. Drugim rečima, ANOVA „objašnjava“ verovatnoću događaja koji se nikad ne mogu
dogoditi, pri čemu se smanjuje njena moć da objasni događaje koji se mogu dogoditi. Mada je
ovo Jegerovo objašnjenje samo intuitivno, iz njega se može naslutiti zašto ANOVA nad
proporcijama može da da lažni rezultat.
Zabluda o jeziku kao fiksnom faktoru
Na ovom mestu napravićemo malu digresiju, s obzirom na to da će biti potrebna za dalje
razumevanje teksta. Iako se ANOVA kao alat za obradu proporcija može smatrati pogrešnim,
1974. godine, Klark (Clark, 1974) je napravio malu revoluciju u vidu davanja preporuka za način
na koji treba primenjivati analizu varijanse u psiholongvističkim istraživanjima, tačnije kada se
koristi dizajn gde su stimulusi (reči) ugnježđeni u tretman (situaciju). Mada je prvobitna ideja
potekla od Kolemana (Coleman, 1964), tek je Klarkov članak postigao značajni efekat u
naučnim krugovima, pri čemu njegova opažanja imaju odjek i na sadašnja istraživanja. Klark je
tada kritikovao istraživače koji su jezik, tj. reči posmatrali kao fiksni, a ne slučajni faktor,
objavljujući samo rezultate testova dobijenih u analizi po ispitanicima. Na taj način, istraživači
su zaključivali da se na osnovu malog uzorka reči zaključci mogu ekstrapolirati na celokupnu
populaciju reči. Od objavljivanja njegovog članka, u psiholingvistici uopšte, postavljen je
standard u prezentovanju rezultata istraživanja. Konkretno, istraživači u opisu rezultata navode
analizu varijanse „po ispitanicima“ (F1 test) i „po stimulusima“ (F2 test), pri čemu se smatralo
da oba testa moraju biti statistički značajna, da bi se ispitivani efekat smatrao neslučajnim
ishodom. Pored ova dva testa, Klark (Clark, 1974) je uveo još jednu novinu, a to je prikaz
rezultata takozvanog „kvazi F testa“. S obzirom na to da je računanje kvazi F testa bilo
nepraktično, jer je osetljiv na nedostajuće podatke, Klark je predložio računanje njegove donje
granice – minF`, koji predstavlja odnos F1 i F2 vrednosti dobijenih u analizi po ispitanicima i
stimulusima:minF`(i,j)= ,
pri čemu F1 ima n i n1 stepene slobode, a F2 ima n i n2 stepene slobode. Iz toga sledi da
je i=n, a j stepeni slobode predstavljaju najbliži ceo broj koji se dobija iz izraza:
13
j= . Klark je smatrao da za generalizaciju efekta nije dovoljno da F1 i F2
test budu značajni, nego je potrebno da i kvazi F test bude značajan.
Mada je Klarkov rad (Clark, 1974) imao odjeka u prikazivanju rezultata u okviru
psiholingvistike, neki autori smatraju da se izrodila nova „F1 x F2“ zabluda (Raaijnmakers,
Schrijnmakers & Gremmen, 1999). Ovde se pre svega misli na to da su istraživači sistematski
zanemarivali prikaz minF` testa, već su samo objavljivali vrednosti F1 i F2 testa. Najveća
zabluda leži u tome što istraživači smatraju da je dovoljno prikazati analizu po stimulusima i po
ispitanicima, iako je sam Klark pokazao (Clark, 1974) da minF` može biti neznačajan čak i kada
su oba testa statistički značajna. Druga zabluda u vezi sa analizom po ispitanicima i analizom
po stimulusima se odnosi na to što se izračunavaju i onda kada je dovoljno prikazati samo
analizu po ispitanicima (F1). Kao što i sam Klark navodi, prikaz oba F testa odnosi se na nacrte
gde su reči ugnježdene u tretman (situaciju).
Mešoviti linearni modeli – poželjna alternativa klasičnoj analizi varijanse
Mešoviti linearni modeli su moderni statistički alat, pomoću kojeg se na elegantan način
rešava problem višestrukih slučajnih efekata u istraživanju (Baayen, 2008). Ovo se naročito
odnosi na psiholingvistička istraživanja, u kojima i stimulusi i ispitanici predstavljaju slučajne
efekte. Dakle, zahvaljujući mešovitim modelima, nije više potrebno uprosečavati odgovore po
ispitanicima i stimulusima. Za primenu mešovitih modela koristi se „dugački format podataka“
(„long data format“), prema shemi koja je prikazana u tabeli 1a (nasuprot tradicionalno
primenjivanom uprosečavanju po ispitanicima i stimulusima, prikazanim u tabeli 1b i 1c).
Tabela 1. Dugački (a) naspram kratkog formata podataka (b i c)
a) Dugački format podataka
ispitanici Stimulus Faktor Odgovor
a1 Stimulus1 Nivo 1 RT 111
a1 Stimulus2 Nivo 1 RT 121
a1 Stimulus3 Nivo 2 RT 132
a1 Stimulus4 Nivo 2 RT 142
a2 Stimulus1 Nivo 1 RT 211
a2 Stimulus2 Nivo 1 RT 221
14
b) Kratki format podataka – uprosečavanje po ispitanicima
Ispitanici RT –
1. nivo faktora
RT –
2. nivo faktora
A1 RT 11 RT 12
A2 RT 21 RT 22
A3 Rt 31 RT 32
c) Kratki format podataka – uprosečavanje po stimulusima
Stimulusi RT Faktor
S1 RT (s1) Nivo 1
S2 RT (s2) Nivo 1
S3 RT (s3) Nivo 2
S4 RT (s4) Nivo 2
Mešoviti linerni modeli odnose se na analizu ispitanika i stimulusa kao izvora slučajnih
ukrštenih efekata, za razliku od hijerarhijskih ili multilevel modela koji se odnose na analizu
slučajnih efekata koji su ugnježdeni (npr. učenici su ugnježdeni u razred, razredi u škole). Kada
se kaže ukršteni, misli se na to da je svaki ispitanik bio izložen svim stimulusima (Baayen, et al.,
2008). Najjednostavniji model, sa ispitanicima i stimulusima kao slučajnim efektima, i jednim
fiksnim faktorom, može se zapisati kao: yᵢⱼ= Xᵢⱼβ+Sᵢsᵢ+Wⱼwⱼ+εᵢⱼ,
gde yᵢⱼ predstavlja odgovor ispitnika i na stimulus s (na primer vreme reakcije u zadatku
prepoznavanja reči). Prvi deo jednačine Xᵢⱼβ se odnosi na fiksni efekat – fiksni faktor koji
variramo (na primer pauza između izlaganja stimulusa i početka zadatka prepoznavanja reči, tj.
bez pauze/sa pauzom, pri čemu je svaki ispitanik video sve stimuluse i prošao kroz zadatak sa i
bez bauze), i predstavlja aritmetičke sredine grupa za svaki podnivo fiksnog faktora. Naredna
dva izraza služe da predviđanja na osnovu modela budu preciznija za ispitanike (Sᵢsᵢ) i stimuluse
(Wⱼwⱼ) koji su korišćeni u eksperimentu, dok se poslednji deo izraza odnosi na slučajnu
a2 Stimulus3 Nivo 2 RT 232
a2 Stimulus 4 Nivo 2 RT 242
15
grešku (εᵢⱼ). Matrica ispitanika S i matrica stimulusa W, može se spojiti u u jedinstvenu matricu
koja se često obeležava sa Z, a slučajni efekti ispitanika i stimulusa se na sličan način mogu
spojiti u jedinstveni vektor b, pri čemu se gornji izraz može preformulisati u: y= Xβ+Zb+ε. Da bi
se oformila konačna specifikacija modela, potrebno je dati preciznu strukturu slučajnih efekata.
Slučajna varijabla1 u okviru mešovitih modela definisana je kao normalna promenljiva čija je
sredina nula, a standardna devijacija je nepoznata. U skladu sa tim, u ovakvom prostom modelu
postoje četiri parametra koja se ocenjuju: σ sint – ocenjena standardna devijacija za intercept koji
potiče od slučajnog efekta ispitanika, σ sfak – ocenjena standardna devijacija za odstupanje
ispitanika u odnosu na faktor, σ i – odstupanja stimulusa od intercepta i σ ε – reziduali. S obzirom
na to da su slučajni nagibi i intercept vezani za istu jedinicu posmatranja, oni mogu biti u
korelaciji – ρsint,fak. Konačna specifikacija modela se formalno može napisati na sledeći način:y=
Xβ+Zb+ε, ε~N (0, σ²I), b~N (0, σ²Ʃ), b┴ε,
gde Ʃ predstavlja relativnu matricu varijanse-kovarijanse za slučajne efekte, pri čemu je b
nezavisno od slučajnih varijabli, a italikovano veliko N označava multivarijatnu normalnu
distribuciju. Specifikacija modela koja se odnosi na varijansu-kovarijansu modela je važna jer
omogućava modelovanje i kada se varijansa po nivoima faktora razlikuje (što je jedan od uslova
klasične analize varijanse). Zahvaljujući ovoj specifičnosti mešovitih modela, pomoću testa
odnosa verodostojnosti (likelihood ratio test) može se testirati hipoteza o strukturi matrice
varijanse i kovarijanse. Na ovaj način, formalno se testira da li je slučajni efekat stimulusa
potrebno uključiti u model (ukoliko se strukture ne razlikuju, slučajni efekat stimulusa se može
isključiti iz modela). Na sličan način se testira da li parametar kovarijanse nagiba ispitanika i
intercepta značajno doprinosi valjanosti modela (Baayen et al., 2008). Dakle, u pristupu
mešovitih modela, pitanje da li uključiti ili ne slučajne efekte ispitanika i stimulusa je empirijske
prirode.
Ukratko, set ocenjenih parametara mešoviih modela uključuje koeficijente za fiksne
efekte, kao i standardne devijacije i korelacije za slučajne efekte. Individualne vrednosti se
računaju nakon što se izračunaju parametri slučajnih efekata i to pomoću takozvanog BLUPS-a
1 Slučajna varijabla (promenljiva) je ono što merimo, pri čemu su variranja greški merenja slučajna, a ne
sistematska. Slučajni efekti upravo mere varijansu tih slučajnih variranja koja potiču od individualnih razlika
ispitanika, odnosno stimulusa.
16
(best linear unbiased predictors), odnosno najboljeg linearnog nepristrasnog prediktora, ali te
vrednosti ne predstavljaju parametre modela.
Da bi se odlučilo koji model bolje odslikava podatke, koristio se test odnosa
verodostojnosti (likelihood ratio test) koji poredi redukovani i prošireni model. Ako
verodostojnost redukovanog modela označimo sa Lr, a verodostojnost proširenog modela sa Lp ,
onda se odnos verodostojnosti računa kao 2log(Lp/Lr). Ako je broj parametara proširenog
modela p, a broj parametara redukovanog modela r, onda pod nultom hipotezom da je
redukovani model dovoljan, odnos verodostojnosti ima približno ᵡ² distribuciju, sa stepenima
slobode p-r. Ukoliko test nije statistički značajan, prihvatamo nultu hipotezu, odnosno,
zadržavamo redukovani model kao bolji.
Obrada binomnih podataka – logistički modeli
Najveći problem primene ANOVE nad proporcijama jeste narušavanje uslova
homoskedastičnosti i ograničen opseg vrednosti zavisne varijable (proporcije uzimaju vrednosti
između 0 i 1). Primenom logističkih modela ova dva problema se prevazilaze. Oni pripadaju
porodici generalizovanih linearnih modela (Jaeger, 2008.; Baayen, 2008.; Agresti, 2002.), koji
predstavljaju ekstenziju generalnih linearnih modela za zavisne varijable koje nisu normalno
distribuirane.
Binarna logistička regresija
U logističkim modelima, binarna zavisna varijabla (kodirana kao 1 i 0, gde 1 označava
uspeh/pogodak, a 0 neuspeh/promašaj) se transformiše pomoću logit transformacije, odnosno
logaritma odnosa šansi. Na taj način se omogućava da zavisna varijabla predstavlja linearnu
funkciju nezavisnih varijabli (Agresti, 2002; Baayen, 2013), a pored toga, rešava se i problem
opsega, jer logaritam odnosa šansi se kreće od minus do plus beskonačno.Formalno, ova veza se
prikazuje kao:
logit(Y)=log ,
logit(Y)=β0+β1X1+β2X2+...+βiXi,
17
gde je Xi, i-ti prediktor (i=1,2,3,…k), logit (Y) je predviđena vrednost logit (p), β0 je konstanta, a
β1, β2,…βi su ocenjeni logistički regresioni koeficijenti. Za ocenjivanje vrednosti koeficijenata
koristi se metoda maksimalne verodostojnosti (maximum likelihood), za razliku od klasične
linearne regresije gde se koristi metoda najmanjih kvadrata (Tabachnick & Fidell, 2007).
Prednost logističkih modela naspram generalnih linearnih modela je u tome što prediktori
ne moraju biti normalno distribuirani, linearno povezani, niti da imaju jednaku varijansu po svim
grupama. Mana obične logističke regresije je što ne može da modeluje slučajne efekte ispitanika
i stimulusa, ali taj problem se prevazilazi pomoću mešovitih logit modela (Jaeger, 2008).
Mešoviti logit modeli
Mešoviti logit modeli pripadaju porodici generalizovanih linearnih mešovitih modela –
GLMM, koji opisuju zavisnu varijablu kao linearnu kombinaciju fiksnih efekata i uslovnih
slučajnih efekata koji potiču od ispitanika i stimulusa:
logit (p)= x`β+z`b, b~N (0, σ² Ʃ),
gdex` sadrži vrednosti prediktorskse varijable za fiksne efekte, a z` sadrži vrednosti vezane za
slučajne efekte ispitanika i stimulusa, bje koeficijent slučajnih efekata, koji ima multivarijatnu
normalnu distribuciju sa sredinom 0 i matricom varijanse-kovarijanse Ʃ. Kao i u „običnoj“
logističkoj regresiji, parametri modela su podešeni tako da na optimalan način opisuju podatke.
Međutim, postoje izvesne razlike između mešovitih linearnih i mešovitih logit modela. Razlika
se ogleda u tome što ne postoji poznato analitičko rešenje za tačnu optimizaciju verodostojnosti
podataka, kako bi se našli optimalni parametri, zbog čega se koriste Monte Karlo simulacije, kao
i quasi-log-likelihood, tj. aproksimacija pravog logaritma verodostojnosti /log likelihood/
(Jaeger, 2008).
Ukratko, mešoviti logit modeli kombinuju sve prednosti obične logističke regresije sa
mogućnošću modelovanja slučajnih efekata. Dodatna prednost je to što za njihovu primenu ne
mora da važi pretpostavka o homogenosti varijansi, koja je često u realnosti narušena. Sledeća
veoma važna prednost ogleda se u tome mešoviti logit modeli imaju veću moć odbacivanja nultte
hipoteze, nego ANOVA kada se primenjuje nad kategorijalnim podacima. Pored toga, oni
omogućavaju da se testira da li je uopšte potrebno ili ne uključiti slučajne efekte u model
18
(Baayen, 2008; Jaeger, 2008), po istom principu koji važi za mešovite linearne modele, tako što
se poredi verodostojnost (likelihood) redukovanog i proširenog modela. I možda najvažnija
prednost u odnosu na ANOVU i debatu F1xF2 jeste ta, što se istovremeno mogu uključiti
slučajni efekti za ispitanike i stimuluse. Ukoliko je efekat fiksnog faktora značajan u takvom
modelu, to znači da je značajan kada se kontroliše varijansa koja potiče od ispitanika i stimulusa
(Jaeger, 2008).
Pretpostavke
U ovom istraživanju poredili smo tri načina za obradu odgovora u memorijskim
zadacima. Kao prvi metod primenila se klasična analiza varijanse nad proporcijama, što je
najčeće korišćen metod u istraživanjima memorije (npr. Marschark & Hunt, 1989; Marschark &
Surian, 1992; Murdock, 1962; Paivio, 1969; Paivio et al., 1994). Kao drugi metod primenila se
“obična” logistička regresija. Poslednji metod koji se primenio odnosio se na mešovite logit
modele, koji predstavljaju kombinaciju klasične logističke regresije i mešovitih linearnih modela,
dakle omogućavaju modelovanje binarnih varijabli kao linearnu kombinaciju nezavisnih
prediktora uz kontrolu slučajnih efekata ispitanika i stimulusa.
Za ispitivanje efekata različitih statističkih metoda koristili su se podaci dobijeni u
istraživanju uspešnosti reprodukcije u zavisnosti odbroja čula kojima je moguće iskusiti pojam
(Popović Stijačić& Filipović Đurđević, 2015). U drugom eksperimentu tog istraživanja koristio
se 2x3 mešoviti faktorski nacrt sa dva fiksna faktora, od kojih je faktor zadatka bio neponovljen
po ispitanicima, a ponovljen po stimulusima (jedna grupa je radila zadatak navođene, a druga
grupa zadatak slobodne reprodukcije). Drugi faktor - faktor broja čula bio je ponovljen po
ispitanicima (a neponovljen po stimulusima) - svi ispitanici su učili istu listu stimulusa, u okviru
koje je variran faktor broja čula, a koji je imao tri nivoa: nula čula (sadržao je pojmove koji se ne
mogu iskusiti čulima), malo čula (sadržao je pojmove koji se mogu iskusiti sa jednim ili dva
čula) i mnogo čula (sadržao je pojmove koji se mogu iskusiti sa tri i više čula). U tom
eksperimentu, u analizi po ispitanicima, gde se koristila takozvana split-plot analiza varijanse,
zabeleženi su glavni efekti zadatka i broja modaliteta, dok efekat interakcije nije bio značajan. U
analizi po stimulusima zapažen je samo glavni efekat zadatka. Detalji nacrta su izloženi u
metodološkom delu, dok su rezultati detaljnije prikazani u opisu rezultata.
19
Kako su se sve tri analize obavile nad istim podacima, pretpostavilo se da će sve tri
metode dati slične rezultate. Kako bi se proverila stabilnost efekata kroz tri različite analize
primenila se metoda samouzorkovanja (bootstrapping; Davison, Hinkley & Young, 2003; Efron,
2000; Purić & Opačić, 2013). Očekivalo se da će u analizama na slučajnim poduzorcima, efekti
ANOVE najviše varirati u odnosu na poduzorke, s obzirom na to da se pokazalo da je analiza
kategorijalnih podataka pomoću ANOVE najnepovoljnija u smislu povećanja greške tipa I, te
osetljivosti same metode na narušavanje klasičnih pretpostavki linearnih modela. Kako je
logistička regresija robusna na klasične pretpostavke linernih modela, pretpostavilo se da će
davati stabilnije efekte u odnosu na ANOVU, ali i i u odnosu na mešovite logit modele, s
obzirom na to da mešoviti logit modeli uzimaju u obzir i variranja koja potiču od ispitanika i
stimulusa.
METOD
S obzirom na to da su se isti podaci koristili za demonstraciju sva tri metoda, koristio se
jedinstveni opis za sve tri analize, izuzev dela koji se odnosi na proceduru, u kojem su se istakle
karakteristike primenjenih analiza. Za analizu podataka koristio se R statistički program (R-
project.org).
Ispitanici
U istraživanju je učestvovalo 44 ispitanika u zadatku slobodne i 47 ispitanika u zadatku
navođene reprodukcije.
Stimulusi
Svi ispitanici su učili listu od 41 para reči. Osam parova reči bili su fileri i služili su za
kontrolu efekta početka i kraja (Murdock, 1962), dok su 33 para bili stimulusi. Svi stimulusi
predstavljali su parove visoko asocijativno povezanih imenica - 11 parova činile su apstraktne
reči, to jest reči koje označavaju pojmove koji se ne mogu iskusiti čulima (agresija-nasilje), 11
parova bile su reči koje referišu na pojam koji se može iskusiti malim brojem čula (ubod-igla), a
11 parova bile su reči koje referišu na pojam koji se može iskusiti većim brojem čula (narandža-
breskva). Stimulusi su bili ujednačeni po konkretnosti, familijarnosti, dužini reči, logaritmu
frekvencije reči i po konkretnosti za vizuelni modalitet. Kontrola za vizuelni modalitet uvedena
20
je kako bi eventualno beleženje efekta broja čula moglo biti pripisano i drugim čulima, a ne
samo vizuelnom.
Istraživački nacrt
U ovom istraživanju primenio se 2 x 3 mešoviti faktorski nacrt (Slika 1), gde je faktor
zadatka bio neponovljen po ispitanicima, a ponovljen po stimulusima, dok je faktor broja čula
bio neponovljen po stimulusima, a ponovljen po ispitanicima.
Slika 1. Grafički prikaz istraživačkog nacrta
Procedura
Eksperiment je sproveden u vidu grupnog testiranja, gde su parovi reči bili izlagani preko
projektora. Parovi reči su prikazivani sukcesivno, pri čemu se prvo pojavljivala fiksciona tačka u
trajanju od 1000 ms, a zatim par stimulusa u trajanju od 8000 ms. Ispitanici su dobili instrukciju
da je cilj istraživanja razumevanje procesa čitanja (kasniji test nije pominjan) i da je njihov
zadatak da pažljivo čitaju i pokušaju da zapamte parove reči koje su im prikazivane preko
projektora. Za slobodnu reprodukciju ispitanici su dobijali prazan beli papir i imali su zadatak da
napišu što više parova reči koje su prethodno učili. Za zadatak navođene reprodukcije,
konstruisan je poseban obrazac za reprodukovanje, na kom su u tabeli bile prikazane sve prve
reči iz para (znakovi), a zadatak ispitanika bio je da, pored odgovarajućeg znaka, dopiše drugu
reč koja je bila u paru (metu). Redosled reči na obrascu bio je randomizovan, i postojale su tri
varijante obrazaca sa istim rečima, ali sa različitim redosledom. Vreme reprodukcije bilo je
ograničeno na pet minuta.
NAVOĐENA reprodukcija SLOBODNA rerpodukcija
NULA čula MALO čula MNOGO čula
21
Analiza podataka
Svi podaci analizirani su pomoću R statističkog programa (R-project.org). Za ANOVU i
logističku regresiju koristio se paket stats (R-project.org), a za mešovite logit modele koristio se
paket lme4 (Bates, Maechler, Bolker, & Walker, 2015). Dodatno se za pojedine funkcije koristio
paket rms (Harell, 2015). Prva metoda koja se poredila u radu bila je analiza varijanse.
Sprovedena je analiza po ispitanicima (F1 test) i analiza po stimulusima (F2 test). Druga metoda
bila je logistička regresija, pri čemu je zavisna varijabla bila odgovor – koji je bio binarnog
karaktera (1-tačno, 0 – netačno), a nezavisne varijable bile su zadatak (kategorijalna varijabla sa
dva nivoa – slobodna i navođena reprodukcija) i broj čula (kategorijalna varijabla sa tri nivoa –
nula, malo, mnogo). Treća metoda bila je metoda mešovitih logit modela. Ovom metodom
testirao se isti model kao i u logističkoj regresiji, uz uključivanje ispitanika i reči kao slučajnih
efekata. Svi kodovi za analizu u R statističkom programu dati su u dodatku na kraju rada.
U drugom delu istraživanja proveravala se stabilnost zabeleženih ocena pomoću metode
samouzorkovanja (“bootstrapping”; Davison et al., 2003; Efron, 2000; Purić & Opačić, 2013).
Pomoću ove metode se iz postojećeg uzorka kreira veliki broj novih uzoraka, koji su iste veličine
kao i izvorni uzorak. To znači da se uzorkovanje obavlja sa “vraćanjem”. Drugim rečima, svaka
jedinica iz izvornog uzorka ima jednaku šansu da uđe u novi uzorak, i ako uđe u novi uzorak, ta
jedinica se ponovo vraća u izvorni uzorak. S obzirom na navedeno, može se desiti da jedna
jedinica bude izabrana više puta u istom poduzorku. Na ovaj način moguće je napriviti izuzetno
veliki broj novih uzoraka. Opšta preporuka je da je za procenu standardne greške parametra
potrebno bar 100, a za procenu interval poverenja i pristrasnosti od 2000 do 5000 uzoraka (Purić
& Opačić, 2013). Postoje mišljenja da ne postoji jednostavan odgovor na to koliko je uzoraka
porebno, već da je taj broj potrebno odrediti kroz mala pilot istraživanja (Davison & MacKinnon,
2000). U ovom istraživanju pomoću metode samouzorkovanja procenjivala se kako standardna
greška ocenjenih parametara i pristrasnost (F – u ANOVI, z – u logističkoj regresiji i t – u
mešovitim logit modelima), tako i intervali poverenja ocenjenih parametara. Pristrasnost
predstavlja razliku između originalnih ocena dobijenih modelovanjem i ocene dobijene metodom
samouzorkovanja. Kada su u pitanju intervali poverenja, postoji više vrsta onih koji se dobijaju
metodom samouzorkovanja. To su normalizovani, osnovni, studentizovani, percentilni i intervali
korigovani za pristrasnost. Studentizovani intervali i oni korigovani za pristrasnost imaju veću
22
preciznost od ostalih. Mana studentizovanih intervala jeste što mora biti poznata varijansa ocene
samouzorkovanjada bi se mogli izračunati. Normalizovani se koriste ako je raspodela ocenjivača
približno normalna, dok ukoliko nije, tada je bolje koristiti osnove i percentilne intervale
(Davison & Kuonen, 2002). U principu, što su intervali poverenja “uži” to će se smatrati da je
statistička metoda pouzdanija. Drugim rečima, što ocena parametra manje varira, to znači da je
manje zavisna od uzorka i manje pristrasna, te da na osnovu nje možemo imati pouzdanije
zaključke. Takođe, pomoću intervala poverenja dobijenih metodom samouzorkovanja mogu se
doneti pouzdaniji zaključci o statističkoj značajnosti određenih parametara. Kao i kod klasičnog
zaključivanja, ukoliko interval ne obuhvata nulu, to znači da je efekat statistički značajan. Ipak,
potrebno je naglasiti da je samouzorkovanje metoda koja počiva na temeljima tradicionalne
statistike (Davison & Kuonen, 2002), te da je jedini uslov za njegovu primenu da podaci kojima
istraživači raspolažu, na izvestan način reprezentuju populaciju. Drugim rečima, i za metodu
samouzorkovanja kao i za druge statističke metode važi: “smeće unutra-smeće napolje”
(“garbage in, garbage out”; Davison & Kuonen, 2002, strana 11).
Za samouzorkovanje parametara iz ANOVE, logističke regresije i mešovitih logit modela
koristitio se paket boot (Canty & Ripley, 2015), pomoću kog se obavlja neparametrijsko
samouzorkovanje (postoji i parametrijsko samouzorkovanje koje se obavlja nad reziudualima,
dok se neparametrijsko obavlja nad jedinicama posmatranja). U ovom istraživanju, koristilo se
2000 uzoraka za standardne greške i pristrasnost, a 10 000 uzoraka za intervale poverenja (95%)
što se odredilo u malom pretest ispitivanju -u skladu sa preporukama koje su navedene u radu
(Davison & MacKinnon, 2000). U ovom istraživanju, prvobitno određenih 2000 uzoraka bilo je
malo da se izračunaju intervali poverenja za koeficijente logističke regresije i mešovitih logit
modela. To znači da se sa 2000 uzoraka nisu pouzdano mogli izračunati intervali poverenja
korigovani za pristrasnost kod logističke regresije, dok se ni jedan interval nije mogao na tom
uzorku izračunati kod mešovitih logit modela. Drugim rečima, ove metode zahtevaju mnogo
veće uzorke, i to u smislu, što su preciznije to jest, što je veći originalni uzorak, to je potrebno da
i uzorak za samouzorkovanje bude veći kako bi dobijene ocene samouzorkovanja bile pouzdane.
23
REZULTATI
ANOVA nad proporcijom tačnih odgovora
Za obradu podataka pomoću klasične analize varijanse radile su se dve odvojene analize
– po ispitanicima i po stimulusima. Koristila se funkcija „aov“ R programa. U obe analize
primenila se split-plot analiza varijanse, tj. analiza za mešoviti dizajn.
Analiza po ispitanicima – F1 test
Kao što je već rečeno, u analizi po ispitanicima, faktor broja čula bio je ponovljen po
ispitanicima (within factor), dok je faktor zadatka bio neponovljen po ispitanicima (between
factor). Drugim rečima, primenjena je split-plot analiza varijanse (R kod se nalazi u dodatku 1).
Zabeležen je glavni efekat zadatka: F(1,89)=57.57, p
24
Analiza pomoću logističke regresije
Za analizu podataka pomoću logističke regresije, koristili su se “sirovi” podaci, odnosno,
koristio se dugački format podataka. Zavisna varijabla bila je odgovor, koji jepredstavljao
binarnu varijablu sa nivoima 1 – tačan, 0 – netačan odgovor. Nezavisne varijable bile su broj
čula i zadatak.
Za proveru glavnih efekata kreirana su tri modela:
1. Odgovor~Zadatak
2. Odgovor~Zadatak+Broj Čula
3. Odgovor~Zadatak*Broj Čula
Na ovaj način želelo se proveriti da li broj čula značajno doprinosti objašnjenju tačnosti
odgovora. Poslednji model uključuje i efekat interakcije, čime se stekla mogućnost poređenja
efekata sa ANOVOM. U Tabeli 2 prikazani su koeficijenti uporedo za sva tri modela, kao i
indeksi fitovanja modela
Tabela 2. Uporedni prikaz regresionih koeficijenata tri logistička modela
Model B St.greška Z
vrednost
P Fitovanje modela
Model 1 AIC= 3825.8
Intercept
(slobodna
reprodukcija)
-1.0018 0.0592 -16.92 ***
Pseudo R²=0.11
Zadatak: navođena -1.218 0.0782 -15.575 ***
Model 2 AIC= 3779.1
Intercept
(slobodna
reprodukcija,
nula čula)
-1.3882 0.08541 -16.254 ***
Pseudo R²=0.131
Zadatak:navođena 1.2397 0.07908 15.676 ***
Broj čula:malo 0.4307 0.09668 4.455 ***
Broj čula:mnogo 0.6741 0.09647 6.987 ***
Model 3
AIC=3781.6
Intercept
(slobodna -1.4629 0.11633 -12.575 *** Pseudo R²=0.131
25
reprodukcija,
nula čula)
Zadatak:navođena 1.35841 0.11633 9.309 ***
Broj čula:malo 0.49251 0.15460 3.186 **
Broj čula:mnogo 0.81289 0.15067 5.395 ***
Navođena*Malo -0.0957 0.19890 -0.482 0.63
Navođena*Mnogo -0.2396 0.19655 -1.219 0.22
Legenda: *** - p
26
Tabela 3. Poređenje modela koji uključuju samo slučajne efekte
DF AIC BIC logLik Devijansa ᵡ² P
Model 2 2 4007.8 4019.8 -2001.9 4003.8
Model 3 2 3672.9 3685 -1834.5 3668.9 334.89 ***
Model 1 3 3569.4 3587.4 -1781.7 3563.4 105.56 *** *** - značajnost na nivou p
27
modalitet:mnogo 0.89836 0.2466 3.644 *** logLik:-1753.3
navođena:malo -0.0258 0.2134 -0.121 0.903
navođena:mnogo -0.1985 0.2104 -0.944 0.345 Legenda: *** - p
28
Tabela 5. Rezultati analize samouzorkovanja ocena F statistika u analizi po ispitanicima
95 % Intervali poverenja
Efekat
Orig.
ocena Prist.
St.
greška Osnovni Percentilni Korigovani
Zadatak 57.574 2.854 18.831 (10.29, 84.56 ) ( 30.59, 104.86 ) ( 30.10, 102.90 )
Broj čula 24.106 1.751 8.195 ( 4.29, 36.11 ) (12.10, 43.93 ) (10.57, 40.98 )
Interakcija 0.177 0.989 1.192 (-4.0885, 0.3248 ) ( 0.0298, 4.4432 ) ( 0.00, 0.6387 ) Legenda: Orig. ocena – ocena dobijena analizom varijanse; Prist. – pristrasnost, tj razlika originalne ocene i ocene
dobijene samouzorkovanjem; st. greška- standardna greška ocene dobijene samouzorkovanjem. Intervli poverenja
su prikazani u zagradi, tako da prva vrednost označava donju granicu, a druga gornju granicu interval.
Na osnovu distribucije ocena F statistika, moglo bi se reći da su ocene za efekat zadatka
najpouzdanije, da u najmanjoj meri odstupaju od normalne distribucije, dok ocene F statistika za
efekat broja čula imaju nešto više pozitivno zakošenu distribuciju. Distribucija F statistika za
interakciju drastično odstupa od normalne, što i nije iznenađujuće, s obzirom na to da nije
statistički značajan, te izgled ove distribucije prati izgled distribucije za retke događaje.
Grafik 2. Distribucija ocena F statistika za efekat zadatka
Grafik 3. Distribucija ocena F statistika za efekat broja čula
29
Grafik 4. Distribucija ocena F statistika za interakciju broja čula i zadatka
Analiza po stimulusima
Standardne greške ocena, pristrasnost, te intervali poverenjaF statistika dobijenih
metodom samouzorkovanja su prikazani u tabeli 6.Kao što se može primetiti pristrasnost,
odnosno razlika između ocene dobijene modelom i ocene dobijene metodom samouzorkovanja je
najveća za efekat zadatka. Kada su u pitanju intervali poverenja, sva tri tipa intervala poverenja
daju različite raspone. Već na osnovu toga, moglo bi se reći da su ocene F statistika veoma
nestabilne, kada je u pitanju analiza po stimulusima. Na grafikonima 5, 6 i 7 prikazane su
distribucije Fstatistika za efekat broja čula, zadatka i interakciju, kao i njihov kvantil dijagram.
Tabela 6. Rezultati analize samouzorkovanja ocena F statistika u analizi po stimulusima
95% Intervali poverenja
Efekat
Orig.
ocena Prist.
St.
greška Osnovni Percentilni Korigovani
Broj čula 6.333 1.777 4.024 (-5.422; 10.350 ) ( 2.316; 18.088 ) ( 1.542; 13.896 )
Zadatak 181.943 31.832 67.151 (-16.7; 253.1 ) (110.8; 380.5 ) ( 85.9; 300.7 )
Interakcija 0.123 1.186 1.568 (-5.4005; 0.2195 ) ( 0.0257; 5.645 ) ( 0.000; 0.394 ) Legenda: Orig. ocena – ocena dobijena analizom varijanse; Prist. – pristrasnost, tj razlika originalne ocene i ocene
dobijene samouzorkovanjem;st. greška- standardna greška ocene dobijene samouzorkovanjem. Intervli poverenja su prikazani u zagradi, tako da prva vrednost označava donju granicu, a druga gornju granicu interval.
Može se primetiti da sva ocene F statistika sva tri efekta prilično odstupaju od normalne
raspodele, pogotovo ocene za interakciju, što je i očekivano, s obzirom na to da ovaj efekat nije
statistički značajan. Zanimljivo je to da iako je efekat zadatka u analizi po stimulusima izraženiji,
ocene F statistika dobijene samouzorkovanjem se slično ponašaju.
30
Grafik 5. Distribucija ocena F statistika zaefekat broja čula
Grafik 6. Distribucija F statistika za efekat zadatka
Grafik 7. Distribucija F statistika za interakciju broja čula i zadatka
31
Metoda samouzorkovanja primenjena na logističkoj regresiji
Kod za samouzorkovanje koeficijenata dobijenih logističkom regresionom analizom
(dodatak 4) napisali su Hosain i Kan (Hossain & Khan, 2004). U tabeli 7 mogu se videti ocene
parameta dobijenih modelom, pristrasnost, standardna greška parametara dobijenih
samouzorkovanjem, te intervali poverenja. Kao i kod samouzorkovanja ANOVE, i ovde se za
standardne greške i pristrasnost koristilo 2000, a za interval poverenja 10000 uzoraka.
Na osnovu pristrasnosti, odnosno razlike između ocene parametara dobijenih modelom i
metodom samouzorkovanja, može se videti da je ona najmanja za ocenu koeficijenta koji se
odnosi na razliku između mnogo i nula broja čula. Ako se uporedi sa pristrasnosti iz
samouzorkovanja F koeficijenata, može se primetiti da je kod logističke regresije ona mnogo
manja. Ako se pogledaju intervali poverenja, oni su jednoznačni za sva tri koeficijenta. Dakle,
sve tri vrste intervala su u saglasnosti jedan sa drugim, što govori o pouzdanosti ocena dobijenih
logističkom regresijom u odnosu na ANOVU kada se koristi nad procentima.
Tabela 7. Rezultati analize samouzorkovanja ocena z statistika
95% Intervali poverenja
E fekat
Orig.
ocena Prist.
St.
greška Osnovni Percentilni Korigovani
Nav:slob 1.2397 0.003 0.0795 (1.083; 1.392) ( 1.087, 1.396 ) ( 1.087, 1.396 )
Malo:nula 0.4307 -0.004 0.0985 ( 0.2454, 0.6242 ) ( 0.2373, 0.6160 ) ( 0.2449, 0.6231 )
Mnog:nula 0.6741 -0.002 0.0977 ( 0.4864, 0.8615 ) (0.4867, 0.8618 ) (0.4891, 0.8647 ) Legenda: Orig. ocena – ocena dobijena analizom varijanse; Prist. – pristrasnost, tj razlika originalne ocene i ocene
dobijene samouzorkovanjem; st. greška- standardna greška ocene dobijene samouzorkovanjem. Intervli poverenja
su prikazani u zagradi, tako da prva vrednost označava donju granicu, a druga gornju granicu interval.
Na graficima 8, 9 i 10 su prikazane distribucije ocena samouzorkovanja svakog z
statistika, kao i kvantil dijagrami. Na osnovu kvantil dijagrama možemo videti dasu odstupanja
od normalne distribucije minimalna. Drugim rečima, logistička regresija daje mnogo stabilnije
ocene u odnosu na ANOVU, ukoliko se kao zavisna varijabla koriste procenti.
32
Grafik 8. Distribucija z statistika za zadatak navođena:slobodna
Grafik 9. Distribucija z statistika za broj čula malo : nula
Grafik 10. Distribucija z statistika za broj čula mnogo:nula
33
Metoda samouzorkovanja primenjena na mešovitim logit modelima
U tabeli 8 prikazani su rezultati analize samouzorkovanja fiksnih efekata iz mešovitog
logit modela bez interakcije zadatka i broja čula, s obzirom na to da je taj model imao najbolji
indeks fita. Najmanju pristrasnost ima koficijent za broj čula malo naspram nula, dok najveću
pristrasnost ima koeficijent za zadatak navođena naspram slobodna reprodukcija, s tim da taj
koeficijent ima najmanju standardnu grešku. Kada se ove ocene uporede sa ocenama
samouzorkovanja iz logističke regresije, može se primetiti das u standardne greške i pristrasnost
veća za mešovite modele. Ovo nije neočekivano s obzirom na to da metoda mešovitih modela
uključuje više šuma, odnosno slučajne efekte ispitanika i stimulusa, što se odrazilo i na nešto šire
intervale poverenja, u odnosu na intervale parametara logističke regresije. Najverovatnije da bi
se povećanjem broja uzorka za samouzorkovanje, dobili precizniji intervali, i da je za ovu
metodu, uopšteno potreban veći uzorak.
Tabela 8. Rezultati analize samouzorkovanja fiksnih efekata u mešovitim logit modelima
95% Intervali poverenja
E fekat
Orig.
ocena RPrist.
St.
greška Osnovni Percentilni Korigovani
Nav:slob 1.4402 0.0758 0.0943 ( 1.181; 1.546 ) ( 1.335; 1.699 ) ( 1.170; 1.550 )
Malo:nula 0.4965 0.0185 0.1117 ( 0.2632; 0.6875 ) ( 0.3056; 0.7299 ) ( 0.2681; 0.6937 )
Mnog:nula 0.7892 0.0342 0.1098 ( 0.5324; 0.9708 ) ( 0.6075; 1.0460 ) ( 0.5380; 0.9743) Legenda: Orig. ocena – ocena dobijena analizom varijanse; Prist. – pristrasnost, tj razlika originalne ocene i ocene
dobijene samouzorkovanjem; st. greška- standardna greška ocene dobijene samouzorkovanjem. Intervli poverenja
su prikazani u zagradi, tako da prva vrednost označava donju granicu, a druga gornju granicu interval.
Na graficima 11, 12 i 13 mogu se videti distribucije ocena samouzorkovanja fiksnih
efekata. Može se primetiti das u distribucije vrlo slične onima dobijenim samouzorkovanjem u
logističkoj regresiji. Na osnovu kvantil dijagrama ocena samouzorkovanja može se videti da
distribucije ocena ne odstupaju značajno od normalne.
34
Grafik 11. Distribucija ocena samouzorkovanja t statistika za efekat navođena : slobodna
Grafik 12. Distribucija ocena samouzorkovanja t statistika za efekat broj čula malo : nula
Grafik 13. Distribucija ocena samouzorkovanja t statistika za efekat broj modeliteta mnogo:
nula
35
DISKUSIJA
Problem ovog istraživanja odnosio se na ispitivanje efikasnosti različitih statističkih
analiza nad podacima binarne prirode. Tačnije, upoređivala se efikasnost klasične analize
varijanse, binarne logističke regresije i mešovitih logit modela. Aktuelnost i važnost ove
tematike može se sagledati iz više aspekata. Jedan se odnosi na samu neadekvatnost korišćenja
ANOVE nad proporcijama ili procentima (Baayen, 2012; Jaeger, 2008). Drugi aspekt je vezan
za psiholongvistička istraživanja i važnost posmatranja jezika kao slučajnog efekta (Baayen,
2012; Clark, 1974; Coleman, 1964; Raajinmakers, 1999).
U prvom delu istraživanja dat je prikaz rezultata iz istraživanja koje je ispitivalo uticaj
broja čula kojim se može iskusiti pojam na tačnost reprodukcije u paradigmi asocijativnog
učenja parova reči (Popović Stijačić & Filipović Đurđević, 2015). Podaci iz tog istraživanja su
analizirani split plot ANOVOM, i to kroz dve analize, po ispitanicima i po stimulusima. Ovaj
način analize je inače još uvek vrlo prisutan kako u stranim tako i u domaćim istraživanjima.
Nad podacima iz tog istraživanja su se zatim primenili logistička regresija i analiza mešovitih
logit modela. Rezultati dobijeni u ovim analizama bili u skladu sa očekivanjima. Naime, sve tri
analize dale su slične rezultate. Tačnost reprodukcije je bila veća u zadatku navođene u odnosu
na zadatak slobodne reprodukcije, dok su se najtačnije reprodukovali pojmovi koji se mogu
iskusiti većim brojem čula, zatim pojmovi koji se mogu iskusiti manjim brojem čula, i na kraju
apstraktni pojmovi. Nijedna od pomenutih analiza nije zabeležila efekat interakcije.
Bez obzira na to što su sve tri analize dale iste rezultate, ostaje činjenica da je za
proporcije, odnosno binarne zavisne varijable bolje koristiti logističku regresiju. Ako želimo da
uzmemo u obzir i slučajne efekte koji potiču od ispitanika ili od stimulusa, tada na raspolaganju
stoje mešoviti logit modeli. Ukoliko analize kojima se porede ugnježđeni modeli (Baayen, 2012;
Jaeger, 2008) pokažu da nije potrebno uključiti slučajne efekte u analizu, tada se možemo vratiti
logističkoj regresiji.
U drugom delu istraživanja okrenuli smo se ispitivanju efikasnosti pomenutih metoda,
tako što smo pomoću metode samouzorkovanja ocenjivali parametre pojedinačnih modela. Na
osnovu metode neparametrijskog samouzorkovanja (Davison et al., 2003) ocenjivala se
36
pristrasnost, odnosno razlika između ocena parametara dobijenih originalin modelom i ocena
dobijenih samouzorkovanjem, zatim standardna greška ocene samouzorkovanja i intervali
poverenja za ocenjene parametre. U skladu sa polaznom pretpostavkom ocene F statistika
dobijene samouzorkovanjem pokazale su se kao najnestabilnije, odnosno imale su najveću
pristrasnost i standardnu grešku. Najveća odstupanja pokazala su se na intervalima poverenja,
pogotovo u analizi po stimulusima, gde su osnovni intervali poverenja obuhvatali i nulu. Pored
toga, distribucije ocena dobijenih samouzorkovanjem prilično su odstupale od normalne, pri
čemu su bile pozitivno zakrivljene, što govori o tome da je verovatnoća odbacivanja nulte
hipoteze smanjena u slučaju kada se analiza varijanse primenjuje nad proporcijama. Ovakav
rezultat je u skladu i sa Jegerovim nalazima (Jaeger, 2008). Rezultati samouzorkovanja
primenjenog na logističkoj regresiji i mešovitim logit modelima su takođe u skladu sa polaznim
očekivanjima. Pristrasnost i standardne greške su manje za ocenjene parametre logističke
regresije nego za mešovite logit modele. Ovakav rezultat je posledica toga što mešoviti logit
modeli uključuju i slučajne efekte koji potiču od ispitanika i stimulusa, odnosno sadrži više
šuma, koji utiče na standardnu grešku i pristrasnost. Ipak pristrasnost je daleko manja od jedan,
te se može reći dasu ocene parametara dobijene samouzorkovanja veoma slične ocenama
dobijenih kroz model. Intervali poverenja kako za ocene parametara logističke regresije, tako i za
one iz mešovite logit modele su u međusobnoj saglasnosti. Drugim rečima sve tri vrste intervala
poverenja daju iste zaključke. Pored toga oni su uski (manji od jedan) i znatnosu uži od intervala
poverenja F statistika (intervali F statistika su veći od jedan). Distribucije ocenjenih parametara i
logističke regresije i mešovitih logit modela su približno normalne, drugim rečima, ocene
parametara dobijenih ovim metodama nisu pristrasne. Na osnovu zabeleženih rezultata može se
izvući nekoliko zaključaka. Pre svega pomoću metode samouzorkovanja empirijski se pokazalo
da je primena ANOVE nad binarnim podacima, odnosno proporcijama neprimerena, jer su ocene
F statistika u tom slučaju pristrasne, te da postoji povećanje verovatnoće greške tipa II, odnosno
smanjena je šansa za odbacivanje nulte hipoteze. Pored toga, demonstrirali smo pomoću
mešovitih logit modela da postoji opravdanost tretiranja jezika kao slučajnog efekta. Sama
analiza omogućava testiranje opravdanosti uključivanja slučajnog efekta u model, što je u skladu
sa F1 x F2 debatom. Drugim rečima, istraživači mogu na komforan način da testiraju da li je
potrebno ili ne uzeti u obzir variranja koja potiču od ispitanika ili stimulusa, bez obzira na to da
li je nacrt istraživanja ugnježden ili ukršten. Takođe, metodom samouzorkovanja pokazalo se da
37
i logistička regresija i mešoviti logit modeli daju nepristrasne ocene parametara. Prednost
mešovitih modela je u tome što istraživačima, naročito u polju psiholingvistike pruža već
pomenuto uključivanje slučajnog variranja.
Novina ovog istraživanja ogleda se u tome da se na našem području istraživači nisu do
sada bavili pitanjima adekvatnosti primene analize varijanse nad proporcijama. Jedan od ciljeva
ovog istraživanja bio je da se istraživačima, pogotovo onim koji se bave psiholingvistikom i
memorijskim procesima, da podstrek da sprovode drugačije analize od tradicionalne analize
varijanse koja se još uvek primenjuje u velikoj meri. Takođe, kroz ovaj rad se demostrirao i R
statistički program, koji su istraživači na našim prostorima u velikoj meri izbegavali, a čija je
prednost, pored toga što je besplatan, to što nudi veoma široku paletu mogućih analiza.
38
LITERATURA
Baayen, R. H. (2013). Multivariate Statistics. In R. Podesva and D. Sharma, Research Methods
in Linguistics. Cambridge: Cambridge University Press, 337-372.
Baayen, R. H. (2012). Mixed-effects models. In Cohn, A. C., Fougeron, C. and Huffman, M.K.
(eds.), Handbook of Laboratory Phonology , 668 – 677. Oxford: Oxford University Press.
Baayen, R. H. (2010). A real experiment is a factorial experiment? The Mental Lexicon, 5(1),
149–157.
Baayen, R. H. (2008). Analyzing linguistic data: A practical introduction to statistics using R.
Cambridge, U.K.: Cambridge University Press.
Baayen, R.H., Davidson, D. J. & Bates, D.M. (2008). Mixed-effects modeling with crossed
random effects for subjects and items. Journal of Memory end Language, 59, 390-412.
Bates, D. Maechler, M., Bolker, B. & Walker, S. (2015). lme4: Linear mixed-effects models
using Eigen and S4. R package version 1.1-9, https://CRAN.R-project.org/package=lme4.
Clark, H. H. (1973). The Language-as-Fixed-Effect Fallacy: A Critique of Language Statistics in
Psychological Research. Journal of Verbal Learning and Verbal Behavior, 12, 335-359.
Coleman, E. B. (1964). Generalizing to a language population. Psychological Reports, 14, 219-
226.
Cumming, G. (2014). The New Statistics: Why and How. Psychological Science, 25(1), 7 –29.
Davison, A. C., Hinkley, D. V. & Young, G. A. (2003). Recent Developments in Bootstrap
Methodology. Statistical Science ,18, 141–157.
Davison, A. C. & Kuonen, D. (2002). An introduction to the bootstrap with applications in
R. Statistical Computing and Statistical Graphics Newsletter, 13 (1), 6-11.
Davidson, R.& MacKinnon, J.G.(2000). Bootstrap Tests: How Many Bootstraps? Econometric
Reviews 19(1), 55–68.
Efron, B. (2000). The Bootstrap and Modern Satistics. Journal of the American Statistical
Association, 95, 1293–1296.
Hossain, A. & Abdullah Khan, H. T. (2004). Nonparametric bootstrapping for multiple logistic
regression model using r, BRAC University Journal, 1, 109-113.
https://cran.r-project.org/package=lme4
39
Ioannidis, J. P. A. (2005). Why most published research findings are false. PLoS Medicine, 2 (8),
696-701. Pristupljeno 27. 06. 2015. sa:
http://www.plosmedicine.org/article/fetchObject.action?uri=info:doi/10.1371/journal.pmed.0
020124&representation=PDF
Jaeger, T. F. (2008). Categorical Data Analysis: Away from ANOVAs (transformation or not)
and towards Logit Mixed Models. Journal of Memory and Language, 59 (4), 434-446.
Kostić, A. (2005). Kognitivna psihologija. Beograd: Zavod za izdavanje udžbenika
Marschark, M., & Hunt, R. R. (1989). A reexamination of the role of imagery in learning and
memory. Journal of Experimental Psychology: Learning, Memory, and Cognition, 15, 710-
720.
Marschark, M. & Surian, L. (1992). Concreteness effects in free recall: The roles of imaginal and
relational processing. Memory & Cognition, 20, 612-620.
Murdock, B. B. Jr. (1962). The retention of individual items. Journal of Experimental
Psychology, 62, 618-625.
Open Science Collaboration (2015). Estimating the reproducibility of psychological science.
Science, 28 August 2015: 349 (6251), aac4716 [DOI:10.1126/science.aac4716]
Paivio, A. (1969). Mental imagery in associative learning and memory. Psychological Review,
76, 241-263.
Paivio, A., Walsh, M., & Bons, T. (1994). Concreteness effect on memory: when and
why?.Journal of Experimental Psychology: Learning, Memory, and Cognition, 20, 1196-
1204.
Popović Stijačić, M.& Filipović Đurđević, D. (2015). Uspešnost reprodukcije u zavisnosti od
broja čula kojima je moguće iskusiti pojam. Primenjena psihologija (prihvaćen za
objavljivanje).
Purić, D. & Opačić,G. (2013). Poduzorkovanje, samouzorkovanje, postupak „univerzalnog noža”
i njihova upotreba u postupcima za statističku analizu multivarijacionih podataka.
Primenjena psihologija, 6, 249-266.
Quené, H., van der Bergh, H. (2008). Examples of mixed-effects modeling with crossed random
effects and with binomial data. Journal of Memory and Language, 59, 413-425.
Radanović, J. i Vaci, N. (2013). Analiza vremena reakcije modelovanjem linearnih mešovitih
efekata. Primenjena psihologija, 6(3), 311-332.
http://www.plosmedicine.org/article/fetchObject.action?uri=info:doi/10.1371/journal.pmed.0020124&representation=PDFhttp://www.plosmedicine.org/article/fetchObject.action?uri=info:doi/10.1371/journal.pmed.0020124&representation=PDF
40
Raajinmakers, J., Schrijnemakers, J. & Gremmen, F. (2008). How to Deal with „The Language-
as-Fixed-Effect Fallacy“: Common Misconceptions and alternative Solutions. Jpurnal of
Memory and Language (41), 416-426.
Rotello, C.M., Macmillan, N. A. & Van Tassel, G. (2000). Recall-to-Reject in Recognition:
Evidence from ROC Curves. Journal of Memory and Language, 43 (1), 67-88.
Tabachnick, B. & Fidell, L. (2007). Using Multivariate Statistics.USA: Pearson Education, Inc.
Tenjović, L. i Smederevac, S. (2011). Mala reforma u statističkoj analizi podataka: malo p nije
dovoljno, potrebna je i veličina efekta. Primenjena psihologija, 4, 317-333.
Yonellinas, A. P. (1994). Receiver-Operating Characteristics in Recognition Memory: Evidence
for a Duall-Process Model. Learning Memory & Cognition, 20 (6). 1341-1354.
41
DODATAK
DODATAK 1. Kod u R-u korišćen za analizu varijanse
#Analiza po ispitanicima
aovf1=aov(Procenat~Modalitet*Zadatak+Error(Ispitanik/Modalitet,anovaf1))
summary(aovf1)#Ispis ANOVA tabele
with(aovf1, pairwise.t.test(procenat, modalitet, p.adjust.method="bonferroni")) #post hoc test
#Analiza po stimulusima
aovf2=aov(Proporcija~Zadatak*Modalitet+Error(rec1/Zadatak,anova.f2))
summary(aovf2)#Ispis ANOVA tabele
with(an2, pairwise.t.test(procenat, modalitet, p.adjust.method="bonferroni”)) #post hoc test
DODATAK 2. Kod u R-u korišćen za logističku regresiju
# Prvi logistički model sa zadatkom kao prediktorom
logit0
42
anova(logit0,logit1,logit2,test="Chisq")
#Računanje pseudo R2
library(rms)
N
43
DODATAK 4 Kod u R-u za računanje ocena F statistika metodom samouzorkovanja
A) Analiza po ispitanicima – F1 test
library (boot)
data1
44
B) Analiza po stimulusima
data2
45
DODATAK 5. Kod u R-u za računanje ocena parametara binarne logističke regresije metodom
samouzorkovanja
boot.Logit
46
data1$zadatak