of 63 /63
OCENJEVANJE ZANESLJIVOSTI TESTA “V kolikšni meri na testne dosežke vplivajo slučajne napake?” Zanesljivost Kaj je zanesljivost (2 (+1) koncept zanesljivosti)

OCENJEVANJE ZANESLJIVOSTI TESTA

  • Author
    crwys

  • View
    83

  • Download
    0

Embed Size (px)

DESCRIPTION

OCENJEVANJE ZANESLJIVOSTI TESTA. “V kolikšni meri na testne dosežke vplivajo slučajne napake?”. Zanesljivost K aj je zanesljivost (2 (+1) koncept zanesljivosti). Klasična testna teorija (teorija pravega dosežka):. X = T + E T = E(X) r TE = 0. Koeficient zanesljivosti. - PowerPoint PPT Presentation

Text of OCENJEVANJE ZANESLJIVOSTI TESTA

  • OCENJEVANJE ZANESLJIVOSTI TESTAV kolikni meri na testne doseke vplivajo sluajne napake?ZanesljivostKaj je zanesljivost (2 (+1) koncept zanesljivosti)

  • Klasina testna teorija (teorija pravega doseka): X = T + E T = E(X)rTE = 0

  • Koeficient zanesljivosti

  • Klasina testna teorija vs. teorija posploljivostiKadar hoemo meriti neko spremenljivko (vedenje), imamo po tej teoriji vedno opraviti s celotnim podrojem ali univerzumom vedenj.

    Ker se univerzum vedno nanaa na zelo veliko tevilo obnaanj v neki dejavnosti, se moramo iz isto praktinih razlogov odloiti za konni vzorec obnaanj.

    Konni vzorec vedenj je isto kot izmerjeni doseek v klasini testni teoriji, tako kot je univerzalni doseek isto kot pravi doseek v klasini psihometrini teoriji. Razlika je v tem, da teorija posploljivosti dopua monost razlinih alternativnih monih univerzumov generalizacije, pri katerih vsak vsebuje drugane vire napake merjenja.

    Varianca napake je vse, kar sestavlja konni, dobljeni doseek in ni pravi doseek.

  • Varianca napake naeloma lahko pride od koderkoli, vendar:

    (i) Sestavljanje testa (npr. posledica t.i. vzorenja nalog ali vzorenja vsebine).

    (ii) Administriranje testa (vpliv testatorja ali medsebojnega vplivanja med testatorjem in testirancem ter testiraneva pozornost, pazljivost, natannost, motivacija, fizino in psihino splono poutje, prespanost, nivo testne anksioznosti, obremenjenost s ustvenimi problemi, trenutna podvrenost vplivu raznih poivljajoih ali pomirjajoih substanc ...; faktorji okolja (sobna temperatura, stopnja osvetlitve, prezraenost, hrup, prostornost in udobnost mesta testiranja za posameznika ...).

    (iii) Vrednotenje rezultatov ter interpretacija. Bolj ko je test objektiviziran pri postopkih vrednotenja in razlaganja izsledkov, manja bo napaka merjenja, ki od tod izvira. Napako, ki od tod izvira, je zelo teko kontrolirati.

  • Najve oitkov predpostavki, da gre pri merjenju le za sluajne napake, ki med seboj ne korelirajo in tudi ne korelirajo s pravim dosekom. Alwin (1989) - komponente, ki vplivajo na varianco izmerjenega doseka: -dejanska vrednost, -lastnosti merskih postopkov, -napake pri konceptualizaciji in operacionalizaciji, -sluajne napake in -napake, ki so sicer sluajne glede na dejanske vrednosti, a korelirajo med seboj pri ponovljenih meritvah. Ocena vseh komponent je praktino nemogoa, vendar lahko ocenimo vsaj nekatere od njih. KTT upoteva le (i) in (iv).

    Kritika KTT in koeficientov, ki izvirajo iz nje (npr. )Teava KTT temelji na treh predpostavkah: o kongenerinosti, o -enakovrednosti,o vzporednosti meritev.

  • X = T + E

  • Termini xineodvisne merske spremenljivkeyi odvisne merske spremenljivke (Ksi)..eksogeni latentni konstruki (eta)endogeni latentni konstrukti (gama)zveze med latentnimi konstrukti (lambda)zveze med merskimi spremenljivkami in latentnimi konstrukti (fi)korelacije med eksogenimi latentnimi konstrukti (beta)korelacije med endogenimi latentnimi konstrukti (delta)napake merjenja pri odvisnih spremenljivkah (epsilon)napake merjenja pri neodvisnih spremenljivkah (zeta)rezidualna varianca v strukturi (psi)korelacija med rezidualnimi variancami v strukturi G m x n matrika koeficientov eksogenih spr. x v strukturnem od.B m x m matika koeficientov endogenih spr. h v strukturnem odnosu (B ima 0 v diagonali)

  • Merski modeli:

    odnos med pravimi doseki narazlinih meritvah (postavkah, testih)

    izbira & interpretacija postopkaocenjevanja zanesljivostiNaslednja teava KTT: temelji na treh predpostavkah: o kongenerinosti, o -enakovrednosti,o vzporednosti meritev.

  • 1. Kongenerini model:Pravi doseki pri razlinih meritvah so popolnoma korelirani (= testi / postavke merijo isto lastnost),T in X imajo lahko razline M in SD.

  • Predpostavka o kongenerinosti

  • 2a. V bistvu (esencialno) t - enakovredni model:Kongenerini model + meritve imajo enake prave variance, meritve imajo lahko razline dejanske M in SD.

  • 2b. t - enakovredni model:Kongenerini model + pravi doseki (in s tem prave variance) na razlinih meritvah so enaki; meritve imajo lahko razline dejanske SD, vendar enake M.

  • Predpostavka o -enakovrednosti tudi poiva na teh predpostavkah; zakaj KTT vseeno e v uporabi?

  • Predpostavka o vzporednosti meritev:KTT rauna na popolno koreliranost dejanskih spremenljivk pri prvem in ponovljenem merjenju (predpostavlja, da vsi merski postopki merijo natanko eno in isto in da se dejanske vrednosti doseka ne spreminjajo v asu).

    rxx' = korelaciji med testom in retestom, pri emer kovarianca med vzporednima meritvama daje oceno variance dejanske vrednosti odgovora.

    Vemo pa, da pri merjenju v ve t tokah na r med izmerjenimi doseki vpliva: - (ne)stabilnost dejanskega doseka v asu, - specifinost metode - mnogi drugi sistematini dejavniki.

    Zato niji r med merami ne pomeni nujno tudi majhne zanesljivosti merjenja.

  • 3. Vzporedni model:t - enakovredni model + meritve imajo enake variance napak in zato enake dejanske aritmetine sredine in variance.

  • Preverjanje predpostavk merskih modelov: pregled aritmetinih sredin, varianc, kovarianc in korelacij,

    Predvsem pa:

    konfirmatorna faktorska analiza.

  • NAINI OCENJEVANJA ZANESLJIVOSTI1. ponovno testiranje,2. enakovredne oblike,3. notranja skladnost.

  • 1. PONOVNA MERITEV (RETEST)Test po doloenem asu ponovno apliciramo.Zanesljivost = korelacija med doseki na obeh testiranjih.Meritvi morata biti vzporedni (ni vpliva uenja, lastnost se ni spremenila).

  • 2. ENAKOVREDNI OBLIKIImamo vsaj dve inaici testa.Meritvi morata biti vzporedni (ni sistematinega vpliva vzorenja nalog ter vaje oz. uenja).Zanesljivost = korelacija med doseki na obeh testiranjih.

  • 3. NOTRANJA SKLADNOST (INTERNA KONSISTENTNOST) Test razdelimo na ve (od 2 do n) eksperimentalno neodvisnih delov. e ti deli merijo isto lastnost, so nepopolne korelacije posledica napake merjenja. Zadostuje eno testiranje (dele testa obravnavamo kot loene meritve).

  • Cronbachov a koeficient:Kovariance med postavkami so odraz prave variance postavk.

  • Prednosti koeficienta a: enostavno izraunljiv in razumljiv, vzorni a je nepristranska ocena populacijskega a, znana vzorna porazdelitev.

  • Pomanjkljivost koeficienta a:a je enak zanesljivosti le, e so postavke vsaj v bistvu t-enakovredne;

    sicer je ocena spodnje meje zanesljivosti. Vendar:

    a je razmeroma dobra ocena zanesljivosti, e test ni izrazito multidimenzionalen.

  • Poseben primer a za dihotomno tokovane postavke jeKuder-Richardsonov obrazec t. 20

  • Dihotomne postavke z enakimi teavnostmi:Kuder-Richardsonov obrazec t. 21e so M oz. SD postavk razline, je KR21 niji od KR20.

  • Zanesljivost asovno omejenih testov:1. merjenje odgovornih asov ali2. test razdelimo na ve delov in jih loeno apliciramo.

  • Spearman-Brownov obrazec: odnos med zanesljivostjo in dolino testa.Ocena zanesljivosti, e: zdruimo n vzporednih postavk, test podaljamo s homogenimi postavkami, iz testa izloimo nakljuno izbrane postavke.

  • Spearman-Brownov obrazec =a za standardizirane oz. vzporedne postavke

  • Razpolovitveni koeficient zanesljivosti:

    1. test razdelimo na dva enaka dela (npr. parne in neparne postavke); 2. izraunamo skupni doseek za vsak del posebej;

  • 3a. Varianci obeh delov priblino enaki:Spearman-Brownov obrazec.3b. Varianci obeh delov razlini:Guttmanov razpolovitveni koeficient.

  • SB obrazeck = koeficient zanesljivosti testa z dolino k, k = test z drugano dolino (k); n = ulomek k/k

    oziroma dodano (odvzeto) tevilo nalog

  • Hoytov postopek dvosmerna analiza variance:1. faktor - osebe,2. faktor - postavke.Notacija:N = t.subjektovn = t.postavk / ocenjevalcevXs. = povpreni odgovor osebe sX.o = povpreni odgovor na postavki o / povprena ocena ocenjevalca o, X.. = povpreje vseh odgovorov,Ts., T.o = skupni doseek, vsota po postavkiT.. = skupna vsota

  • Viri variance:1. med subjekti:2. med postavkami / ocenjevalci:

  • 3. interakcija - rezidual:4. skupna varianca:

    SSrez = ( (XSO - XS. - X.O - X..)2 = SST - SSsubj - SSO

    df = (N-1)(n-1)

    SST = ((XSO - X..)2 = (XSO2 - T..2/Nn

    df = Nn - 1

  • Postopek je uporaben tudi pri dihotomnih postavkah, vendar lahko F - test izvedemo le, e so postavke na intervalni lestvici.

  • Spodnja meja intervala zaupanja za populacijski a:Fa = vrednost F porazdelitve pri N-1 in (N-1)(n-1) stopnjah svobode pri elenem p.

    (s=1-(1-()F(

  • Tabela 6.1: Podatki za primer analize zanesljivosti (angl. reliability analysis)

    Rezultati po nalogahTestni rezultatiOseba12345678Skupaj (X)NeparniParni110110111633211111111844300001010202............P (pravilno)0.40.30.50.60.60.70.70.8Q0.60.70.50.40.40.30.30.220.240.210.250.240.240.210.210.169.602.452.67

  • (A) Koeficient alfa:(C) Split-half koeficient zanesljivosti:(B) Kuder-Richardsonova formula KR20 - zgolj varianta formule (A)

  • - kako zanesljivi so razlini testi

  • Interpretacija koeficienta zanesljivosti (VIRI VARIABILNOSTI razlini za razline rxx'):

    rxx' = 0,82 (???)

    kaj merimo (inteligentnost, znanje, specifine sposobnosti, veine, osebnostne lastnosti, temperament, stalia, vrednote ...)

    kaken koeficient smo raunali

  • Od kod pride napaka merjenja?Pozor: irelevantni konstantni dejavniki niso napaka merjenja (npr. testna anksioznost)!

    Retest

    Vzporedne oblike

    Notranja skladnost

    Vzorenje postavk

    (

    (

    Trenutna nepozornost

    (

    (

    (

    Spremembe merjene lastnosti

    (

    ( (gl. na as. razmik)

    Spremembe poutja, motiv., zun. pogojev

    (

    ( (gl. na as. razmik)

    Uenje

    (

    (

    (

    Zapomnitev odgovorov

    (

  • Tabela 6.2: Kaj pomeni napaka glede na razline postopke preverjanja zanesljivosti

    Viri variabilnosti, ki zveujejo dano E, kadar podatke dobimo z razlinimi postopki:internakonsistentnostvzporedne testne oblike, isti danvzporedne testne oblike, razlini dnevitest-retest (isti test - razlini dnevi)Trenutna nepozornost, srea pri ugibanju.xxxxNeposreena izbira doloenega niza nalog, ki predstavlja neko podroje (lastnost).xxxZdravje, poutje ali druga trenutna stanja testiranca.xxSpremembe v motivaciji od trenutka do trenutka.xxMonost za uenje, ki v asu pri osebah povzroi spremembo stanja.xx

  • r = .90r = .30Test ATest BRestr.Restr.- vpliv omejenosti obsega na zanesljivost

  • Vpliv napake merjenja na korelacijo med t. rezultatom in kriterijem

    izmerjeni rXY

    rXX

    rYY

    popravljeni rXYt

    .30

    .90

    .80

    .353

    .70

    .60

    .462

    .50

    .40

    .671

    .40

    .30

    .867

    .20

    .90

    .80

    .235

    .70

    .60

    .308

    .50

    .40

    .447

    .40

    .30

    .578

    .10

    .90

    .80

    .117

    .70

    .60

    .154

    .50

    .40

    .223

    .40

    .30

    .289

  • Kako izboljamo zanesljivost testa?

    poveati objektivnost testaizloiti najteje in prelahke naloge in jih nadomestiti s srednje tekimipopraviti testni rezultat za stopnjo monosti ugibanja (pri nalogah izbirnega tipa)podaljati testuporabiti sestavljen niz testov

  • Zanesljivost sestavljenih dosekov(kadar je zanesljivost komponent veja od korelacije z drugimi komponentami)Standardizirane vrednosti:

  • Zanesljivost sestavljenih dosekov

    rsd

    =

    zanesljivost sestavljenega doseka

    k

    =

    tevilo testov (komponent) v kompozitu

    =

    pov posameznih testnih zanesljivosti

    =

    povprena interkorelacija med testi v kompozitu

    _1103445731.unknown

    _1103445732.unknown

  • Opomba: N = 1080. Koeficienti lestvice IQ in faktorsko osnovane lestvice so bile izraunane po obrazcu za zanesljivost kompozita (Nunnally, 1978); vrednosti za dodatne podteste (Obseg tevilk, Labirinti, Iskanje simbolov) niso bile vkljuene v te izraune.b Povpreni rxx je bil izraunan s pretvorbo v Fisherjeve z vrednosti.d Koeficienti zanesljivosti so raunani kot Cronbachovi alfa koeficienti notranje skladnosti. Glede na tabelo 4.3a, v kateri beremo razpolovitvene koeficente notranje skladnosti, so niji, saj je znano, da se razpolovitveni koeficienti nagibajo k precenjevanju, alfa koeficienti pa k podcenjevanju ocene zanesljivosti.

  • ZanesljivostZa celotni preizkus je raunan indeks zanesljivosti (IZ) kot koeficient notranje skladnosti nalog v preizkusu (Cronbachov ).- tevilo nalog pri izpitu- varianca skupnega relativnega tevila tok pri izpitu- varianca relativnih tok pri doloeni nalogi

    Gaper Cankar (RIC) - doktorska teza:Standardna napaka ocenjevalnega procesa pri testih dosekaIzpeljava stand. napake ocenjevalnega procesa (SNOP) kot mere subjektivnosti ocenjevanja. SNOP predstavlja del variance, ki se nanaa na spremenljivost zaradi razlinih pogojev ocenj. Cankar, G. (2004). Standardna napaka rezultatov ocenjevalnega procesa preizkusov znanja. Psiholoka obzorja/Horizons of Psychology, 13(3), 63-76.

  • Vzporedne oblike testa.

    dolina;vrsta uporabe in formalni kriteriji (as testiranja, navodila, oblika testnega zvezka in odgovornega lista);teavnost posameznih nalog v testu, razporeditev po teavnost (krivulja!) kakor tudi teavnost celotnega testa;zanesljivost in veljavnost (oba testa isto strukturo pri faktorsko istih ali vefaktorskih testih).

    Vzporedni TestiTestne Serije Testne Baterije Testni Profili

  • Lienert in Raatz (1994): enakovrednost v

    veljavnosti,zanesljivosti,karakteristikah razprenosti in lastnostih frekvenne porazdelitve pri posameznih nalogah in v celotnem testu

  • The main idea:Testna serija WPPSI/WISC/WAIS mora imeti primerljive IQ: (i) za isto osebo skozi razline razvojne stopnje, (ii) za razline osebo na isti razvojni stopnji, (iii) za razline osebo skozi razline razvojne stopnje

    WPPSI4 do 815 Testna serija: testi, ki se razlikujejo v povpreni teavnosti, vse ostale karakteristike testov v seriji pa so enake (Binetarij, Wechslerjeve lestvice)

  • Testne baterije in testni profili.

    Bistveno:

    (i) da je poloaj posameznika prikazan relativno glede na referenno skupino, torej da je normiran glede na relevantne oziroma primerljive udeleence in

    (ii) da so vsi rezultati in podrezultati na isti merski lestvici (z-vrednosti ali Z-vrednosti, ali pa so percentili, T- oziroma C-lestvica.

  • **************************************************