Upload
gad
View
50
Download
0
Embed Size (px)
DESCRIPTION
Ocenianie szkolne Teoria budowy testów osiągnięć szkolnych. Roman Dolata Wydział Pedagogiczny UW [email protected]. Kontakt. Roman Dolata Dyżury Piątki od 16 do 17, s. 314 Poczta [email protected]. Cele kursu. Opanowanie umiejętności: - PowerPoint PPT Presentation
Citation preview
Ocenianie szkolneTeoria budowy testów osiągnięć szkolnych
Roman DolataWydział Pedagogiczny UW
Michał ModzelewskiInstytut Badań Edukacyjnych
Cele kursu
• Opanowanie umiejętności:– tworzenia nauczycielskich testów osiągnięć
szkolnych– oceny jakości i interpretacji wyników
standaryzowanych testów osiągnięć szkolnych
– wykorzystania wyników egzaminacyjnych do ewaluacji wewnątrzszkolnej (metoda EWD)
Literatura, zaliczenie
• Literatura:M. Jakubowski, A. Pokropek (2009) Badając egzaminy. Podejście
ilościowe w badaniach edukacyjnych. Centralna Komisja Egzaminacyjna. Str. 8-72. (do pobrania ze strony www.ewd.edu.pl)
Strona www.ewd.edu.pl
• ZaliczenieOpracowanie, przeprowadzenie i przeanalizowanie wyników
testu osiągnięć edukacyjnych
Czym jest ocenianie szkolne?
Czym jest test osiągnięć szkolnych?
• Mała próbka zadań, której używamy do oszacowania opanowania przez uczniów szerokiego wachlarza wiadomości i umiejętności
(Daniel Koretz)
Cechy formalne testu:
- obiektywność- standaryzacja- liczbowa postać wyniku
Testy osiągnięć szkolnych a testy zdolności
testy poznawcze
testy osiągnięć związane
z określonymi kursami
testy osiągnięć szeroko
zorientowane
słowne testy inteligencji
bezsłowne
i wykonaniowe testy inteligencji
testy inteligencji wolne od wpływów
kulturowych
Typy testów osiągnięć szkolnych
• Przesiewowe (minimum kompetencji),
szerokiego stosowania, selekcyjne
• Testy różnicujące i testy kryterialne
• Testy mocy i testy szybkości
Podstawowe pojęcia statystyczne przydatne przy konstrukcji testów i analizie ich
wyników
Rozkład wyników
L. pkt. L. uczn.
0 1
1 3
2 6
… …
38 13
39 7
40 60 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40
Jak opisać rozkład wyników?
1) Miary tendencji centralnej
2) Miary rozproszenia wyników
3) Miary kształtu rozkładu
Jak opisać rozkład wyników?
1) Miary tendencji centralnej: np. średnia
Jak opisać rozkład wyników?
2) Miary rozproszenia wyników: np. odchylenie standardowe
Jak opisać rozkład wyników?
3) Miary kształtu rozkładu: np. skośność
Rozkład procentowyWyniki sprawdzianu 2009, rozkład dla kraju, n=400887
Rozkład skumulowany, procentowyWyniki sprawdzianu 2009, rozkład dla kraju, n=400887
Wyniki Sprawdzianu w klasie szóstej 2002-2014
Skąd się biorą zróżnicowane rozkłady wyników surowych?
• Źródła zmienności rozkładów wyników surowych dla kolejnych roczników: zmiany w rozkładzie umiejętności w kolejnych
rocznikach absolwentów SP http://pwe.ibe.edu.pl
zmiany narzędzia pomiarowego, czyli testu
Na jakiej skali przedstawiać wyniki testów?
1. Kwestia pożądanego kształtu rozkładu wyników
2. Kwestia odpowiedniej skali wyników
Zakładany kształt rozkładu wyników testu...
Liczba wyników
Rodzaj testu
Niskich Przeciętnych Wysokich
Test minimum kompetencji
+ ++ +++
Test szerokiego spektrum
++ +++ ++
Test selekcyjny +++ ++ +
... a funkcja testu.
Zakładany kształt rozkładu wyników testu...
Liczba wyników
Rodzaj testu
Niskich Przeciętnych Wysokich
Test minimum kompetencji
+ ++ +++
Test szerokiego spektrum
++ +++ ++
Test selekcyjny +++ ++ +
... a funkcja testu.
Sprawdzian, egzamin gimnazjalny, testy diagnostyczne typu OBUT
to testy w założeniu badające szerokie spektrum umiejętności
Zakładany kształt rozkładu wyników testu...
Liczba wyników
Rodzaj testu
Niskich Przeciętnych Wysokich
Test minimum kompetencji + ++ +++
Test szerokiego spektrum ++ +++ ++
Test selekcyjny +++ ++ +
... a funkcja testu.
Sprawdzian, egzamin gimnazjalny, testy
diagnostyczne typu OBUT,to testy w założeniu badające
szerokie spektrum umiejętności
Rozkład normalny
Zakładany kształt rozkładu wyników testu...
... a faktyczny rozkład wyników.
W praktyce bywa różnie
Zakładany kształt rozkładu wyników testu...
... a faktyczny rozkład wyników.
W praktyce bywa różnie Możemy jednak rozkład empiryczny spróbować dopasować
do założonego
Popularne skale wyników
typy skal
Założenia Przykłady
standardowe wyniki mają rozkład normalny
odchylenie standardowe jako jednostka pomiaru
skala staninowa
skala 500/100 (np. PISA)
skala 100/15
pozycyjne
odsetek wyników w grupie odniesienia jako jednostka pomiaru
centylowa
Skale standardowe
Skala staninowa
Dzieli rozkład normalny na 9 przedziałów (staniny)
Wyniki surowe przypisywane do staninów
Skale standardowe
Skala 500/100
Wykorzystywana np. w badaniach PISA Skala „ciągła”
Skale standardowe
Skala 100/15
Tzw. skala „IQ” Skala „ciągła”
Skala centylowa
Pochodna rozkładu skumulowanegoPrzyjmuje się, że jest 99 rang Wyniki są przypisywane do rang centylowych
Którą skalę wybrać?
500/100
100/15
Pożądane cechy skali wyników
Którą skalę wybrać?Problemy ze skalą staninową Za „gruboziarnista”
Utrata informacji: 41 wyników 9 wartości W obrębie stanina nie rozróżniamy wyników stanin wynik
Sprawdzian 2014
1 0 - 9
2 11 - 14
3 15 -19
4 20 - 24
5 25 - 28
6 29 - 32
7 33 - 34
8 35 - 37
9 38 - 40
Tu jest dwadzieścia kategorii punktowych
Którą skalę wybrać?Problemy ze skalą 500/100 Za „drobnoziarnista” Złudzenie precyzji (zwłaszcza przy krótkich testach) Skala wyników dziurawa
wynik Sprawdzian
2014
wynik na skali
500/100
... ...
5 245
6 266
7 284
... ...
20 434
21 444
22 454... ...
Którą skalę wybrać?
Problemy ze skalą centylową Ryzyko złączenia się kategorii punktowych Ryzyko dziur w rangach (przy krótkim teście) Statystyka lubi rozkład normalny
wynik Sprawdzian
2014
Percentyl(max. ranga)
... ...
5 1
6 1
7 1
... ...
20 25
21 28
22 32... ...
Którą skalę wybrać?
Skala 100/15
Dobra „gęstość” wyników Sensowny „zapas” precyzji (dla dłuższych testów) Nasz wybór !
wynik Sprawdzian
2014
wynik na skali 100/15
... ...
5 62
6 65
7 68
... ...
20 90
21 92
22 93... ...
Jak przełożyć wyniki surowe na skalę 100/15
metodą rozkładu skumulowanego w czterech prostych krokach
Bierzemy rozkład (procentowy)wyników surowych
Jak przełożyć wyniki surowe na skalę 100/15metodą rozkładu skumulowanego w czterech prostych krokach
Bierzemy rozkład wyników surowych(procentowy)
Przekształcamy go na rozkład skumulowany
Jak przełożyć wyniki surowe na skalę 100/15metodą rozkładu skumulowanego w czterech prostych krokach
Przekształcamy go na rozkład skumulowany
Porównujemy z rozkładem skumulowanym dla skali 100/15
Bierzemy rozkład wyników surowych(procentowy)
Jak przełożyć wyniki surowe na skalę 100/15
Przekształcamy go na rozkład skumulowany
Porównujemy z rozkładem skumulowanym dla skali 100/15
Bierzemy rozkład wyników surowych(procentowy)
I otrzymujemy wyniki na skali 100/15
wynik Sprawdzian
2014
wynik na skali 100/15
... ...
5 626 657 68
... ...
metodą rozkładu skumulowanego w czterech prostych krokach
Zalety używania skal standardowych
Wyniki mają znany rozkład w grupie odniesienia.
Wynik na skali łatwo porównać do rozkładu w grupie odniesienia (ile jest wyników poniżej/powyżej danego wyniku).
Różnice w wynikach indywidualnych na skali 100/15 są sensownie interpretowalne. Nie ma potrzeby wykorzystania wyników ułamkowych.
Może „obsłużyć” krótsze i dłuższe testy.
Gdzie jest wykorzystywana skala 100/15 ?
Porównywalne Wyniki Egzaminów http://pwe.ibe.edu.pl
Kalkulator EWD SP, wskaźniki EWD dla gimnazjów i szkół maturalnych http:// ewd.edu.pl
Testy wykorzystane w badaniu SUEK (TOS3 i TOS6) OBUT Test umiejętności na starcie szkolnym (TUNSS) Niektóre testy psychologiczne
Przykłady ilościowej interpretacji wyników na skali 100,15
• Wyraź poniższe wyniki w jednostkach odchylenia standardowego:
• 115• 95• 111
Ćwiczenia: wyrażanie wyniku w jednostkach odchylenia standardowego
• 145• 70• 105• 103
Przykłady ilościowej interpretacji wyników na skali 100,15
• Jaki procent uczniów w grupie odniesienia (kraju) uzyskał wynik wyższy niż:
• 115• 85• 112
Przykłady ilościowej interpretacji wyników na skali 100,15
• Jaki procent uczniów w grupie odniesienia (kraju) uzyskał wynik wyższy niż 112:
Wartość na skali
Procent skumulowany
104 60,51105 63,06106 65,54107 67,96108 70,31109 72,58110 74,75111 76,83112 78,81
Fragment rozkładu skumulowanego dla skali 100,15
100% – 78,18% = 21,82%
Ćwiczenia: podawanie odsetka wyników wyższych i niższych od danego
• 100• 87• 113• 133
Przykład przekładania wyniku surowego na skalę 100,15
• Na sprawdzianie 2013 uczeń uzyskał 12 punktów.
Wynik surowy
Procent skumulo-wany
10 5,82
11 7,86
12 10,17
13 12,74
14 15,52
Fragmenty rozkładów skumulowanych dla: wyników surowych wyników na
skali 100,15 Wartość na skali
Procent skumulo-wany
79 8,08
80 9,12
81 10,26
82 11,51
83 12,85
12 81
Ćwiczenia w przekładaniu wyniku surowego na wynik na skali 100,15: sprawdzian 2013
• 24• 9• 16• 28• 39
Ćwiczenia w przekładaniu wyniku surowego na wynik na skali 100,15: sprawdzian 2014
• 24• 9• 16• 28• 39
Zestawienie wyników dla 2013 i 2014 roku
Wynik surowy
Wynik na skali 100,15 w roku 2013
Wynik na skali 100,15 roku 2014
24 100 96
9 74 72
16 88 84
28 106 103
39 136 134
Przykład przekładania wyniku ze skali 100,15 na skalę staninową
• 108
Wartość na skali
Procent skumulowany
104 60,51105 63,06106 65,54107 67,96108 70,31109 72,58110 74,75111 76,83
Fragment rozkładu skumulowanego dla skali 100,15
Skal staninowa
108 = 6
Ćwiczenia w przeliczaniu wyników między skalami
• Proszę przeliczyć poniższe wyniki wyrażone na skali 100,15 na wynik w skali staninowej:• 100• 70• 129• 91• 121
Ćwiczenia w przeliczaniu wyników między skalami
• Proszę przeliczyć poniższe wyniki wyrażone na skali staninowej na wynik w skali 100,15: 1 5 8 9
Zestawienie wyników: 100,15 - staninowa
Wynik na skali 100,15
Wynik na skali staninowej
100 5
70 1
129 9
91 4
121 8
Wynik na skali staninowej
Wynik na skali 100,15 (w przybliżeniu)
1 do 74
5 96 - 104
8 119 - 126
9 127 i więcej
Badanie współzmienności wyników dwóch testów
• Czy zmianom jednej zmiennej towarzyszą zmiany drugiej zmiennej?
• Analiza graficzna: wykresy rozrzutu
• Możliwe do zastosowania statystyki:
- współczynnik korelacji r Pearsona
Korelacja dodatnia (pozytywna)współczynnik korelacji wyższy od zera
Korelacja ujemna (negatywna) współczynnik korelacji niższy od zera
Brak korelacji (zerowa) współczynnik korelacji bliski zeru
Korelacja nieliniowa
Konstruowanie testów osiągnięć szkolnych
Ostateczna postać testu
Badania pilotażow
e – w
ybór zadań, określenie rzetelności testu
Schemat konstrukcyjny testów osiągnięć szkolnych
Norm
y wykonania
Wynik surow
y
Zadania testow
e
Cele kształcen
ia
Skalow
anie
Wynik testu
Elementy składowe testu
1. Lista celów edukacyjnych
2. Plan testu
3. Zadania testowe
4. Schematy punktacji
5. Kwestionariusz testu i instrukcja testowania
6. Normy wykonania testu: ilościowe i treściowe
Lista celów edukacyjnych
• Fundament budowy testu• Cele dotyczą wiadomości i umiejętności, które
mają opanowywać uczniowie, a nie czynności nauczyciela
• Cele muszą być sformułowane w sposób jasny i jednoznaczny
• Lista celów nie powinna być zbyt długa; gdy zbyt długa:– łączenie celów w ogólniejsze– wyznaczenie priorytetów
Plan testu
• W najprostszej postaci tabela o postaci:
Cel edukacyjny Liczba zadań
Typy zadań Nr w kwestionariuszu
1. Umie przedstawić geometryczną interpretację mnożenia
4 2 WW, 2 KO 1,2,7,8
2. Potrafi przedstawić mnożenie jako dodawanie i odwrotnie
4 4 WW 3,4,5,6
3. Rozwiązuje zadania tekstowe, jednodziałaniowe na mnożenie
4 4 KO 9,10,11,12
Plan testu taksonomia ABC na podstawie B. Blooma
Cele
Materiał
Wiadomości Umiejętności Zastosowanie Razem
dodawanie 4 zadania 4 zadania 4 zadania 12
odejmowanie 4 zadania 4 zadania 4 zadania 12
mnożenie 4 zadania 2 zadania 4 zadania 12
razem 12 12 12 36
Plan testu: przykład kursu statystyki
Zadania testowe
• Zadanie testowe to wskaźnik opanowania celu edukacyjnego
• By rzetelnie wypowiadać się o opanowaniu celu potrzebujemy wielu wskaźników
• W wypadku szczegółowego celu wystarczy kilka zadań testowych
• W wypadku ogólnych celów potrzeba znacznie więcej zadań testowych
Zadania testowe: klasyfikacja
Schemat punktacji
• Schematy punktacji do zadań zamkniętych– Problem tzw. punktów ujemnych
• Schematy punktacji do zadań otwartych– Problem rzetelności oceny wykonania zadań
otwartych
Kwestionariusz testu i instrukcja przeprowadzenia testowania
• Szata graficzna testu
• Problem praw autorskich
• Kolejność zadań– Od najłatwiejszych do najtrudniejszych
• Instrukcja przeprowadzenia testu– Standaryzacja sytuacji testowej– Limit czasu: testy mocy vs testy szybkości
Norma ilościowa wykonania testu
• Interpretacja ilościowa wyniku testu: wynik testu na tle rozkładu wyników w grupie odniesienia
• Najprostsza norma: odniesienie wyniku do średniej w grupie odniesienia
• Standaryzacja wyniku: – skala staninowa– skale o zadanej średniej i odchyleniu standardowym– skale pozycyjne: centyle
Norma treściowa
• Wynik testu jako miara opanowania celów edukacyjnych
• Najprostsza norma treściowa: wskazanie od jakiego wyniku można uznać, że cel został opanowany w stopniu pozwalającym na dalsze uczenie się
• Złożone normy treściowe: zdefiniowanie kilku poziomów opanowania celu– Problem kumulatywności testu
Trafność testu
Trafność w testach osiągnięć
• Test jest trafny, gdy:– uczniowie wykonują, te operacje umysłowe,
na których nam zależy– możemy dostać na to dowód
Trafność zadania testowego
Trafność zadania - problemy
Przykład:
• Badana umiejętność: zasób słownikowy dziecka
Trafność zadania - problemy
Przykład:
• Badana umiejętność: zasób słownikowy dziecka, rozpoznawanie błędnego użycia słowa.
Trafność zadania zamkniętego - problemy
• Czy prawidłowa odpowiedź jest na pewno poprawna, a dystraktory błędne?
• Jakość dystraktorów: – Czy są prawdopodobne?– Czy zawierają typowe błędne przekonania
uczniów?– Czy wykorzystują prawdziwe stwierdzenia,
które nie są poprawną odpowiedzią?
Trafność zadania - problemy
• Czy treść zadania (polecenie, pytanie, możliwe odpowiedzi, rysunki i schematy) jest jednoznaczna, jasna i zrozumiała?– Język odpowiedni do wieku ucznia.– Główna myśl w pytaniu, nie w odpowiedziach.
• Czy w zadaniu nie ma nadmiaru słów? • Czy w pytaniu i możliwych odpowiedziach nie ma negacji?
Jeśli musi być, czy jest wyróżniona?• Czy poprawna odpowiedź jest dłuższa od dystraktorów?• Czy występują duże kwantyfikatory: zawsze, nigdy,
całkowicie, absolutnie.
Metody analizy trafności
• Analiza treściowa zadań - jw
• Analiza jakościowa rozwiązywania zadań przez uczniów (technika głośnego myślenia)
• Analiza statystyczna: związek z innymi miarami odniesienia
Rzetelność testu
Rzetelność testu
• Każdy pomiar obarczony jest niepewnością pomiarową
• Klasyczne ujęcie niepewności pomiarowej
wynik empiryczny = wynik prawdziwy + błąd pomiaru
Wynik prawdziwy: średni wynik z nieskończonej liczby powtórzeń testu
Wyniki
Wysokie Niskie
Uczeń
Błąd pomiaruBłąd pomiaru
Wynik ucznia w teście
Wyniki
Wysokie Niskie
Uczeń
Błąd pomiaruBłąd pomiaru
Wynik prawdziwy
Wynik ucznia w teście
Błąd pomiaru
Główne źródła błędu pomiaru w testach osiągnięć szkolnych
• Arbitralność doboru zadań testowych
• Niedostatki standaryzacji procedury testowej
• Zgadywanie w zadaniach zamkniętych
• Ocenianie zadań otwartych
• Ściąganie
• Losowe wahania dyspozycji intelektualnych ucznia
• Błędy systematyczne: stronniczość testu
Rzetelność punktacji – opis eksperymentu
Na podstawie: R. Dolata, E. Putkiewicz, A. Wiłkomirska Reforma egzaminu maturalnego: oceny i rekomendacje
Instytut Spraw Publicznych, badanie sfinansowane przez MENiS
Analiza rzetelności systemów punktacji
• Przedmiotem analiz były systemy punktacji przygotowane na maturę 2002:
– Język polski - wypracowania (arkusz I i III), rozumienie czytanego tekstu (arkusz II).
– Historia – test i interpretacja źródeł (arkusz I i II).– Matematyka – poziom podstawowy i rozszerzony
(arkusz I i II).
Procedura badania rzetelności
• Dobór prac.
• Przygotowanie prac do ponownego sprawdzania.
• Dobór egzaminatorów.
Problem trafności ekologicznej eksperymentu
• Czynniki mogące zawyżać oszacowanie rzetelności:- dobór egzaminatorów (posługiwanie się dobrze znanym
schematem punktacji),- pominięcie opcji (polski, historia).
• Czynniki mogące zaniżać oszacowanie rzetelności:- upływ czasu,- brak procedur oceniania grupowego
Metoda badania rzetelności systemów punktacji
• Każda praca była niezależnie sprawdzana przez ośmiu egzaminatorów. Problem wielkości próbki.
• Zbiór danych (dla każdego kryterium):
Lp E1 E2 E3 E4 E5 E6 E7 E8
1. 31 25 35 36 21 27 36 21
2. 55 41 59 25 26 21 36 54
3. 48 49 51 50 48 47 52 50
… … … … … … … … …
50. 21 18 19 20 21 21 19 20
Model analizy statystycznej
Prosty efekt egzaminatora Interakcyjny efekt egzaminatora
Efekt jakości pracy
Całkowita zmienność ocen
Wyniki analizy rzetelności punktacji dla wypracowania, arkusz III
22% 29%
49%
Całkowita zmienność ocen
Efekt jakości pracy
Prosty efekt egzaminatora Interakcyjny efekt egzaminatora
Efekt egzaminatora dla przykładowych wypracowań
Lp. Średnia ocena
Rozrzut ocen (SD)
Minimalna Maksymalna
39 60,3 18,9 29 86
48 46,9 18,5 11 67
18 43,4 18,2 24 72
28 57,5 17,1 33 80
06 46,0 16,6 19 77
Co odpowiada za niską rzetelności systemu punktacji arkusza III?
• Zawiodła przede wszystkim kryterialna skala rozwinięcia tematu (rzetelność=54%).
• Zła budowa skal szacunkowych:– skala kompozycji (rzetelność=33%),– skala stylu (rzetelność=31%),– skala poprawności językowej (rzetelność=34%).
• Użyto z założenia subiektywnej skali szczególnych walorów pracy (rzetelność=23%).
Najmniej i najbardziej rzetelne kryterium skali rozwinięcia tematu, arkusz III
• Kryterium 17: 77%– Dostrzeżenie roli puenty w Lekcji łaciny (przeciwstawienie poezji
łacińskiej i wkroczenia barbarzyńców)
• Kryterium 15.1.: 14%– Za pogłębione wnioski
• Ogólna prawidłowość: im wyższy poziom taksonomiczny, tym niższa rzetelność kryterium.
Przykład wadliwie skonstruowanej skali szacunkowej
Skala poprawności językowej wypracowania Na skali wyróżniono 4 punkty: 0, 5, 10 i 21 pkt.
Oto ich opis:• 0 – brak opisu,• 5 – w większości poprawna składnia i frazeologia, zgodna z normą
fleksja, nieliczne usterki leksykalne oraz nieliczne błędy ortograficzne i interpunkcyjne,
• 10 – poprawna, urozmaicona składnia i frazeologia, zgodna z normą fleksja, sporadycznie pojawiają się błędy ortograficzne i interpunkcyjne,
• 21 – poprawna, urozmaicona składnia i frazeologia, zgodna z normą fleksja i ortografia, rzadko pojawiające się błędy interpunkcyjne.
Zestawienie wyników analizy rzetelności systemów punktacji
Arkusz Rzetelność Prosty efekt egzaminatora
Interakcyjny efekt
egzaminatora
Polski, arkusz I 55% 16% 29%Polski, arkusz III 49% 22% 29%
Polski, arkusz II 80% 7% 13%
Historia, arkusz I 95% 2% 3%Historia, arkusz II 58% 29% 13%
Matematyka,
arkusz I99% 1% 0%
Matematyka,
arkusz II97% 1% 2%
Koniec opisu eksperymentu
Zapewnianie rzetelności testu: analiza mocy różnicującej zadań testowych
Krzywe charakterystyczne dla trzech zadań ze Sprawdzianu 2010
Zadanie X
Zadanie Y
Zadanie Z
Metody określania rzetelności wyniku testu
• Dwukrotne testowanie– Korelacja między wynikami dwóch testów
• Metoda połówkowa– Korelacja między wynikami dwóch połówek
• Wewnętrzna spójność testu– Wsp. rzetelności Alfa Cronbacha
Współczynnik rzetelności Alfa Cronbacha
Rzetelność jest to stosunek zróżnicowania wyniku prawdziwegodo zróżnicowania wyniku uzyskanego na podstawie testowania (będącegosumą zróżnicowania wyniku prawdziwego oraz zróżnicowania błędu pomiaru)
Intertretacja ws. Alfa Cronbacha
Wykorzystanie wsp. rzetelności w interpretacji wyniku testu
• Wyznaczanie przedziału ufności dla wyniku indywidualnego
Wyniki Wysokie Niskie
Uczeń
Idea szacowania przedziału ufnościIdea szacowania przedziału ufności
Wynik ucznia w teście
Wyniki Wysokie Niskie
Uczeń
Idea szacowania przedziału ufnościIdea szacowania przedziału ufności
Wyniki Wysokie Niskie
Uczeń
Idea szacowania przedziału ufnościIdea szacowania przedziału ufności
Wyniki Wysokie Niskie
Uczeń
Idea szacowania przedziału ufnościIdea szacowania przedziału ufności
Wyniki Wysokie Niskie
Uczeń
Przedział ufności
Idea szacowania przedziału ufnościIdea szacowania przedziału ufności
Idea szacowania przedziału Idea szacowania przedziału ufnościufności
Wyniki
Wysokie Niskie
Wynik mało prawdopodobny
(2,5%)(2,5%)
Funkcja prawdopodobieństwa
Wynik mało prawdopodobny
(2,5%)(2,5%)
Wynik prawdopodobny (95%)
Rzetelność testu
Przykład
Przykładowa informacja o wyniku ucznia dla rodziców, Massachusets, MCSA 2002 Prawdopodobieństwo, że
wynik ucznia znajduje się w przedziale wyznaczonym przez prostokąt wynosi 95%
Skalowanie wyniku testu
• Jaki rozkład ma wynik testu w populacji docelowej?
• Skale standardowe i pozycyjne
Normalizacja i standaryzacja skala o średniej 100 i odchyleniu standardowym 15
Wyniki pierwotne
Egzamin 1 Egzamin 2 Egzamin 3
Normalizacja i standaryzacja skala o średniej 100 i odchyleniu standardowym 15
Wyniki pierwotne
Wyniki znormalizowane
Egzamin 1 Egzamin 2 Egzamin 3
Wyniki pierwotne
Wyniki znormalizowane
Wyniki po przejściach
Test 1 Test 2 Test 3
Normalizacja i standaryzacja skala o średniej 100 i odchyleniu standardowym 15
Prosta analiza wyników testu
Analiza wyników dla grupy
• Klasa IIIa, 20 uczniówCel edukacyjny Norma
treściowaProcent uzyskanych przez klasę pkt
Procent uczniów, którzy opanowali cel
1. Umie przedstawić geometryczną interpretację mnożenia
60% 55% 40%
2. Potrafi przedstawić mnożenie jako dodawanie i odwrotnie
70% 80% 75%
3. Rozwiązuje zadania tekstowe, jednodziałaniowe na mnożenie
50% 60% 80%
Analiza wyników dla poszczególnych uczniów
• Janek K.Cel edukacyjny Procent
uzyskanych pkt
Czy opanował cel?
Wynik na tle klasy
1. Umie przedstawić geometryczną interpretację mnożenia
40% nie -15pp
2. Potrafi przedstawić mnożenie jako dodawanie i odwrotnie
85% tak +5pp
3. Rozwiązuje zadania tekstowe, jednodziałaniowe na mnożenie
60% tak 0pp
Wprowadzenie do IRT(probabilistyczna teoria odpowiedzi na zadanie testowe)
Pilotaż w
ersji przeznaczonych do danego zastosow
ania
Bank zadań
Badania pilotażow
e – w
ybór zadań do banku i określenie ich param
etrów
Schemat konstrukcyjny testów osiągnięć szkolnych
Item Response Theory
Norm
y wykonania
Wiele m
ożliwych w
ersji testu
Zadania testow
e
Cele kształcen
ia
Skalow
anie
Wynik testu
Podstawowe założenia i cechy IRT
• Wykonanie zadania testowego zależy od poziomu ukrytej (bezpośrednio nieobserwowalnej) dyspozycji umysłowej
• Skala pomiarowa jest kumulatywna
• Poziom ukrytej dyspozycji wyznacza prawdopodobieństwo poradzenia sobie z danym zadaniem testowym (uwzględnienie czynników losowych)
• Jedno- lub wielowymiarowość danego testu
• Model zależności ukryta dyspozycja - radzenie sobie z zadaniem podlega empirycznemu testowi (zgodność modelu z danymi)
• Trudność zadań i poziom ukrytej dyspozycji umysłowej ucznia można lokować na jednej skali
• Jak rozumieć pojęcie ukrytej dyspozycji?
Interpretacja związku między poziomem wykonania dwóch zadań
• Analiza dla zadań 0-1
zadanie 2
wykonał nie wykonał
zadan
ie 1
wykonał a b a+b
nie wykonał
c d c+d
a+c b+d a+b+c+d
Korelacja negatywna między dwoma zadaniami
zad. 2
1 0
zad. 1
1 0 50
0 50 0
zad.1 zad. 2
dysp. x dysp. y
Φ=-1,0
Wykluczające się dyspozycje
Brak korelacji między dwoma zadaniami
zad. 2
1 0
zad. 1
1 25 25
0 25 25
zad.1 zad. 2
dysp. x dysp. y
Φ=0,0
niezależne dyspozycje
Korelacja pozytywna między dwoma zadaniami
zad. 2
1 0
zad. 1
1 50 0
0 0 50
zad.1 zad. 2
dysp. x
Φ=1,0
wspólna dyspozycja
Odkrywanie ukrytych wymiarów
• Analizując empiryczne powiązania między zadaniami odkrywamy ukryte dyspozycje umysłowe mierzone przez dany test
• Do wyjaśnienia radzenia sobie z danym zbiorem zadań może wystarczyć jedna (test jednowymiarowy) lub kilka (wielowymiarowy) ukrytych dyspozycji umysłowych
• W praktyce stosuje się jednowymiarowe modele IRT
• Jak rozumieć kumulatywność skali pomiarowej?
Zależności kierunkowe między zadaniami
zad. 2
1 0
zad. 1
1 50 20
0 0 30
zad.1 zad. 2
wspólna dyspozycja
zad. 1 / zad. 2
zad. 2 zad. 1
Trzy wiązka trzech zadań tworzy kumulatywną skalę?
zad.1 zad. 3
wspólna dyspozycja
zad. 2
Sprawdzanie, czy wiązka trzech zadań spełnia warunek kumulatywności (skalogram Guttmana)
Wzorzec odpowiedzi
Liczba przypadków
Wynik surowy
Wynik skalowy
Wzo
rce zgo
dn
e
000 15 0 0
100 25 1 1
110 30 2 2
111 20 3 3
Wzo
rce niezg
od
ne
101 5 2 3
010 2 1 2
011 2 2 3
001 1 1 3razem 100
Jak uwzględniamy działanie czynników losowych?
Prosty determinizm poziom dyspozycji radzenie sobie z zadaniem
nie radzi sobie z zadaniem
radzi sobie z zadaniem
niski poziom dyspozycji umysłowej wysoki
pra
wd
op
od
ob
ień
stw
o
po
rad
zen
ia s
ob
ie z
za
da
nie
m
1
Związek probabilistyczny – model prostoliniowy
niski poziom dyspozycji umysłowej wysoki
1
pra
wd
op
od
ob
ień
stw
o
po
rad
zen
ia s
ob
ie z
za
da
nie
m
Związek probabilistyczny – model logistyczny
niski poziom dyspozycji umysłowej wysoki
1
pra
wd
op
od
ob
ień
stw
o
po
rad
zen
ia s
ob
ie z
za
da
nie
m
Jak empirycznie testujemy teorię związku poziomu dyspozycji umysłowej
z radzeniem sobie z danym zadaniem?
Przykład modelu dobrze dopasowanego do danych
niski poziom dyspozycji umysłowej wysoki
1
pra
wd
op
od
ob
ień
stw
o
po
rad
zen
ia s
ob
ie z
za
da
nie
m
Przykład modelu źle dopasowanego do danych
niski poziom dyspozycji umysłowej wysoki
1
pra
wd
op
od
ob
ień
stw
o
po
rad
zen
ia s
ob
ie z
za
da
nie
m
Lokowanie zadania na skali
niski poziom dyspozycji umysłowej wysoki
1,0
pra
wd
op
od
ob
ień
stw
o
po
rad
zen
ia s
ob
ie z
za
da
nie
m
-4 -3 -2 -1 0 1 2 3 4
0,5
Zadanie x
Zestaw 5 zadań tworzących skalę
-4 -2 0 2 4
0.0
0.2
0.4
0.6
0.8
1.0
Krzywa charakterystyczna odpowiedzi
Cecha ukryta
Pra
wd
op
od
ob
ień
stw
o p
op
raw
ne
j o
dp
ow
ied
zi
niski poziom dyspozycji umysłowej wysoki
Określanie trudności tych zadań
-4 -2 0 2 4
0.0
0.2
0.4
0.6
0.8
1.0
Krzywa charakterystyczna odpowiedzi
Cecha ukryta
Pra
wd
op
od
ob
ień
stw
o p
op
raw
ne
j o
dp
ow
ied
zi
niski poziom dyspozycji umysłowej wysoki
Lokowanie ucznia na skali Metoda największej wiarygodności
Warunkowe prawdopodobieństwo poradzenia sobie z zadaniem
Jaś:
110--
Małgosia:
--110Zad. 1 Zad. 2 Zad. 3 Zad. 4 Zad. 5
-3 0,15 0,05 0,01 0,01 0,01 0,007 0,001
-2 0,50 0,15 0,05 0,01 0,01 0,070 0,001
-1 0,90 0,50 0,15 0,05 0,01 0,383 0,007
0 0,95 0,90 0,50 0,15 0,01 0,428 0,074
1 0,99 0,95 0,90 0,50 0,15 0,094 0,383
2 0,99 0,99 0,95 0,90 0,50 0,049 0,428
3 0,99 0,99 0,99 0,95 0,90 0,010 0,094