40
Využívání testových výsledků žáků k hodnocení a odměňování škol - převažují rizika nebo přínosy? Konference „Testováním ke kvalitě vzdělávání“ SCIO & VŠE, Praha, 31.5.2012 David Greger Ústav výzkumu a rozvoje vzdělávání, PedF UK [email protected]

David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

Využívání testových výsledků žáků k hodnocení a odměňování škol - převažují rizika nebo přínosy?

Konference „Testováním ke kvalitě vzdělávání“

SCIO & VŠE, Praha, 31.5.2012

David Greger Ústav výzkumu a rozvoje vzdělávání, PedF UK

[email protected]

Page 2: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

Úvod/Kontext Testováním ke kvalitě vzdělávání???? – provokativní název :

Může testování zlepšit kvalitu vzdělávání? Zpráva McKinsey & Company 2010 Klesající výsledky

českého základního a středního školství: fakta a řešení. PZN. str. 47: (Naši poradci….) “například explicitně nesouhlasili

s našimi názory na problematiku plošného hodnocení studentů“

Kroky MŠMT: maturita a NIQES – otázka pojetí cílů – např. Návrhy exministra Dobeše na odměňování/či penalizace škol za výsledky žáků v testech. Žebříčky škol.

Zhoršující se výsledky žáků = nutnost řešení, pro politiky často = nutnost testování (nejen v ČR)

OECD (2012) – Evaluation and Assessment Review, ve srovnání se zprávou z roku OECD 1995.

Page 3: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

??? Neoliberální, ekonomický, tlak na vykazování

výsledků? Testy se závažnými dopady pro žáka/učitele/školu???

High-stakes tests & test-based accountability, součást hnutí New Public Management (1980s)

Anglie, USA Give us a break!!! (Sharon Gewirtz)

Page 4: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

Tradičně decentralizovaný systém, bez národního kurikula a státních testů i dalších zásahů do vzdělávání. Her Majesty Inspectorate (HMI) měl málo inspektorů, kontrola inspekce jen v malém vzorku škol.

1969-1976 tzv. Black Papers, série esejů z pera konzervativců upozorňuje na zhoršování anglických žáků v základních gramotnostech a poprvé navrhuje státní testování ve věku 7, 11 a 14 let. Autor tohoto eseje z r. 1975, Rhodes Boysen, se později stal ministrem školství ve vládě Margaret Thatcher.

Anglie – testování a pobídky/tresty

Page 5: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

1975-1976 William Tyndale affair. Velmi netradiční primární škola ve „vnitřním Londýnu“. Škola neměla sepsané kurikulum, byla proti soutěživosti dětí, děti mohly ve škole do všech místností, včetně učitelských atp. Velmi liberální pojetí rodiče vnímali jako NEpoŘÁDek a chtěli děti odhlásit ze školy. Nařízeno vyšetřování (7 měsíců) a soud následně konstatoval pochybení jak učitelů, tak především zřizovatele, který neměl stanoven standard vzdělání a metody, kterými se jich dosahuje. Mediální publicita, změna pohledu na roli rodičů a odpovědnost za vzdělání není jen na škole.

Anglie – pokračování

Page 6: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

80. léta 20. stol. Margaret Thatcherová premiérkou, rychlý postup směrem k akontabilitě. Školský zákon z roku 1980 – školy musely rodiče seznámit s výsledky školy v národních testech a seznámit je podrobně s kurikulem.

1988 Education Reform Act – národní kurikulum, Key Stage 1 (5-7y.), Key Stage 2 (7-11y.), Key Stage 3 (11-14y.) a Key Stage 4 (2 roky k GCSE). Na konci každého KS povinné testy. Také otevření volby školy (school-choice) pro rodiče.

1981 zveřejnění výsledků SIMS (starší TIMSS).

Anglie – pokračování

Page 7: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

1992 zřízení OFSTEDu (Office for Standards in Education), 1992 první žebříčky škol dle GCSE, 1996 žebříčky i v primární škole

1997 nástup Tony Blaira, přesto však pokračování v akontabilitě na základě testů, žebříčky dále zveřejňovány, argumentace pro zvýšení standardů vzdělávání, Blaiming and shaming of schools, Hyper-akontabilita.. Navýšení rozpočtu školství = nutnost kontroly, ale také podpora školám pro dosahování standardů.

Anglie – pokračování

Page 8: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

1840 - Počátky testování na velkých vzorcích, od 2. pol. 19. stol. New York States Regents Examination program

Od 1926 SAT Reasoning Test (Scholastic Aptitude Test), 1956 ACT – American College Testing – oba pro středoškoláky, používány jako jedno z kritérií k přijetí na americké univerzity.

50. léta 20. stol – testy používány jako low-stake, diagnostická funkce – identifikace potíží žáků v učení. Normativní testy (NRTs)

Pouze SAT již high-stake test pro studenty – přijímání na VŠ

USA – testování a pobídky/tresty

Page 9: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

1965 Elementary and Secondary Education Act (Předchůdce NCLB), první zásah federální vlády do vzdělávání v jednotlivých státech (federální financování i legislativa)

- součástí ESEA i Title I program, cíl zlepšení výsledků sociokulturně znevýhodněných žáků.

- 1974 Title I Evaluation and Reporting System (TIERS) – evaluace T1 programu

60. léta 20. stol. National Assessment of Educational Progress (NAEP)

USA – testování pokračování

Page 10: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

70. léta 20. stol. Minimum competency testing movement – již kriteriální testy (CRTs),rozšíření testování na většinu států, plošné testování. Změna logiky dosud testování diagnostická funkce, snaha zlepšit vyučování a učení poskytnutím zpětné vazby. Nyní nově zlepšení díky tomu, že žáci skládají účty (akontabilita). Z počátku high-stakes pouze pro studenty.

80. léta 20. století , nástup test-based accountability

- 1983 A Nation at Risk:The Imperative For Educational Reform , Reaganova konzervativní administrativa zavádí větší důraz na testování

USA – testování pokračování

Page 11: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

- 1983 A Nation at Risk:The Imperative For Educational Reform , Reaganova konzervativní administrativa zavádí větší důraz na testování.

- pokles výsledků am. žáků v SATu v 60. a 70. letech , nutnost hledat řešení

- odklon od měření minimálního standardu k náročnějším testům

- Dopady nejen na žáky, nyní již i na školy (byť zatím experimentování v některých státech)

USA – testování pokračování

Page 12: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

- Experimentování s finančními odměnami „dobrým“ školám, výměna vedení či rušení špatných škol, apod. Praxe, která se šířila a posilovala v 90. letech a vedla až k NCLB;

USA – testování pokračování

Page 13: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný
Page 14: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

Close the achievement gap with accountability, flexibility, parental choices, and research-based reforms

PURPOSE

Page 15: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

NCLB (2001) NCLB si klade za cíl zvýšit standardy

(kvalitu) vzdělávání a odpovědnost škol za výsledky žáků (akontabilitu) Definovaní evaluačních standardů Každoroční testování žáků ve 3. až 8. ročníku ve čtení, matematice (přírodních vědách)

Page 16: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

NCLB – indikátor zlepšování = AYP Adequate Yearly Progress (AYP)

Definice (míra) úspěšnosti programu Určité stanovené % žáků pro daný rok musí

dosáhnout úrovně „proficient“ Procento žáků, kteří dosáhli úrovně

„proficient“ se musí rok od roku zvyšovat Zlepšování až k dosažení úrovně „proficient“

v celé populaci žáků (do roku 2014) Vše platí i pro definované subpopulace (podvýběry)

Page 17: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

NCLB 2001 Subgroups

Whites Blacks Latinos Asian / Pacific Islander American Indian / Alaskan Native Students on free lunch English Language Learners Students with disabilities Must reach 100% proficiency by 2013-2014

Page 18: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

Adequate Yearly Progress - Example

20 01 20

2002 2003

2003 2004

2004 2005

2005 2006

2006 2007

2007 2008

2008 2009

2009 2010

2010 2011

2011 2012

2012 2013

2013 2014

100% 95% 90% 85% 80% 75% 70% 65% 60% 55% 50% 45% 40%

40% Baseline Target

2001-2002

100% Target

2013-2014

ACCOUNTABILITY

Page 19: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

NCLB – pobídky a tresty Při nedosažení standardu (ročně od 29 –

35 % škol) 2 roky po sobě: sepsání plánu na zlepšení,

DVPP, možnost pro žáky změnit školu (dle vlastní volby)

3 roky po sobě: viz výše + žáci dostávají „vouchery“ na doučování u privátních poskytovatelů

4 roky po sobě: “Corrective action”

Page 20: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

Opatření k napravení „nevýkonných škol“

NCLB možnosti pro „turnaround“ (corrective actions)

– Výměna učitelského sboru a vedení školy

– Předání školy státu (pokud není veřejná)

– Smlouva s privátním poskytovatelem – Převedení na “charter school” – „jakékoliv další zásadní změna“

Page 21: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

A co výsledky??? Test-based accountability

obecně a NCLB

Page 22: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

Rétorika zprávy byla „nadnesená“, pokles nebyl tak dramatický, za jaký byl prohlašován k obhájení reforem.

Pokles v SATu dosáhl 0,25 – 0,4 směr. odchylky (tj. středně velká změna), ve verbálním testu až 0,5

Ovšem nebral se v potaz compositional effect, tedy změna v charakteristikách testované populace (SAT byl dobrovolný pro přijetí na VŠ, ne plošný)

USA – A Nation at Risk

Page 23: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

V novinách se dočteme, že navzdory 20 letům změn a reforem v návaznosti na A Nation at Risk výsledky žáků se přinejmenším nezlepšily, pokud se dokonce nezhoršily.

Ironie – v reakci na problém se rozšířilo testování, je mnohem více dat… přesto díky posilování dopadů výsledků testů na žáky/učitele/školy je méně dat, kterým můžeme věřit. High-stakes testy motivují k hledání zkratek ke zlepšování.(inflace – inflatio –nafukování, nefouknuté testové skóry)

USA– Co se stalo od „A Nation at Risk“

Page 24: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

USA– Co se stalo od „A Nation at Risk“ Z dat, která nejsou ovlivněna inflací

testových skórů především NAEP. NAEP od 80. let, téměř žádné zlepšení,

naopak matematika velká zlepšení. - 9-letí od 1982 do 2007 zlepšení o 0,84 SD

(tj. stejně jako rozdíl v TIMSSu mezi USA a Japonskem, nebo rozdíl mezi whites&African Amnericans)

- 13-letí od 1974 do 2006 zlepšení o 0,5 SD.

- 17-letí od 1976 do 2006 o 0,2 SD.

Page 25: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

Percent Proficient in Wisconsin: Grade 4 Reading

Sources: Wisconsin Department of Public Instruction; National Center for Education Statistics

Page 26: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

Percent Proficient in Wisconsin: Grade 4 Math

Sources: Wisconsin Department of Public Instruction; National Center for Education Statistics

Page 27: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

Contrasts of Percent Proficient or above on NAEP and State Assessments (Grade 8 Mathematics)

NAEP (low-stake), výběrové Missouri 21% Tennessee 26%

Státní (high-stake),plošné

Missouri 16% Tennessee 87%

Kentucky KIRIS NAEP

Raw Gain 23.7 4

Standardized gain 0.52 0.13

Page 28: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

-0,1

0

0,1

0,20,3

0,4

0,5

0,6

0,7

Year

Směr

odat

ná o

dchy

lka

KIRIS

ACT 1992 199519941993

Trendy ve výsledcích (matematika), Kentucky

Page 29: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

Iluze zlepšování – test score inflation Nafouknuté testové skóry (srovnej RIV

body v ČR) Strategie: jednání, která zvyšují výsledky

v testu, která však nesouvisí se zlepšováním výsledků učení

A) Ovlivnění toho, kdo se účastní testování - Vyloučení (ze školy, z testování, je-li to

možné) - Změna zařazení studenta (např. specifické

potřeby apod.) - Opakování ročníku

Page 30: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

Iluze zlepšování – test score inflation B) Ovlivnění výsledků žáků v testu: - Příprava na test (teaching to the test),

časová alokace hodin před testem, aj. - Inflace testového skórů – např,

podvádění, atp. (příklad Slovensko – monitor)

Page 31: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

Proč se zabývat inflací test.skórů? Výzkum ukazuje na velký vliv těchto

behaviorálních reakcí na validitu usuzování o testovém skóru a jeho vývoj: bias of .50-.75 SD

Velikost tohoto zkreslení je škola od školy jiná Nevíme jaké je rozdělení této chyby (bias)

Nemůžeme hodnotit celkové zlepšení výsledků

žáků Děti zaostávají i přes iluze markatního zlepšování

Nemůžeme hodnotit relativní zlepšení K identifikování škol hodných odměny či trestu

Page 32: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný
Page 33: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný
Page 34: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

Evaluace efektů NCLB? Grade 4 Math Achievement

Source: Dee and Jacob, 2009.

After NCLB Before NCLB

Page 35: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

Studie National Research Council NRC, USA, květen 2011 „Incentives and

Test-Based Accountability in Education“ Evaluace NCLB a jeho předchůdců Odhad efektu TBE na základě meta-analýzy

je 0.08 SD!!!

Page 36: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

Studie National Research Council Conclusion 1: Test-based incentive

programs, as designed and implemented in the programs that have been carefully studied, have not increased student achievement enough to bring the United States close to the levels of the highest achieving countries. When evaluated using relevant low-stakes tests, which are less likely to be inflated by the incentives themselves, the overall effects on achievement tend to be small and are effectively zero for a number of programs.

Page 37: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

Studie National Research Council Conclusion 1 cont.: Even when evaluated

using the tests attached to the incentives, a number of programs show only small effects. Programs in foreign countries that show larger effects are not clearly applicable in the U.S. context. Schoollevel incentives like those of NCLB produce some of the larger estimates of achievement effects, with effect sizes around 0.08 standard deviations, but the measured effects to date tend to be concentrated in elementary grade mathematics and the effects are small compared to the improvements the nation hopes to achieve.

Page 38: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

Studie National Research Council Conclusion 2: The evidence we have reviewed

suggests that high school exit exam programs, as currently implemented in the United States, decrease the rate of high school graduation without increasing chievement. The best available estimate suggests a decrease of 2 percentage points when averaged over the population. In contrast, several experiments with providing incentives for graduation in the form of rewards, while keeping graduation standards constant, suggest that such incentives might be used to increase high school completion.

Page 39: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

Závěry Testy ano, jako zpětná vazba, omezit

možnost jiného využití pro hodnocení škol/učitelů

Používání testů k odměňování či trestání škol NE! Dosavadní výzkum ukazuje, že pozitivní efekt je zanedbatelný, téměř roven nule. Přitom přináší řadu vedlejších efektů, které zhoršují učení, postoje učitelů aj.

Page 40: David Greger · High-stakes tests & test-based accountability, součást hnutí . New Public Management (1980s) Anglie, USA Give us a break!!! (Sharon Gewirtz) Tradičně decentralizovaný

Vám za pozornost!!!

Děkuji