86
Flexibilisering van Toetsing Silvester Draaijer Casusbeschrijvingen bij het handboek Flexibilisering van Toetsing 12-07-2004

Flexibilisering van Toetsing - Edugroepen · 2007-06-24 · Flexibilisering van Toetsing pagina 4 van 86 1 Uitbesteding van beeldschermtoetsing: Lamark Test Centers Casusbeschrijving

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Flexibilisering van Toetsing Silvester Draaijer Casusbeschrijvingen bij het handboek Flexibilisering van Toetsing 12-07-2004

Flexibilisering van Toetsing

pagina 2 van 86

Colofon Flexibilisering van Toetsing Casusbeschrijvingen bij het handboek Flexibilisering van Toetsing

Stichting Digitale Universiteit Nijenoord 1, 3552 AS Utrecht Postbus 182, 3500 AD Utrecht Telefoon 030 - 238 8671 Fax 030 - 238 8673 e-mail [email protected] Auteurs Silvester Draaijer, Vic Peeters, Pascale Frinking, Christoffel Reumer, Alexander Kremers, Jan de Goeijen, Wolter Kaper Copyright Stichting Digitale Universiteit Deze uitgave is binnen het consortium van de Digitale Universiteit vrijelijk te gebruiken, mits voorzien van adequate bronvermelding. Niets uit deze uitgave mag buiten het consortium openbaar worden gemaakt, verspreid en/of verveelvoudigd door middel van internet, druk, fotokopie, microfilm of op welke andere wijze dan ook zonder voorafgaande schriftelijke toestemming van het bureau van de Digitale Universiteit. Datum 12-07-2004 Kenmerk 204A.PROD.082.Handboek Flexibilisering van Toetsing Casusbeschrijvingen

Flexibilisering van Toetsing

pagina 3 van 86

Inhoudsopgave

1 Uitbesteding van beeldschermtoetsing: Lamark Test Centers .................. 4 2 Samenwerking tussen opleidingen bij de ontwikkeling en

uitvoering van een voortgangstoets: Fontys Hogeschool Eindhoven, Hogeschool Alkmaar, Hogeschool Enschede......................... 8

3 Halen en brengen van toetsvragen: ConcepTests .................................. 18 4 Vakgroepsgewijs werken aan digitale toetsing: vakgroep Engels

van de Hogeschool voor Economische Studies Rotterdam..................... 23 5 Vakgroepsgewijs werken aan digitale toetsing: vakgroep

Mechanica van Faculteit Werktuigbouw Technische Universiteit Delft ......................................................................................................... 27

6 Disciplinegewijs werken aan een itembank: samenwerkende wiskundedocenten in het nederlands hoger onderwijs ............................ 35

7 Implementatie van een centraal toetssysteem: Saxion Hogescholen............................................................................................ 38

8 Invoeren van beeldschermtoetsing bij één opleiding: faculteit Economie, Hanzehogeschool Groningen ................................................ 44

9 Invoeren van digitale toetsing door één docent: docent Genetica, faculteit der Aard- en Levenswetenschappen Vrije Universiteit Amsterdam .............................................................................................. 53

10 Studenten maken zelf toetsvragen: Question Bank................................. 60 11 Inzetten van MarkThis voor het beoordelen van

essayvraagstukken: docent Rechtzoeken, faculteit der Rechtsgeleerdheid Vrije Universiteit........................................................ 70

12 Inzetten van CODAS voor het beoordelen van essayvraagstukken: testen bij de Vrije Universiteit.................................. 73

Flexibilisering van Toetsing

pagina 4 van 86

1 Uitbesteding van beeldschermtoetsing: Lamark Test Centers Casusbeschrijving door Jan de Goeijen en Silvester Draaijer

1.1 Samenvatting

Lamark is een dienstverlener die zich richt op het aanbieden van technische voorzieningen en diensten voor het proces van beeldschermtoetsing. Deze casus beschrijft hoe dit bedrijf werkt. Vooral het bedrijfsleven ziet het nut in van deze dienstverlening om tijd- en plaatsonafhankelijk toetsenen mogelijk te kunnen maken. Het is de vraag hoe het Hoger Onderwijs in Nederland van een dergelijk initiatief kan profiteren of leren. Lamark Test Centers http://www.lamark.com

1.2 Probleemstelling

Binnen het bedrijfsleven is er een constante behoefte om medewerkers te scholen. Vaak doen medewerkers een individueel scholingstraject. Denk daarbij vooral aan medewerkers uit de IT-sector, en het Bank- en het Verzekeringswezen. Na afloop van de scholing dient er getoetst te worden. Het is voor de trainings- en scholingsorganisatie van deze medewerkers moeilijk gebleken om de toetsing flexibel in tijd in te richten. Met name het summatief toetsen levert snel problemen op.

1.3 Oplossing

Dit probleem is gesignaleerd door een aantal bedrijven. Om de medewerkers de mogelijkheid te geven om zelf het begin en einde van het scholingstraject te bepalen is er een idee ontstaan om “Test centra” in te richten. Lamark (http://www.lamark.com/ / http://www.exam-center.com/ ) is zo’n bedrijf. Het is gespecialiseerd in ‘toetslogistieke oplossingen’. Lamark levert geen diensten op het gebied van toetsontwikkeling maar juist op het gebied van de toetsafname door beveiligde beeldschermtoetsing. Voor het afnemen van toetsen en examens biedt Lamark drie verschillende opties: • Afname onder professioneel toezicht in Lamark Test Centers • Afname in ‘In House’ test centers van opdrachtgevers • Afname via internet op de werkplek of thuis

1.4 Toetsafname

Lamark is een bedrijf dat een centraal toetssysteem heeft geïnstalleerd. Dat systeem is Questionmark Perception. Scholingsorganisaties kunnen aan Lamark een digitaal bestand geven in Questionmark Perception formaat. In zo’n bestand kan een organisatie grote hoeveelheden toetsvragen en toetsen opnemen. Door afspraken en betrouwbare codering is precies duidelijk welke toetsen in het systeem zitten. Lamark plaatst dat bestand op het centrale toetssysteem. Een student kan nu via een online aanmeldsysteem aangeven waar en op welk moment hij/zij graag een toets wil afleggen over een specifiek onderwerp. Lamark roostert deze toets in in haar systeem. De juiste toets wordt alvast klaargezet voor afname door die student.

Flexibilisering van Toetsing

pagina 5 van 86

Op het moment van de toets meldt de student zich bij de juiste locatie van Lamark en wordt door Lamark nagegaan of de juiste persoon zich heeft aangemeld. Meestal moet de student daarvoor rijbewijs of paspoort meenemen. De student wordt aan een terminal toegewezen en krijgt inlogcodes. Daarmee komt de student in het toetssysteem terecht bij de toets die geselecteerd hij aangegeven had te willen afleggen. De student kan de toets gaan maken. Lamark controleert nu of de student niet spiekt of op andere manieren fraude pleegt. Direct na afloop van het examen krijgt de student de (voorlopige) uitslag en, als ze gezakt zijn, kunnen ze direct een hertoets boeken. Lamark of de opdrachtgever kunnen nu de resultaten van de studenten bekijken een rapportages opvragen (online). Ook psychometrische analyse is mogelijk als er voldoende studenten dezelfde toets ondertussen hebben gemaakt. Na eventuele aanpassingen in de toets (zoals het verwijderen van vragen uit een toets of aanpassen van de cesuur) ontvangt de student zijn definitieve score. Ook kan aan de hand van de analyse besloten worden om de toetsvragen en toetsen in het systeem aan te passen. Op het gebied van toetsontwikkeling en toetsbeheer voert Lamark geen specifieke activiteiten uit. Bovenstaande aanpak resulteert in een aantal voordelen. Lamark biedt namelijk flexibiliteit; kandidaten kunnen direct via http://www.exam-center.com/ , tot 1 dag voor de examendatum een examen boeken, op een door hen gewenste datum en locatie. De toetsafname is technisch betrouwbaar en fraude is niet mogelijk. Onderwijsorganisaties hebben direct toegang tot het toetsplatform via een gebruiksvriendelijke webinterface zonder zelf technisch expert te zijn. Het toetsplatform biedt ‘real-time’ inzicht in de boekingen, eventuele onregelmatigheden gedurende examens, resultaatrapportages etc. Lamark biedt opdrachtgevers de mogelijkheid de boekingsschermen via hun eigen website en in eigen huisstijl aan te bieden en is het mogelijk een directe koppeling te maken met het administratieve- en/of Leer Management Systeem van de opdrachtgever.

In de meeste universiteits- en hogeschoolsteden in Nederland heeft Lamark test centra. Ook in andere landen in West Europa heeft Lamark test centra. Dus er kunnen in principe ook summatieve toetsen worden aangeboden aan studenten die niet in Nederland studeren. De test centra van

Flexibilisering van Toetsing

pagina 6 van 86

Lamark zijn elke werkdag geopend van 9:00-17:00 uur. Er zijn plannen om een proef te beginnen met het openstellen van de centra’s in de weekends.

1.5 Kosten baten

Voor het afhandelen van één toets voor één student rekent Lamark ~ € 40,-. Onder het afhandelen wordt verstaan: het inschrijven, het doen van de toets en het rapporteren van de toetsresultaten. Het construeren van de toets items dient door de klant zelf gedaan te worden. Voor het HO bieden deze toetscentra zeker ook een mogelijkheid om een deel van hun toetsen onder te brengen. Hierbij valt vooral te denken aan tentamens met een klein aantal studenten. Herkansingen van een vak of vakken met een klein aantal studenten komen hiervoor bijvoorbeeld in aanmerking. Op dat moment zou wel gedacht moeten worden aan tentaminering met open vragen (studenten moeten bijvoorbeeld vrije tekst antwoorden invullen in Questionmark of in MS-Word). Voor vakken met veel studenten (>300) worden de kosten bij uitbesteden wel erg hoog. Voor deze populatie komen bij één toets op een bedrag van Euro 12.000,- Dan wordt het voor een instelling al gauw aantrekkelijk om zelf een “Toetscentrum” te gaan inrichten. De toetscyclus van b.v. 4 toetsmomenten per jaar op een instelling is dan wel een drempel om een eigen toetscentrum rendabel te kunnen maken. Namelijk het beschikbaar hebben van een PC-toetszaal met 300 PC’s die 80% van de tijd ongebruikt zijn zal niet snel het fiat krijgen van een College van Bestuur. Om een dergelijke grootschalige voorziening rendabel te krijgen op zullen PC-voorzieningen moeten worden gerealiseerd die voor meerdere functies geschikt zijn: • Informatievoorziening (in biblio- en mediatheken); • Werkplekfunctie (voor algemene kantoor toepassingensoftware); • Groepswerkfunctie (voor samenwerkingsdoeleinden in kader van bijv. projectonderwijs of

probleemgestuurd onderwijs); • Practicumfuncties (voor vakspecifieke toepassingssoftware); • Instructiefunctie (waarbij docent ook goed instructie kan verzorgen); • Toetsfunctie (voor formatieve en summatieve toetsing). Het zou goed zijn om bij toekomstige inrichting van de fysieke onderwijsomgeving en – meer specifiek – PC-zalen het aspect van tentaminering integraal mee te nemen in het ontwerp van de omgeving. Het gemiddeld aantal toetsplekken bij een Lamark toetscentrum in Nederland is ongeveer 50. Om heel grote groepen tegelijkertijd een toets te laten doen geeft nogal wat problemen. Stel dat er 4 rondes op één dag gedaan kunnen worden dan is men totaal 2.5 dag bezig om een groep van 500 studenten te toetsen. Aan de baten kant zien we naast het flexibelere kunnen studeren/toetsen dat er bij een klein aantal studenten (<50) kosten worden bespaard. Los van de financiële kosten en baten kan wel gesteld worden dat er twee categorieën van andere baten zijn. De reacties van de kandidaten op het gebruik van een ‘Lamark-test’ zijn enthousiast. Ze vinden het belangrijk dat ze hun eigen studietempo kunnen bepalen en aansluitend examen kunnen doen. De flexibiliteit van tijd en plaats wordt ook als positief gezien. Geen eindeloze reistijden en examen doen wanneer het je het beste uitkomt. Een ander pluspunt is het feit dat kandidaten direct na afloop van het examen de (voorlopige) uitslag krijgen en, als ze gezakt zijn, direct een herexamen kunnen boeken. “Wat ook veel genoemd wordt is de heerlijke rust van zo’n testcenter. Geen achthonderd man die zitten te kuchen en te ritselen met papieren.”

Flexibilisering van Toetsing

pagina 7 van 86

Aan de zijde van de toetsontwikkeling vraagt de Lamark-aanpak dat er door onderwijsorganisaties veel systematischer nagedacht moet worden over, en gewerkt moet worden aan, het ontwikkelen van toetsvragen en toetsen. Om toetsen permanent ter beschikking te hebben zal het beheren en bijwerken van de itembank constant aandacht vragen. Dat zal het toetsproces een meer continu karakter geven en daarmee naar verwachting ook de kwaliteit doen laten toenemen.

1.6 Discussie

Op dit moment het maakt bedrijfsleven al volop gebruikt maakt van de in Nederland aanwezige toetscentra. Naast Lamark zijn er meerdere bekend (o.a. Prometric, Andriessen, Exxin). Flexibiliteit en kosteneffectiviteit geeft deze centra hun bestaansrecht. HBO/Universiteiten maken op dit moment nog geen gebruik van één van de test centra van Lamark of een andere dienstverlener. De bestaande manier van toetsen op een HO instelling sluit nu nog niet goed aan bij het gebruiken van een “test centrum”. Het onderwijs is toch nog grotendeels gebaseerd op grotere groepen die gelijktijdig een onderwijsprogramma doorlopen. De toetsing is gecentreerd rondom individuele docenten en ‘standaard’ roostertijdstippen, opgelegd vanuit de instelling. Wil een HO instelling naar een flexibelere manier van toetsen dan dienen daarin – vanuit een visie op flexibilisering van het onderwijs en het aanbieden van individuele leertrajecten – veran-deringen te worden aangebracht. Een expliciete bekostiging van tentamens en examens door studenten kan in de toekomst wellicht als instrument worden gebruikt om het toetsproces te flexibiliseren. Waarom zouden instellingen voor Hoger Onderwijs niet arrangementen aan haar studenten aanbieden waarin zij, bijvoorbeeld voor herkansingstoetsen en tegen betaling tentamen kunnen doen in een testcentrum. Het is dan de taak van de opleidingen en docenten om voor die toepassing toetsen gereed te hebben staan die studenten op eigen initiatief kunnen gaan afleggen. Of een dergelijk testcentrum dan door de instelling zelf wordt ingericht of een extern bedrijf zoals Lamark doet dan niet meer zo terzake. Een bedrijf als Lamark laat zien dat een dergelijke oplossing voor wat betreft de toetslogistiek in principe voorhanden is.

Flexibilisering van Toetsing

pagina 8 van 86

2 Samenwerking tussen opleidingen bij de ontwikkeling en uitvoering van een voortgangstoets: Fontys Hogeschool Eindhoven, Hogeschool Alkmaar, Hogeschool Enschede Casusbeschrijving door Vic Peeters en Silvester Draaijer

2.1 Samenvatting

Een aantal verpleegkunde opleidingen in Nederland besluiten om gezamenlijk te gaan werken aan het ontwikkelen van een itembank voor voortgangstoetsing. Deze casus beschrijft het proces van het zoeken van partners (en het weer afhaken van een aantal), de problemen die overwonnen moeten worden met betrekking tot de techniek en de itembank en de problemen met betrekking tot de productie en kwaliteitsbewaking van de toetsvragen. Het resultaat van deze samenwerking is echter een verhoging van de kwaliteit van het toetsproces en de toetsing en een kostenreductie voor de betrokken opleidingen

2.2 Introductie

Al in 1983 werden bij de Fontys Hogeschool Verpleegkunde de eerste plannen gemaakt voor het ontwikkelen van een voortgangstoets (VGT). Pas vijf jaar later (in 1988) is er met de VGT gestart. Door middel van kennisdisseminatie op symposia en dergelijke, werd de belangstelling van andere Verpleegkunde-opleidingen gewekt die uitmondde in samenwerking. In 1990 start de samenwerking met de Haagse Hogeschool en Hogeschool Diemen, die echter weer in 1995 afhaken. De reden voor het afhaken is dat er onvoldoende motivatie bij de twee hogescholen is, waardoor er nooit gelijkwaardig partnerschap (inzet en kwaliteit) op gang komt. In 1993 start de samenwerking met de opleiding van de Hogeschool Enschede (de huidige Saxion Hogeschool in Enschede). In 1997 is er een jaar proefgedraaid met de opleiding van de Hogeschool Alkmaar en deze opleiding is een jaar later definitief samen gaan werken. In de huidige situatie gaat het om de volgende aantallen studenten:

Tabel 1 Aantallen studenten die VGT maken (voorjaar 2004; aantallen bij benadering)

Alkmaar 200

Eindhoven 600

Enschede 200

Totaal 1000

2.3 Voortgangtoets

Bij voortgangstoetsing wordt een toets op het eindniveau van de opleiding periodiek afgenomen bij alle studenten van de opleiding.Voortgangstoetsing kan worden omschreven als ‘tussentijdse schriftelijke evaluatie van de kennis die aan het einde van de studie beheerst moet worden’ (Verwijnen, Pollemans et al. 1995). Een VGT is een schriftelijke toets die bestaat uit een grote hoeveelheid meestal gesloten vragen: 200 – 300. De toets dient een afspiegeling te zijn van de eindtermen van een opleiding en dan met name wat de functionele kennis betreft. De student krijgt zo inzicht in zijn ontwikkeling ten opzichte van de eindtermen. Het past het best bij meer homogene opleidingen met een groot gemeenschappelijk programma, zodat door schaalgrootte statische analyse en vergelijking mogelijk zijn. Alle kennisgebieden dienen met vragen aanwezig te zijn in de VGT. Zie verder (Heijmen-Versteegen 2002).

Flexibilisering van Toetsing

pagina 9 van 86

Verpleegkundige opleidingen Bij de verpleegkundige opleidingen waarvan in deze casus sprake is, wordt viermaal per jaar een VGT afgenomen. In de praktijk worden de verschillende VGT's genoemd naar de seizoenen waarin de afname plaatsvindt: VGT-Herfst, VGT-Winter, VGT-Lente en VGT-Zomer. Elke VGT bestaat uit 245 vragen. Er is een matrix opgesteld, waarin wordt aangegeven hoe de vragen over de verschillende vakken en categorieën zijn verdeeld. Zie Tabel 2.

Tabel 2 Verdeling van de vragen over vakken en categorieën

Categorie

Vak

AKBE BOGZ CHBE GEBE KUSA VEPR VITH Totaal

VE Verpleegkunde 12 5 15 12 6 15 15 80

GE Geneeskunde 8 15 8 3 6 40

PS Psychologie 2 7 7 2 7 10 35

SO Sociologie 4 6 5 15

GK Gezondheidskunde 3 3 3 2 2 2 15

FE Filosofie - ethiek 6 6 12

OM Onderzoeksmethoden 12 12

OR Organisatiekunde 12 12

RE Recht 12 12

EC Economie 12 12

Totaal 25 45 40 30 25 30 50 245

De afkortingen van de categorieën staan respectievelijk voor: Acute bestaansbeperkingen, Beleid en organisatie in de gezondheidszorg, Chronische bestaansbeperkingen, Gezond bestaan, Cultuur en samenleving, Verpleegkundige praktijk, Visies en theorieën. Deze matrix wordt voor verschillende doeleinden gebruikt: • In de eerste plaats natuurlijk voor het samenstellen van de toets: toetsmatrijs. Het

samenstellen van de toets gebeurt nu nog handmatig uit een itembank (gedeeltelijke automatisering), maar zal in de nabije toekomst (bij overgang naar een nieuw itembanksysteem) automatisch worden getrokken uit de itembank op basis van de toetsmatrijs.

• Bij het ontwikkelen van nieuwe vragen wordt – aan de hand van de aanwezige vragen in de bank – bekeken in welke cellen hoeveel vragen nog moeten worden ontwikkeld.

Nadat de antwoorden van de studenten zijn geanalyseerd met behulp van het analyseprogramma Multo, krijgen de studenten na iedere VGT naast de uitslag ook persoonlijke feedback op hun score. Hierbij wordt hun prestatie per vak en per categorie vergeleken met een referentiegroep. Als referentie dient de jaargroep van de eigen opleiding. Dit is nu juist de diagnostische functie van de VGT. Het is van belang voor een zinvolle diagnose dat het aantal items per vak en categorie niet te klein is (een ondergrens van 10 is aan te bevelen).

Flexibilisering van Toetsing

pagina 10 van 86

Figuur 1 Feedbackformulier voor student

• Tenslotte wordt op basis van dezelfde analyse ook bepaald hoe de verschillende vakken en de verschillende categorieën hebben 'gescoord' in een VGT. Dit wordt uitgedrukt als de bijdrage die vakken en categorieën hebben geleverd aan de VGT. Deze vorm van feedback geeft de opleiding als geheel en de docenten inzicht in de kwaliteit van de curriculumonderdelen.

Flexibilisering van Toetsing

pagina 11 van 86

Figuur 2 Score per vak

2.4 Itembanken

De items worden opgeslagen in een aantal itembanken die alle worden bijgehouden in Eindhoven. Voor elke VGT van 245 vragen worden 330 vragen geselecteerd op basis van de matrix. Elke opleiding zorgt voor 110 vragen, waarvan er 55 nieuw zijn en 55 bestaande items zijn die langer dan 4 jaar geleden gebruikt zijn in een VGT. De nieuwe vragen worden via een bepaald format (TIBS) aangeleverd en opgeslagen in de zogenaamde Goed-bank. De items die ooit in een VGT zijn gebruikt, worden per opleiding opgeslagen in een aparte VGT-bank. Wanneer het langer dan 4 jaar geleden is dat items zijn gebruikt, worden ze overgeheveld naar de Goed-bank. Vóór de trekking van de items ten behoeve van de laatste VGT-winter, bevatte de Goed-bank meer dan 4600. Elk jaar levert elke opleiding minimaal 220 (4 x 55) nieuwe items aan voor de Goed-bank. De aanlevering kan verspreid over het jaar plaatsvinden of in een bepaalde periode. Elke opleiding is daar in principe vrij in. In de toetscyclus wordt ervan uitgegaan dat het ontwikkelen van items een continu proces is. In de praktijk blijkt echter vaak dat het beter uitpakt wanneer het ontwikkelen in een bepaalde periode wordt geroosterd. Bij de Verpleegkunde-opleiding in Eindhoven worden de vragen voor de VGT ontwikkeld in samenhang met de vragen voor de zogenaamde Bloktoetsen.

Flexibilisering van Toetsing

pagina 12 van 86

Figuur 3 Samenhang itembanken

Goed-bank

4639

VGT-Alkmaar VGT-Eindhoven VGT-Enschede

> 4 j > 4 j > 4 j

55 55 55

Nieuweitems

Alkmaar

Nieuweitems

Eindhoven

Nieuweitems

Enschede

55 55 55

Ruwe toets

330

165

165

Definitieve toets245

Afgewezen

40

45

Bewaard

240

80 80 80

Afgewezen

5

Elke periode wordt op basis van 165 nieuwe items en 165 items die langer dan 4 jaar geleden zijn gebruikt in een toets, een nieuwe toets samengesteld. Van deze 330 items komen er uiteindelijk 245 in de definitieve VGT. Van de overgebleven 85 items wordt er ongeveer de helft afgewezen en de andere helft wordt in de Goed-bank geplaatst. Op deze wijze en op basis van omvangrijke ontwikkelingsrondes in het verleden, heeft de Goed-bank eind 2003 de genoemde omvang van 4639 items gekregen. Om het plaatje in Figuur 3 niet nodeloos ingewikkeld te maken is er een itembank weggelaten. In werkelijkheid is er ook nog een allesomvattende itembank: hierin zitten zowel de goede, als de vervallen als de pasgebruikte items.

2.5 Financiën

De drie opleidingen hebben hun leveringen aan de gezamenlijke VGT-bank contractueel vastgelegd. De contracten worden jaarlijks opgesteld. Een contract kent als opdrachtgever de Hogeschool Enschede of de Hogeschool Alkmaar. In de contracten is telkens de opdrachtnemer de Fontys Hogeschool Verpleegkunde. Ieder contract wordt getekend door alle drie de partijen: bijvoorbeeld het contract tussen Alkmaar en Eindhoven wordt ook ondertekend door Enschede. Op deze manier wordt benadrukt dat de partijen samen verantwoordelijk zijn voor de VGT. Enkele regels uit het contract die betrekking hebben op de levering en de financiën: • Partijen leveren een evenredig deel van de items ten behoeve van het Project Gezamenlijke

Voortgangstoetsing. Dit betekent dat iedere partij 1/* x 330 goedgekeurde items aanlevert (*=aantal deelnemende partijen). De aangeleverde items zijn conform de vastgestelde matrix, per vak en categorie. De aanlevering geschiedt volgens het tijdpad dat jaarlijks wordt vastgesteld in de centrale toetscommissie)

• Een VGT mag voor ten hoogste 50% bestaan uit eerder gebruikte items welke minimaal vier jaren niet gebruikt zijn.

• Voor het gezamenlijk gebruik van de items worden door de partijen over en weer geen kosten in rekening gebracht indien de aanlevering van de vragen overeenkomstig de afspraak is

Flexibilisering van Toetsing

pagina 13 van 86

(….). Mocht een van de partijen om welke reden dan ook in gebreke blijven, dan wordt € 30,00 per extra geleverd bruikbaar item en € 15,00 voor de reparatie van een item op inhoud in rekening gebracht, te betalen door de in gebreke blijvende partij. De reparatie van een item op tekst is in de beheerskosten opgenomen.

• Partijen hebben het beheer over de itembank gedelegeerd aan de toetsmedewerker van de Fontys Hogeschool Verpleegkunde. De kosten voor het beheer van de itembank zullen evenredig door de partijen worden gedragen.

De kosten ten behoeve van het onderhoud en beheer van de itembank voor het studiejaar 2003/2004 zijn als volgt begroot:

Tabel 3 Kostenbegroting VGT voor het studiejaar 2003-2004 (kosten exclusief huur ruimte en surveillanten)

Per VGT Totaal voor 4 VGT's

Totaal kosten € 3.890,00 € 15.560,00

Per deelnemende partij € 5.187,00

Ervan uitgegaan dat bij geen samenwerking dezelfde inspanningen ook verricht zouden moeten worden door elke partij, bedraagt het totale financiële voordeel ongeveer € 30.000.

2.6 Kwaliteitsbewaking

De kwaliteit van de items en daarmee ook de kwaliteit van de VGT's worden op verscheidene momenten bewaakt: De auteur laat het door hem/haar geschreven item beoordelen door een collega. Het item wordt vervolgens gescreend door de OpeidingsToetsCommissie (OTC) van de eigen opleiding. In het contract staat opgenomen dat deze screening dient te geschieden voordat het item wordt aangeboden aan het Project Gezamenlijke Voortgangscommissie. Voorwaarde voor het partnerschap is het hebben van een OTC. De OTC staat onder leiding van een docent. In een OTC zitten een of meerdere personen die de VGT in hun portefeuille hebben. Deze personen bewaken de ontwikkeling van de VGT-vragen. Een medewerker van het secretariaat in Eindhoven doet het itembankbeheer en zij bewaakt ook de vulling van de itembank. Zij stelt daartoe overzichten op vóór iedere toets, zodat de betreffende opleiding kan zien voor welke cellen van de matrix de docenten nog vragen moeten ontwikkelen. Uit de itembank wordt een ruwe toets getrokken en deze ruwe toets wordt door de centrale toetscommissie (CTC) beoordeeld. In het contract staat vermeld: 'De CTC is verantwoordelijk voor de samenstelling en de kwaliteit van de gezamenlijke VGT’s. De CTC vergadert 4 keer per jaar teneinde de samenstelling en de kwaliteit van de 4 VGT’s te realiseren en te bewaken en de samenwerking te intensiveren.' Alle drie de opleidingen bieden hun studenten de mogelijkheid om zogenaamde commentaarbriefjes in te vullen. Studenten kunnen daarop aangeven welke vragen zij om welke reden slecht vinden. Na de afname van de toets worden de antwoorden van de studenten geanalyseerd. De verwerking en analyse gebeurt op iedere opleiding afzonderlijk. Iedere opleiding beslist zelf op grond van de analyse en op grond van de commentaarbriefjes van de studenten welke vragen uit de VGT worden verwijderd. Nadat zo elke opleiding de uitslagen heeft vastgesteld en medegedeeld aan haar studenten, wordt iedere VGT in de CTC nabesproken. De statistische gegevens worden onderling uitgewisseld. In de praktijk blijkt dat de opleiding uit Eindhoven een strengere selectie hanteert dan

Flexibilisering van Toetsing

pagina 14 van 86

de overige twee opleidingen. In Eindhoven wordt doorgaans 5 - 10% van de vragen verwijderd en bij de andere twee < 5%. Slechts wanneer alle drie de opleidingen het er over eens zijn, wordt een item niet in de itembanken opgenomen of uit de itembank verwijderd. De overgebleven goede items worden geplaatst in de itembank van de partner die het item heeft aangeleverd. Binnen de VGT van de Verpleegkunde-opleidingen wordt er geen specialisatie toegepast, in die zin dat iedere opleiding een bepaald segment van de matrix voor zijn rekening neemt. Elke opleiding levert voor alle vereiste cellen van de matrix de afgesproken hoeveelheid items. Het aantal items dat wordt opgenomen in de toets, is ook gelijkelijk verdeeld. Het is niet zo dat van de 330 items de beste 245 worden opgenomen. Alle 330 items worden in de CTC besproken. Dat is de derde screeningsronde met verbeteringen (zie boven). In die centrale bespreking en verbetering wordt veel van elkaar geleerd en worden de afzonderlijke opleidingen geprikkeld hun eigen teams aan te sturen om kwalitatief goede vragen te maken.

2.7 Studenten en de voortgangstoets

In de vorige paragraaf is al de invloed die de studenten kunnen hebben op de kwaliteit van de toetsvragen, aan bod gekomen. Zij kunnen dit doen door middel van de commentaarbriefjes. Door de feedbackformulieren die zij na elke VGT ontvangen, is de diagnostische functie van de VGT gegarandeerd. Hierdoor kunnen zij zich qua functionele kennis spiegelen aan de groep studenten waarvan zij deel uitmaken (zelfde opleiding en zelfde jaargroep). Voor studenten zijn papieren oefentoetsen beschikbaar. Bovendien kunnen gemaakte toetsen meegenomen worden en circuleren er binnen de opleiding oefentoetsen. Dit wordt door de opleiding ook gestimuleerd, want het past in de PGO-visie en in 'zelfstandig en vraaggestuurd leren'. Er zijn echter nog ander aspecten te onderscheiden in de relatie tussen de studenten en de VGT. Naast de diagnostische functie heeft de VGT op alle drie deelnemende opleidingen ook een certificerende functie: de studenten kunnen per behaalde VGT twee studiepunten verdienen. Iedere student moet tijdens zijn hele studieloopbaan op 10 niveaus een voldoende halen. De VGT omvat dus in totaal 20 studiepunten. Hij mag maximaal 2 niveaus, 4 studiepunten tegelijk halen. In theorie kan een goede student in 1,5 jaar aan zijn verplichtingen voor de VGT hebben voldaan. Zo'n student wordt aangeraden (wanneer hij dat al niet uit zichzelf doet) toch door de jaren heen te blijven deelnemen aan de VGT, zodat hij zijn kennis blijft toetsen. Bij de opleiding in Eindhoven geldt de volgende normering:

Tabel 4 Normering van de VGT-en, zoals opgenomen in de OER van Fontys Hogeschool Verpleegkunde (vetgedrukt zijn de cesuren per niveau)

Voortgangstoets 1 Voortgangstoets 2

S = Slecht 0,00% - 1,99% S = Slecht 0,00% - 4,99%

O = Onvoldoende 2,00% - 7,99% O = Onvoldoende 5,00% - 10,99%

V = Voldoende 8,00% - 10,99% V = Voldoende 11,00% - 13,99%

R = Ruim voldoende 11,00% - 19,99% R = Ruim voldoende 14,00% - 22,99%

G = Goed 20,00% - 100,00% G = Goed 23,00% - 100,00%

Voortgangstoets 3 Voortgangstoets 4

S = Slecht 0,00% - 7,99% S = Slecht 0,00% - 10,99%

O = Onvoldoende 8,00% - 13,99% O = Onvoldoende 11,00% - 16,99%

V = Voldoende 14,00% - 16,99% V = Voldoende 17,00% - 19,99%

R = Ruim voldoende 17,00% - 25,99% R = Ruim voldoende 20,00% - 28,99%

G = Goed 26,00% - 100,00% G = Goed 29,00% - 100,00%

Flexibilisering van Toetsing

pagina 15 van 86

Voortgangstoets 5 Voortgangstoets 6

S = Slecht 0,00% - 14,99% S = Slecht 0,00% - 17,99%

O = Onvoldoende 15,00% - 20,99% O = Onvoldoende 18,00% - 23,99%

V = Voldoende 21,00% - 23,99% V = Voldoende 24,00% - 26,99%

R = Ruim voldoende 24,00% - 32,99% R = Ruim voldoende 27,00% - 35,99%

G = Goed 33,00% - 100,00% G = Goed 36,00% - 100,00%

Voortgangstoets 7 Voortgangstoets 8

S = Slecht 0,00% - 23,99% S = Slecht 0,00% - 26,99%

O = Onvoldoende 24,00% - 29,99% O = Onvoldoende 27,00% - 32,99%

V = Voldoende 30,00% - 32,99% V = Voldoende 33,00% - 35,99%

R = Ruim voldoende 33,00% - 41,99% R = Ruim voldoende 36,00% - 44,99%

G = Goed 42,00% - 100,00% G = Goed 45,00% - 100,00%

Voortgangstoets 9 Voortgangstoets 10

S = Slecht 0,00% - 27,99% S = Slecht 0,00% - 28,99%

O = Onvoldoende 28,00% - 33,99% O = Onvoldoende 29,00% - 34,99%

V = Voldoende 34,00% - 36,99% V = Voldoende 35,00% - 37,99%

R = Ruim voldoende 37,00% - 45,99% R = Ruim voldoende 38,00% - 46,99%

G = Goed 46,00% - 100,00% G = Goed 47,00% - 100,00%

Het blijkt dat met name tussen de niveaus 6 en 7 de progressie voor veel studenten stokt. De cesuur ligt 6%-punten hoger. Een opleiding Verpleegkunde kan niet alle beroepsrelevante thema's van het beroep Verpleegkundige uitgebreid behandelen in het leerplan. Soms komen bepaalde thema's niet aan bod. Dit betekent overigens niet dat de afgestudeerde studenten daardoor geen volwaardige verpleegkundigen zouden zijn! Het past zelfs in de visie dat het leren steeds meer de verantwoordelijkheid van de student zelf wordt. De VGT stimuleert tot een verbreding van de kennis van de student. Een voorbeeld: in het curriculum van de opleiding in Eindhoven wordt niet uitgebreid aandacht besteed aan brandwonden (brandwonden is geen apart vak en geen aparte categorie). De andere twee opleidingen besteden hieraan relatief meer aandacht. Dit laatste is terug te vinden in het aantal items die handelen over brandwonden. De student uit Eindhoven die hiermee wordt geconfronteerd, zal zo worden uitgedaagd om zelf aandacht te besteden aan dit onderwerp.

2.8 Studenten met een toetsregeling

Ook studenten die kampen met concentratiestoornissen, die dyslectisch zijn of die anderstalig zijn, moeten deelnemen aan de VGT. Voor hen is echter een speciale regeling getroffen. Wordt de VGT voor de andere studenten massaal in een speciaal daarvoor afgehuurde ruimte (in Eindhoven het Beursgebouw voor 600 studenten) gehouden, voor de studenten met de zogenaamde toetsregeling wordt de VGT in een speciaal lokaal op de opleiding afgenomen. Het gaat hierbij om 20 - 30 studenten. Duurt de normale VGT maximaal 4 uur, deze studenten mogen er een uur langer over doen. De studenten mogen een woordenboek gebruiken. De tekst van de VGT wordt eventueel groter afgedrukt. Het is ook wel eens voorgekomen dat de vragen ingesproken zijn op een bandje. Tijdens de VGT-winter die op 7 januari 2004 werd afgenomen, heeft zich een merkwaardig voorval voorgedaan. Het gedeelte van Eindhoven waar het Beursgebouw zich bevindt, werd een half uur na het begin van de VGT getroffen door een stroomstoring. Een generator kon maar even de storing opvangen. Er is nog even overwogen de VGT bij kaarslicht af te nemen, maar ook omdat ook de verwarming niet kon functioneren (midden in de winterperiode), is besloten de VGT af te gelasten en opnieuw te organiseren. Dit gold alleen voor de studenten in Eindhoven die geen toetsregeling

Flexibilisering van Toetsing

pagina 16 van 86

hadden. De wijk van Eindhoven waar de opleiding zich bevindt, had geen stroomstoring. De studenten met de toetsregeling konden zo hun VGT gewoon afmaken. Enerzijds was er wel begrip van de zijde van de gedupeerde studenten, anderzijds was het natuurlijk wel 'balen' voor hen. Sommigen hadden speciaal voor de toets vrijgenomen van hun stage of hun werk.

2.9 VGT en toetsbeheer en toetsanalyse met ICT

Een goed opgezette itembank is essentieel voor een VGT. Toen de opleiding in Eindhoven in 1988 begon met VGT heeft een docent een eigen itembanksysteem (SVT) ontworpen. Tot op heden wordt dit programma nog steeds gebruikt, maar het kraakt in zijn voegen, niet in de laatste plaats door het grote aantal items. Het programma werd getroffen door een millenniumbug, maar met wat extra programmaregels kon het programma in de lucht worden gehouden. Binnen Fontys is er intussen gekozen voor een nieuwe standaard voor itembanken: N@Tschool!, dat tevens de standaard is voor de elektronische leeromgeving. Begin 2005 zal de opleiding overgaan naar deze nieuwe standaard en zullen de itembanken naar de nieuwe omgeving zijn geconverteerd. Begin 2000 is in Eindhoven in het kader van een project een poging gedaan een VGT via het beeldscherm aan te bieden aan studenten als oefentoets. Deze toets liet echter aan gebruiksvriendelijkheid te wensen over: er was moeilijk in te loggen en de presentatie op het scherm was niet goed. Er is toen niet verder aandacht aan besteed. Met de komst van de nieuwe elektronische leeromgeving N@Tschool!, waarin ook het itembanksysteem is opgenomen dat zowel geschikt is voor papieren toetsen als voor beeldschermtoetsen, zijn er uiteraard nieuwe kansen. Daarop zal ook worden ingezet. Bij de overgang naar het nieuwe systeem zal er ook aandacht moeten zijn voor de aansluiting van de systemen van de samenwerkende partners. Voor de analyse van de VGT-toetsen (die dus op papier worden afgenomen) wordt er door de opleidingen gebruik gemaakt van het programma Multo, dat nog dateert uit de DOS-periode. Tot nu toe is het steeds mogelijk geweest om het programma te laten draaien onder Windows. Met de komst van nieuwe Windows-standaarden wordt dit steeds lastiger en is de geneigdheid voor ondersteuning door de ICT-diensten steeds geringer. Voor de opleiding in Eindhoven ziet het ernaar uit dat de leverancier van N@Tschool! de functionaliteit van Multo wil gaan inbouwen in N@Tschool!. Tevens wordt ernaar gekeken of deze functionaliteit (eventueel met aanpassingen) ook geschikt is voor beeldschermtoetsen.

2.10 Discussie

Het samenwerkingsverband tussen verschillende verpleegkunde opleidingen in Nederland is een geslaagd voorbeeld van het gezamenlijk ontwikkelen van een itembank. Een beschrijving van een ander voorbeeld in de medische wereld wordt gegeven door Van der Vleuten (Vleuten, Schuwirth et al. in press). Deze casus laat echter zien dat daar veel bij komt kijken en dat een dergelijke aanpak alleen kan werken als er een duidelijke en breed gedragen visie en urgentie aanwezig is voor een dergelijke samenwerking. Zo heeft op dit moment Saxion Hogescholen aangegeven zich terug uit de samenwerking, parallel aan het geleidelijk invoeren van competentiegericht curriculum. Het nut van een VGT in een competentiegericht curriculum is minder in de ogen van Saxion Hogescholen. De casus laat ook zien dat alleen een breed gedragen vise en urgentie niet voldoende is. Het inbouwen en implementeren van diverse kwaliteitsborgingsprocedures om het uiteindelijk resultaat op voldoende niveau te krijgen en – last but not least – te houden is noodzakelijk. Het is een interessant gedachte-experiment om de beschreven aanpak te situeren binnen één opleiding. Hoe zou binnen één opleiding een dergelijk systematisch toetsontwikkelproces opgezet en gehandhaafd kunnen worden? Er zijn daar geen beschreven goede voorbeelden van bekend. In

Flexibilisering van Toetsing

pagina 17 van 86

de website van Flexibilisering van Toetsing is wel een uitgebreide toetshandleiding opgenomen van de Geneeskunde opleiding van de Vrije Universiteit. Daarin staat wel een expliciet proces beschreven. Het is ook interessant dat het aanbieden van formatieve diagnostische toetsen via het beeldscherm niet goed gelukt is. Het blijkt in deze casus dat het beschikbaar hebben van een laagdrempelig, gebruiksvriendelijk en goed ontworpen toetsafname programma essentieel is voor een succesvolle (is breed gebruikte) inzet. Met de huidige stand van de technologie zou dit toch al in de nabije toekomst mogelijk moeten zijn? In het boek De kwaliteiten van computer ondersteund onderwijs (Mirande 1994) worden namelijk al succesvolle voorbeelden geschetst, gesitueerd in het ‘oude’ COO-tijdperk.

Flexibilisering van Toetsing

pagina 18 van 86

3 Halen en brengen van toetsvragen: ConcepTests, Harvard University Casusbeschrijving door Wolter Kaper en Silvester Draaijer

3.1 Samenvatting

Rond het onderwijskundig principe van Peer Instruction, wordt een online community opgestart waar ConcepTests (toetsvragen) gebracht en gehaald kunnen worden. De initiatiefnemer voegt zelf zijn eigen collectie van vragen toe aan het systeem. Hij hoopt en verwacht dat mensen van over de gehele wereld die Peer Instruction in hun onderwijs toepassen, ook actief toetsvragen zullen aanleveren. Dat laatste blijkt echter tegen te vallen. Er worden nu nieuwe alternatieven overwogen.

3.2 Inleiding

Eric Mazur van Harvard University in de VS, maakt zich sterk voor vernieuwing van eerstejaars fysica onderwijs, in het bijzonder voor meer interactieve hoorcolleges (Mazur 1997). In het kader van zulke hoorcolleges worden discussievragen gesteld in de vorm van multiplechoice vragen (geprojecteerd op een scherm). Studenten kunnen stemmen, vóór en na onderlinge discussie (Peer Instruction). Hierna vervolgt het hoorcollege, waarbij op de antwoorden wordt ingegaan. Deze vragen, zogeheten "ConcepTests" zijn ontworpen om begrip te testen (dus zonder rekenwerk) en om bekende misverstanden (misconcepties) op te sporen. De tests zijn diagnostisch, zowel voor de studenten in de zaal, als voor de docent die meteen de uitslag ziet en erop ingaat. Hoewel de vragen speciaal voor dit gebruik in interactieve hoorcolleges zijn ontworpen, is ook een meer traditioneel gebruik in een geïndividualiseerde toetsomgeving goed denkbaar. Wel ligt de nadruk op begrip van natuurwetten, in plaats van bijvoorbeeld op vaardigheid in het oplossen van opgaven. Dat laatste zal men in een tentamen of diagnostische toets doorgaans ook willen testen. Op het moment is de vragencollectie beperkt tot de fysica. Aan een uitbreiding naar andere bètawetenschappen wordt gewerkt. Het project staat als succesvol bekend, ConcepTests zijn een begrip onder fysicadocenten over de gehele wereld. Interessant is hoe deze vragenverzameling tot stand is gekomen, en welke bijdrage de docent-gebruikers van de site hieraan hebben geleverd.

3.3 Probleem

Een probleem van veel docenten om Peer Instruction toe te passen is de beperkte beschikbaarheid van voldoende en van voldoende kwaliteit ConcepTests, dat wil zeggen geschikt om begrip te testen op een wijze die ook tot discussie tussen studenten uitlokt. Gewenst was de beschikbaarheid van een uitgebreide vragenverzameling voor dit specifieke doel. Deze vragenverzameling moet eenvoudig toegankelijk zijn voor iedereen die zegt docent te zijn aan een universiteit en zich als zodanig registreert.

3.4 Oplossing

Met subsidie van de National Science Foundation (NSF) is een website ontwikkeld die geschikt lijkt om een community van docenten te vormen. Een itembank van ConcepTests maakt deel uit van deze website. Andere componenten van de site zijn: • Een serie beschrijvingen van vernieuwende onderwijsmethoden, ingedeeld qua geschiktheid

voor grote, middelgrote of kleine groepen. Beschreven onderwijsmethoden zijn

Flexibilisering van Toetsing

pagina 19 van 86

geclassificeerd als "featured innovation" (getest door meer docenten van diverse instituten), dan wel "new development" (getest door een docent in eigen klassen);

• Discussieforums; • Verslag van een NSF-gesponsorde conferentie in het kader van project Galileo; • Onderwijsmaterialen geproduceerd als resultaat van die conferentie; • Help, introductie tot de site, o.a. tot de ConcepTests itembank. Uit logfiles van de site blijkt dat bezoekers van de site vrijwel uitsluitend komen voor de ConcepTest itembank. De andere componenten worden door bezoekers bijna niet gebruikt. De diverse aspecten van ConcepTest, te weten: toetsontwikkeling, toetsafname, toetsbeheer en toetsverwerking worden hierna apart besproken. Het Galileo project is inmiddels afgesloten. Een opvolger van de Galileo website is in voorbereiding. Deze heet "Interactive Learning Toolkit" (ILK) en een testversie is te vinden op het volgende adres: http://www.deas.harvard.edu/galileo/login. De Galileo site is geëvalueerd en ervaringen met deze site worden verwerkt in de opzet van de nieuwe ILK site. Deze ILK site zal naast ConcepTests een tweede didactisch concept ondersteunen, te weten Just In Time Teaching (JITT), zie http://www.jitt.org/. In hierna volgende paragrafen wordt de Galileo site besproken voor zover het de ConcepTest itembank betreft. Daarbij wordt ook aangegeven welke aspecten in de ILK site gewijzigd worden, en welke ervaringen met Galileo daartoe aanleiding gaven.

3.5 Toetsontwikkeling

Toetsontwikkeling gebeurt in twee fasen: Productie van vragen voor de openbare ConcepTest itembank, deels door de bedenker van ConcepTest, Mazur, en deels door gebruikers van de site. Iedere geregistreerde docent-deelnemer kan een ConcepTest (een item) toevoegen via een online formulier. Hierna is dit item direct vindbaar in de itembank voor de docent zelf, zonder indicatie van een review status. Voor andere gebruikers van de site wordt het toegevoegde item pas zichtbaar na review door een 'review board' met 3 leden waarvan Eric Mazur er één is. Selectie van vragen uit de itembank om deze naar eigen inzicht te gebruiken, door een docent-gebruiker. Productie van een toets, uitgaande van gevonden items, wordt ondersteund doordat een docent één of meer sets van ConcepTests kan bewaren voor eigen gebruik. Zo'n set wordt samengesteld via zoekacties in de itembank en wordt bewaard door er een naam aan te geven. De docent ziet alleen zijn eigen sets. Een set vragen kan worden geprint op papier, of kan online worden bekeken door studenten. Op de nieuwe "Interactive Learning Toolkit" site kan een ConcepTest-set ook worden omgezet in een "slides"-serie, voor projectie tijdens een hoorcollege zoals is uitgelegd aan het begin van deze casus. Alle vragen zijn van het multiple choice type, waarbij ofwel één keuze, ofwel een bepaalde combinatie van keuzen de juiste is. Componenten van het item-invoerformulier zijn: • Discipline (vb. Physics) • Topic (vb. AC Circuits) • Tekst

Flexibilisering van Toetsing

pagina 20 van 86

• Plaatje (optioneel) • Keuzeopties + indicatie welke correct zijn (mag meer dan één) • Uitleg van het correcte antwoord, bij wijze van feedback • Trefwoorden • Copyright info: Auteur, jaartal • Copyright type: keuze uit: 1) public domain, 2) licensed for educational use, 3) commercially

available Discipline, topic en trefwoorden dienen om het item te kunnen terugvinden in de itembank. Copyright type dient om de al dan niet vrije beschikbaarheid van het item aan te geven. Public domain betekent ongelimiteerd bruikbaar, "for educational use" betekent dat een docent het in zijn eigen klassen mag gebruiken. Voor ander gebruik moet contact met de auteur worden opgenomen. "Commercially available" betekent dat een gebruiker het item niet mag gebruiken. Hij krijgt in plaats daarvan informatie over waar hij het item kan kopen, doorgaans als onderdeel van een pakket. Van dit laatste zijn in de itembank geen voorbeelden aangetroffen. Vermelding van auteur dient om te verzekeren dat deze de credits krijgt van zijn werk. Bij zoekacties in de itembank ziet men echter deze gegevens niet terug. Wel is er een algemeen "copyright notice". Alle gebruikers beloven bij registratie dat zij de copyright notice nooit zullen verwijderen. Ook beloven zij om vragen en hun antwoorden niet bekend te maken of te publiceren buiten hun eigen klas, maar geïnteresseerden altijd naar de Galileo site te verwijzen.

3.6 Evaluatie en nieuwe ontwikkelingen (ILK)

De Galileo site kent ongeveer 1000 geregistreerde gebruikers, waarvan 300 actief, gezien het feit dat zij regelmatig terugkeren. Gebruikers van de site hebben nauwelijks bijgedragen aan de huidige ConcepTest verzameling. Gebruikers komen ConcepTests halen, niet brengen. 80% van de items zijn geschreven door Mazur, 10% door zijn medewerkers en 10% door anderen, waarvan de meerderheid tijdens een workshop georganiseerd door Mazurs staf. De inbreng van anderen in het systeem is tegengevallen. Deze situatie komt vaak voor bij Communities of Practice. In verband met de uitbreiding van één natuurwetenschap (fysica) naar alle natuurwetenschappen wordt gezocht naar methoden om de bijdragen van derden meer te stimuleren. Hiervoor bestaan de volgende plannen: Een gewijzigd systeem van licensing informatie Er zullen 4 licentie-typen worden onderscheiden: • Private use (docent in zijn eigen klassen) • Public domain (elk gebruik is toegestaan) • Unpublished copyrighted material

(Iedereen kan het zien en downloaden. De gebruiker is verantwoordelijk voor het verkrijgen van een licentie bij de auteur – vergelijk het shareware model van software)

• Free sample of commercially available published material (Iedereen mag het gebruiken. Als het bevalt, zullen ze het complete materiaal aanschaffen)

• Vooral van type (4) wordt verwacht dat dit tot extra inzendingen zal leiden. Alle typen, behalve (3) betreffen gebruik zonder betaling.

Zichtbaarheid van auteurs De onzichtbaarheid van auteur (en zijn instituut) van een item was een beperking van de Galileo site. In de nieuwe site zal deze informatie wel zichtbaar zijn zodat auteurs van ConcepTests de nodige credits krijgen voor hun werk.

Flexibilisering van Toetsing

pagina 21 van 86

Een meer schaalbaar review systeem In plaats van een 'review board' met 3 leden wil men een referee systeem gaan opzetten. Docenten kunnen zich hiervoor opgeven. Van hen wordt verwacht dat zij nieuwe items uitproberen in hun klassen ('field testing') en op basis daarvan een review schrijven. De crux van de field tests is: stimuleert deze ConcepTest discussies, ja dan nee.

3.7 Toetsafname

Project Galileo biedt ondersteuning voor toetsproductie, niet voor toetsafname. De vorm waarin een ConcepTest-set uiteindelijk beschikbaar komt (op papier, online, als slide-set) is ongeschikt voor automatische afname en automatisch nakijken. Bijvoorbeeld in de online versie verschijnen de multiple choice opties niet als radiobuttons of check boxes maar alleen als leesbare tekst. Deze vorm is uitsluitend gericht op gebruik in interactieve hoorcolleges, eventueel in combinatie met een stemsysteem. Om het flexibeler inzetten van de vragen mogelijk te maken wordt een verdere verbreding van het gebruik van de vragenbank voorbereid. De vragen zijn nu opgeslagen in XML, volgens een eigen indeling. Er wordt overwogen de vragen te converteren naar SCORM-compatibel formaat. De vragen zouden dan uitwisselbaar worden met geautomatiseerde testsystemen als Questionmark Perception.

3.8 Toetsbeheer

Een docent beheert zelf de vragensets die hij door selecties in de itembank heeft gemaakt. Hij kan altijd vragen toevoegen of verwijderen. Toevoegen gebeurt door nieuwe zoekacties in de itembank, of door een nieuw item zelf in te voeren. In dat geval komt dit item ook in de itembank zelf, en zal na review eventueel voor andere gebruikers beschikbaar komen. De itembank als geheel wordt beheerd door het review team. Een toegelaten vraag wordt niet meer gewist. Een geweigerde vraag blijft beschikbaar voor de auteur van die vraag.

3.9 Toetsverwerking

Toetsverwerking wordt niet ondersteund. Automatische verwerking was niet het doel. In het beoogde diagnostische gebruik wordt een anoniem stemsysteem gebruikt tijdens hoorcolleges. De docent ziet de uitslag en reageert meteen door het resultaat tijdens hoorcollege te bespreken.

3.10 Kosten-baten analyse

De Galileo site is succesvol geweest als het gaat om het doel: beschikbaar stellen van een specifiek soort vragen (ConcepTests) aan een goed gedefinieerde groep, te weten fysicadocenten. Het succes van de site moet worden toegeschreven aan de populariteit van het didactische concept van ConcepTests onder fysica docenten en aan de bekendheid van de auteur, Eric Mazur. Het project was gesubsidieerd door de National Science Foundation, dit brengt de eis mee dat resultaten op nationale schaal beschikbaar zouden zijn voor docenten. Deze eis was goed verenigbaar met de doelstelling van het project: het bevorderen van onderwijsvernieuwing, in het bijzonder interactievere hoorcolleges. Er is voor gekozen om de barrière voor deelname en voor het submitten van vragen heel laag te maken. Bij aanmelding moet men een paar beloften doen, met name het respecteren van copyrights. Als je nog geen vragen hebt gesubmit, moet je je registreren als "first time user". Hiermee ga je de verplichting aan om minstens 1 ConcepTest te leveren tijdens het komende studiejaar, dan wel een enquête te beantwoorden waarin de Galileo website wordt geëvalueerd. Er

Flexibilisering van Toetsing

pagina 22 van 86

werd dus geprobeerd om deelname te stimuleren door een systeem van rechten en plichten. Dit heeft niet gewerkt (deelnemers kozen steeds de enquête), men concludeert hieruit dat je de gebruiker niet moet belasten met teveel verplichtingen. Gezien vanuit de gebruiker zijn de kosten laag: deelnemen aan een enquête. Opbrengst is het gebruik van een vragencollectie die een goede kwaliteit heeft, geschreven door een bekende collega. De vragen zijn toegesneden op een bepaald didactisch gebruik, namelijk het stimuleren van discussie tijdens interactieve, begripsgerichte hoorcolleges en daarnaast goed toe te passen bij het formatieve toetsen. Gezien vanuit de initiatiefnemer en subsidiegever bestond de opbrengst uit het promoten van een bepaalde onderwijsvernieuwing, hetgeen is geslaagd. Kosten werden gedekt door deze subsidiegever. Er wordt nu gewerkt aan verbreding naar andere bètawetenschappen. Pogingen om op coöperatieve basis een vragenbank samen te stellen zijn tot nu toe niet geslaagd. Door de nauwe focus op fysica was dat tot nu toe ook niet echt nodig. In verband met de geplande verbreding naar andere bètawetenschappen wordt opnieuw gezocht naar methoden om bijdragen van derden te verkrijgen.

3.11 Discussie

Het samenwerkingsmodel dat bij deze itembank is gebruikt is dat van "Leider en discipelen". Een werkbaar model om een groot databestand op te bouwen, maar dan niet door een gelijkmatige balans tussen halen en brengen. Zelfs niet door de drempel voor het toevoegen van vragen zeer laag te maken. De verhouding 80-10-10 (Mazur – medewerkers – anderen) geeft de harde werkelijkheid aan. Het is niet zo makkelijk om dingen toe te voegen aan wat een energieke en productieve leider al doet. Er is een te grote ongelijkheid in de gebruikerspopulatie ten opzichte van de initiatiefnemer. Het succes van het verhaal, het veelvuldige gebruik, heeft te maken met de bekendheid van het project. Daarvoor is een actieve rol nodig van de inhoudelijk betrokkenen. Daarnaast moet marketing voor een itembank een onderdeel zijn van een plan voor het ontwikkelen van een itembank. De kans dat de methoden die nu worden voorzien, succesvol zullen zijn, zijn moeilijk in te schatten. Andere initiatieven zoals WebAssign (http://www.webassign.net) of uitgeverijen die hun toetsmateriaal ter beschikking stellen via eigen elektronische leeromgevingen of via commerciële toetsprogramma’s zoals Respondus (http://www.respondus.com), MicroTest (http://www.chariot.com/microtest/index.asp) of Diploma (http://www.brownstone.net) lijken een grotere kans van slagen te hebben. Niet in de laatste plaats doordat vanuit uitgeverijen marketing en verkoop integraal aandacht krijgen bij de productontwikkeling.

Flexibilisering van Toetsing

pagina 23 van 86

4 Vakgroepsgewijs werken aan digitale toetsing: vakgroep Engels van de Hogeschool voor Economische Studies Rotterdam Casusbeschrijving door Pascale Frinking en Silvester Draaijer

4.1 Samenvatting

Door samen te werken heeft een team van docenten Engels en een IT-deskundige een toetsbank Engelse grammatica in Question Mark ontwikkeld. Met succes zijn hieruit meerdere malen toetsen samengesteld en ingezet als oefentoetsen en certificerende tentamens. Aan de verdere ontwikkeling en gebruik van de toetsbank is een vroegtijdig einde gekomen door de beëindiging van financiering en de reorganisatie van de opleidingen.

4.2 Probleemstelling

Rond 1999 waren er bij de HES circa 1000 eerstejaarsstudenten. Zij kregen in hun eerste jaar allemaal het vak Engels. Het onderdeel grammatica werd een aantal keer per jaar getoetst, ook om de de tot dan toe opgedane kennis op te frissen. Het toetsen en nakijken van dit onderdeel was veel werk, terwijl steeds dezelfde stof behandeld werd. Een aantal docenten liep daarom al een tijdje rond met het idee voor geautomatiseerd beeldschermtoetsen en om een gezamenlijke itembank met grammatica-vragen op te bouwen. Het lukte echter niet om een dergelijk initiatief, zonder verdere ondersteuning van management, van de grond te krijgen.

4.3 De oplossing

Het initiatief dat nodig was om bovenstaande idee te verwezenlijken voor het ontwikkelen van een toetsbank kwam van het toenmalige hoofd van de Gemeenschappelijke Propedeuse Jaar (GPJ) en de COO-coördinator. Zij vroegen gelden aan bij K&S (Kwaliteit & Studeerbaarheid) en konden daarmee een project starten. Hiervoor werd een projectteam opgericht waarin vier docenten Engels zaten en één persoon van de ICT-organisatie. De inbreng van de persoon met de IT-kennis bleek zeer noodzakelijk. Hij was de enige die allerlei technische problemen op de juiste wijze kon inschatten en helpen oplossen. Hij vond met name oplossingen voor het technisch stabiel en beveiligd afnemen van de toetsen en het genereren van de cijfers voor de studenten. Na een kort keuzetraject besloot het team om het programma Question Mark te gebruiken om zowel een itembank in op te bouwen als om daarmee geautomatiseerde beeldschermtoetsen af te nemen.

4.4 Toetsontwikkeling

Het projectteam heeft eerst gekeken welke onderwerpen ze wilden toetsen en welke vorm de diverse vragen moesten krijgen. Vervolgens kreeg elke docent van het team de taak om vragen bij een bepaald onderwerp te maken. Deze vragen konden rechtstreeks in Question Mark worden aangemaakt. Deze vragen werden vervolgens in het team besproken waarna goedgekeurde vragen werden opgenomen in de toetsbank. Circa de helft van de vragen waren multiple choice vragen, de andere helft was van een ander type, zoals drag & drop, meerkeuzevragen, tekstvragen, drukknopvragen etc. Als wijze van proef werden de tentamens voor een selecte groep studenten samengesteld uit deze toetsbank. Door de kleine omvang van ontwikkelteam en goede onderlinge verstandhouding liep dit proces goed. Uiteindelijk is de toetsbank gevuld met circa 1130 vragen en werden tentamens samengesteld en afgenomen bij alle eerstejaars.

Flexibilisering van Toetsing

pagina 24 van 86

4.5 Toetsbeheer

De spil in het geheel bij deze ontwikkeling was de oorspronkelijke initiatiefneemster. Zij heeft veel werk verzet om de docenten te motiveren om toetsvragen te maken en om de organisatie zo op te zetten dat het afnemen van toetsen rooster- en roostertechnisch goed zou verlopen. Het beheren van de toetsbank was een zeer tijdsintensieve bezigheid. Door een vrij eenvoudige structuur van de itembank was het beheer echter niet heel complex, maar voortdurende aandacht en beheer was zeker noodzakelijk.

4.6 Toetsafname

Het ter beschikking stellen van oefentoetsen aan studenten werd gedaan door de projectleider en de ICT-er. Zij zorgden ervoor dat er op een voor studenten eenvoudig bereikbare manier oefenmateriaal ter beschikking stond. Het afnemen van de tentamens vond plaats onder supervisie van de docenten zelf. Zij zorgden voor het regelen van de PC-voorzieningen en installatie van de software en de toetsen op de computers van reguliere PC-zalen. Ook zorgden ze ervoor dat de resultaten uitgelezen werden en verwerkt.

4.7 Kosten en Baten

Evaluaties onder studenten wees uit dat studenten de elektronische toetsen een prettige manier van toetsen te vonden. De certificerende toets werd positief bevonden omdat ze direct hun cijfer na het beëindigen van de toets kregen. Bij de oefentoetsen zagen zij direct het verband tussen hun inspanning en de beloning en ook dit werd gewaardeerd. Bovendien waren ze, om de oefentoetsen te kunnen maken, alleen afhankelijk van de openingstijden van de computerzaal en niet meer van tijdstippen dat een docent aanwezig zou zijn. Docenten uit het projectteam waren erg tevreden over de (mogelijkheden van de) toetsbank. Het team zag de waarde en mogelijkheden van beeldschermtoetsing en het gezamenlijk opbouwen van een itembank zeker in. Toch zijn niet alle mogelijkheden benut; zo is er geen gebruik gemaakt van de statistisch informatie die Question Mark biedt. De docenten hadden dit wel graag gewild, maar zijn er binnen het project niet aan toegekomen. Het vergt nadere toetskundige kennis en tijd om bijvoorbeeld de resultaten van dergelijke analyses systematisch te verwerken in de itembank en een werkwijze voor het beheren en verder ontwikkelen van een itembank. De docenten ervaarden de voordelen van het gezamenlijk ontwikkelen van items in termen van uniformiteit en continuïteit. Zij gaven aan dat het met meerdere collega’s nadenken over (het formuleren van) één item, leidt tot een grotere betrouwbaarheid van zo’n item dan wanneer één persoon dit zou doen. Het samenwerken in een team vond men verder positief voor de validiteit van de toets. Toetsen die door de jaren heen of tussen groepen (min of meer) hetzelfde bleven, kunnen onderling goed vergeleken worden waarmee de docenten een beter zicht hadden op de progressie van de studenten en hun onderwijs op specifiekere onderwerpen konden afstemmen. Het project was oorspronkelijk gefinancierd met behulp van K&S projectgelden. Globaal is daar de investering uit bekostigd van de software en het ontwikkelen van de toetsbank. Toen deze gelden uitgeput waren, stopte ook het itembank- en beeldschermtoets initiatief. Van het systeem is dus 3 jaar effectief gebruik gemaakt. Een globaal rekensommetje levert dan het onderstaande beeld op.

Flexibilisering van Toetsing

pagina 25 van 86

KostenSoftware 20.000€ Projectoverleg, scholing en training 1 maal 80 uur maal 40€ 3.200€

Aanmaken van toetsvragen 1100 maal 0,67 uur maal 40€ 29.333€ Beheren van toetsvragen 3 maal 80 uur maal 40€ 9.600€ Toetssessies begeleiden en voorbereiden (overleg e.d.)

3 maal 120 uur maal 40€ 14.400€

Totale kosten 76.533€

BatenGeen gewone tentamens meer opstellen en nakijken

3 maal 200 uur maal 40€ 24.000€

Total baten 24.000€

Balans extra kosten 52.533€ De baten aan de kant van studenttevredenheid en toename van kwaliteit van de toetsing zouden voor een goede balans met andere woorden ongeveer € 50.000 waard moeten zijn.

4.8 Discussie

Ogenschijnlijk lijkt in deze casus een succesvol project te zijn doorlopen. Er is een plan opgesteld om een toetsbank op te bouwen en om beeldschermtoetsing disciplinebreed te realiseren. Dat plan is ten uitvoer gebracht. De resulterende toetsen zijn een aantal malen met succes gebruikt. Het team heeft goed gefunctioneerd. De organisatie van het vak Engels veranderde echter. Opleidingen werden gebundeld in clusters. Wat precies in het ene cluster aan Engels wordt behandeld kan erg verschillen van wat er in het andere cluster wordt behandeld. Met de reorganisatie viel de ondersteuning op organisatorisch en managementniveau voor het afnemen van elektronische toetsen weg. De voormalige projectleider werd toen ongevraagd verantwoordelijk voor de voortgang van de toetsbank, maar kreeg daar geen compensatie voor. Ze heeft toen nog wel een voorstel gedaan om tot een herverdeling van de taken te komen, maar ondanks de kostenbesparing die het gebruik van de toetsbank zou opleveren, heeft dit voorstel het niet gehaald. Ondanks dat er wel degelijk interesse bestaat bij een aantal clusters om door te gaan met de elektronische toetsen, blijkt niemand energie/tijd te willen steken in het samenstellen van de toetsen. Het commerciële cluster wil bijvoorbeeld wel graag de toetsbank gebruiken, maar heeft niemand gevonden die dit voor hen zou kunnen of willen doen. Dit heeft tot gevolg dat men er geen gebruik van maakt. De toetsbank wordt slechts gebruikt, ‘leeggeplukt’, als materiaal voor traditionele, schriftelijke toetsen. De vraag kan in dit verband gesteld worden of het in het kader van een cursus Engels überhaupt zinvol is om als opleiding aan eigen materiaal te werken. Op het terrein van Engels is waarschijnlijk zoveel materiaal commercieel beschikbaar dat het aan te raden zou zijn deze markt nader te verkennen. Ook zou samenwerking met andere opleidingen erg voor de hand liggen. We verwijzen hier ook naar casus 8,

Flexibilisering van Toetsing

pagina 26 van 86

Invoeren van beeldschermtoetsing bij één opleiding, paragraaf 8.4. Al met al kan de conclusie worden getrokken dat er niet voldoende nagedacht is over een institutionalisatie van het opgeleverde resultaat. Een eenmaal ontwikkelde itembank en toetsprocedure kan niet afhankelijk zijn van tijdelijke projectgelden en kan alleen gedijen binnen een niet al te veel wijzigend curriculum en alleen als er committment is vanuit het management. Bij de opzet van een dergelijk initiatief moet juist deze langetermijn exploitatie al in een vroeg stadium van een ontwikkelproject in ogenschouw worden genomen en dienen er structurele aanpassingen in financiering of organisatie te worden opgenomen in de plannen. Uitgedrukt in geld heeft dit project een sterk negatieve balans. Dit wordt voor een belangrijk deel veroorzaakt doordat het product niet een langere periode heeft gefungeerd. Bij een meer langdurige inzet (zeg 10 jaar) zouden de baten daadwerkelijk tegen de kosten op hebben kunnen wegen. Het kan kortzichtig van het management worden genoemd om de eenmaal gedane investering niet beter te laten renderen

Flexibilisering van Toetsing

pagina 27 van 86

5 Vakgroepsgewijs werken aan digitale toetsing: vakgroep Mechanica van Faculteit Werktuigbouw Technische Universiteit Delft Casusbeschrijving door Silvester Draaijer

5.1 Samenvatting

Een vakgroep wordt door externe invloeden gedwongen om een efficiëntere wijze van leren en toetsen te realiseren. Ze laten daarvoor een oefen- en tentamenprogramma ontwikkelen en vullen deze met vele opgaven. De oefeningen en tentamens worden alle via het beeldscherm afgenomen. Het resultaat is dat de tijd van de docenten meer aan onderwijs besteed kan worden en dat het slagingspercentage van de cursussen stijgt. Het systeem functioneert ongeveer tien jaar. Door reorganisaties, curriculumwijzigingen en technologische veranderingen wordt het systeem daarna afgebouwd.

5.2 Probleem

Tot ongeveer het jaar 2000 zijn cursussen op het terrein van mechanica (statica, sterkte- en stijfheid, dynamica) vaste en verplichte onderdelen van het curriculum voor de studenten van de TU-Delft, faculteit Industrieel Ontwerpen, Werktuigbouwkunde, Vliegtuigbouwkunde en Scheepsbouwkunde,. Deze cursussen worden centraal verzorgd door de vakgroep mechanica van de faculteit der Werktuigbouwkunde. In deze vakgebieden leren studenten hoe zij technische constructies kunnen abstraheren naar schematische modellen en naar stelsels van wiskundige vergelijkingen. Met behulp van de vergelijkingen kunnen studenten bepalen of constructies voldoen aan de eisen op het gebied van de gewenste functie (sterkte, stijfheid, minimale/maximale gebruikerskrachten, lange duur sterkte etc.). Ook kunnen zij daarmee constructies optimaliseren naar kosten, materiaalgebruik, gebruiksvriendelijkheid e.d. Al gedurende langere tijd zag de faculteit der werktuigbouwkunde zich geconfronteerd met steeds terugkerende problemen. • De vakken zijn zgn. ‘struikelvakken’. Dit wil zeggen dat deze verplichte vakken, die een

kernrol spelen in verdere en vervolgcursussen, voor veel studenten maar met moeite zijn af te ronden met een voldoende. o Typische tentamenvragen binnen deze vakgebieden zijn over het algemeen complexe

toepassingsvragen. Studenten moeten een oplossing voor een vraagstukken ontwikkelen waarbij die oplossing een belangrijke inzicht vraag in oplossingsalgoritmes (het kiezen van de juiste basistheorie voor oplossing in de eerste plaats, ten tweede het via de juiste logica uitwerken van deze basistheorie in bijbehorende wiskundige regels en tot slot het oplossen van die set wiskundige vergelijkingen). Het komt eigenlijk niet voor dat toetssamenstellers in deze vakgebieden werken met een toetsmatrijs en dat derhalve ‘simpele’ kennisvragen of ‘inzichtsvragen’ bijna nooit ‘sec’ aan studenten aangeboden worden.

• De tijd die studenten zouden moeten besteden aan zelfstudie werd niet genomen. Het studietempo van studenten liep altijd snel achter bij het tempo van de cursus.

• Het tijdsbeslag wat het nakijken en beoordelen van alle tentamens van enorme aantallen studenten met zich meebracht, zorgde voor een grote en eentonige werkdruk voor medewerkers van de vakgroep

• Door het tijd noodzakelijk voor het nakijken van het werk, konden de resultaten van de tentamens niet op tijd bekend worden gemaakt. In de ogen van veel individuele studenten en studieverenigingen een laakbare situatie, aangezien in OER’s duidelijk is vastgelegd binnen welke termijn tentamens nagekeken dienen te zijn.

Flexibilisering van Toetsing

pagina 28 van 86

5.3 Gewenste situatie

De vakgroep wilde stimuleren dat studenten systematischer en meer ‘time on task’ aan zelfstudie konden doen en wilde studenten daarbij gaan ondersteunen. Het idee was daarbij om studenten de mogelijkheid te bieden om tussentoetsen te laten maken waarvan het resultaat meegenomen zou kunnen worden in het eindresultaat. Door de grote aantallen studenten was het echter niet mogelijk om dit proces handmatig te ondersteunen, maar was de wens om dit met IT middelen op de lossen. Het resultaat van de ingreep diende te zijn dat de slagingspercentages op de tentamens zouden stijgen.

5.4 De oplossing

In 1990 zag de vakgroep een kans om deze problemen op te gaan lossen door middel van de inzet van computers in het onderwijs. Er werd daartoe een aanvraag gedaan bij het Studeerbaarheidsfonds van de Universiteit. Het faculteitsbestuur ondersteunde de plannen. Het ontwerp werd gemaakt voor een complete toetsinfrastructuur bestaande uit: • Netwerksoftware om beveiligd mee te kunnen toetsen (Tempo+) • Een netwerk met fysieke toetszaal met PC’s waar 75 studenten gelijktijdig getoetst konden

worden. Deze zaal was in principe een reguliere computerzaal, maar kon met enkele ingrepen (o.a. roostering) systematisch beschikbaar komen.

• Afspraken over een toegewijde ondersteuningsinfrastructuur bestaande uit programmeurs, systeembeheerders en zaalwachten om de bedrijfszekerheid van het gehele toetssysteem te waarborgen en de logistiek van het aanbieden van de toetsen de garanderen.

• Een itembank met toetsvragen voor de verschillende deelvakgebieden en doelen (formatieve tussentoetsen met Tempo+, summatieve tentamens met Presto+)

In 1992 konden de eerste zelfstudie toetsen worden afgenomen. Daarna werden de zalen met een hoge bezettingsgraad ingezet voor deze toetsingsdoeleinden. Het bleek dat er een aantoonbare stijging in het slagingspercentage optrad, hoewel op meer gehoopt werd (Staal, Boekbinder et al. 1994). Ook bleek dat er een duidelijk verband was tussen de gemiddelde score op de deeltoetsen en het tentamencijfer. Dat deed de vakgroep besluiten om studenten bij een gemiddelde score boven het cijfer 7 op de deeltoetsen vrij te stellen van het tentamen. Het zelfstudiesysteem heeft daarna tot academisch jaar 2003/2004 gefunctioneerd. De beschikbaarheid van een toetsomgeving voor zelfstudie leidde echter ook al snel tot het idee om het systeem te gebruiken voor daadwerkelijke tentaminering. De software werd daarop enigszins aangepast (Presto+). Het verschil tussen de deeltoetssoftware en de tentamensoftware is dat in de tentamensoftware meer intelligentie werd ingebouwd waardoor studenten via het beantwoorden van deelvraagstukken konden oplossen. In 1994 is het eerste tentamen afgenomen. De bezettingsgraad van het systeem nam daarbij nog verder toe. Dit systeem heeft tot 2002 gefunctioneerd. Het slagingspercentage voor de mechanica vakken is onder andere door de introductie van het systeem gestegen. Door vele oorzaken is het slagingspercentage echter niet zoveel gestegen als was gehoopt.

5.5 Toetsontwikkeling

Het ontwikkelen van de toetsen vind plaats door één of twee gespecialiseerde docenten die daar tijd voor toegewezen hebben gekregen. Deze docenten overzien elk van de verschillende deelvakgebieden binnen het domein van de mechanica voldoende en hebben zicht op de inhoud en het niveau van de vakken. In eerste instantie worden er elk jaar net voldoende nieuwe toetsitems ontwikkeld om de studenten nieuwe opdrachten voor te leggen. In de later jaren worden er door een reeds gepensioneerde docent regelmatig nieuwe opgaven ontwikkeld.

Flexibilisering van Toetsing

pagina 29 van 86

Het ontwikkelen van opgaven neemt veel tijd in beslag, gemiddeld zo’n 8 uur voor een opgave in Presto+ (dus een hoofdvraag en daarbij 3-4 deelvragen). De opgaven zijn zodanig dat er een hoofdvraag dient te worden geformuleerd en een aantal subvragen die in logische volgorde doorlopen moeten kunnen worden. De vraagstukken maken gebruik van variabele waarden waardoor iedere studenten en uniek numeriek vraagstuk voorgelegd krijgt. Alle mogelijk uitkomsten van de vraagstukken moeten onderzocht worden op hun geldigheid.

Figuur 4 Schermafdruk van een toetsvraag van Tempo+

5.6 Toetsbeheer

Het beheer van de toetsitems en toetsen wordt gedaan door een gespecialiseerde beheerder. De toetsen worden door de docenten aangemaakt in een tekstverwerkingsformaat. Het bronbestand van alle toetsitems bestaat uit een papieren versie van alle toetsen. Per deelvakgebied/cursus van de mechanica zijn ze opgeslagen in een map. In de mappen zelf is geen verder nadere ordening aanwezig dan in principe de vakcode. Alle items hebben daarnaast simpelweg een uniek nummer. De toetsvragen zelf zitten opgeslagen in een MS-Access databestand, waarbij de tekst en de tekeningen in losse files zitten. Dat bestand kan gelezen worden door de programma’s Tempo+ en Presto+ om toetsen mee aan te maken. Het samenstellen van een toets gebeurt elke afname opnieuw. De docent van een vak bepaalt aan de hand van de voortgang van de lopende cursussen welke vraagstukken in een toets moeten worden opgenomen. De docent heeft m.a.w. in het hoofd: Boek-Hoofdstuk-Paragraaf-Moeilijkheidsgraad. Het selecteren geschiedt door het doorbladeren van het toetsbestand in de map. De docent heeft zelf een mentaal beeld van de inhoud van de map en kan zo snel geschikte opgaven selecteren. Op een formulier geeft de docent aan welke toetsitems in de toets opgenomen dienen te worden en met welke overige instellingen (zoals tijdsduur e.d.).

5.7 Toetsafname

De beheerder maakt aan de hand van deze selectie toetsen aan. Die toetsen bestaan dan uit genetwerkte .exe bestanden met zowel de toetsinhoud als de toetsomgeving erin. Die staan gereed op het netwerk op het moment dat een cohort studenten in de toetszaal aanwezig is om de toets te maken. Per tussentoets krijgen studenten uit Tempo+ random gekozen vragen aangeboden aan de hand van de selectie Boek-Hoofdstuk-Paragraaf-Moeilijkheidsgraad. Bij een tentamen met Presto+ krijgen studenten dezelfde opgaven, maar elk met unieke numerieke parameters. Alle akties en resultaten van de studenten worden centraal bijgehouden.

Flexibilisering van Toetsing

pagina 30 van 86

Inschrijving en inroostering De logistiek bij de tussentoetsing is zodanig dat er wekelijks op inschrijving door studenten kan worden deelgenomen. Per week staan de tussentoetsen behorende bij de stof van die week voor die specifieke studentenpopulatie klaar. De tentamens vinden pas plaats aan het eind van een onderwijsperiode. Ook daar moeten studenten zich voor inschrijven. Tijdens de afname van de toetsen zijn er meestal drie personen aanwezig. De docent om mogelijke problemen met de vraagstukken van studenten te helpen beantwoorden. Twee surveillant (student-assisstenten) om fraude tegen te gaan. Vaak is ook netwerkbeheer aanwezig om er voor te zorgen dat het netwerk en de PC’s goed functioneren. Beveiliging Studenten loggen in onder hun eigen collegekaartnummer. De surveillant controleert of de student daadwerkelijk degene is waarvoor deze zich uitgeeft. Er wordt zodanig een lijst bijgehouden met geldige studenten. Als een student bijvoorbeeld opnieuw in zou loggen onder een andere identiteit, dan zou die afname niet geldig worden verklaard. Als studenten onverhoopt het programma onbedoeld sluiten, dan kan er op nieuw opgestart worden. Het programma slaat alle pogingen, antwoorden en variabelen op en onthoudt waar de student gebleven was en hoeveel tijd er nog over is.

Figuur 5 Blik in de PC-zaal voor toetsing met Tempo+ en Presto+

5.8 Toetsverwerking

De progressie van de toets van de studenten wordt real-time bijgehouden. Gedurende de toets kan de student opvragen hoeveel antwoorden er goed zijn en wat de behaalde score is. De studenten ervaren het feit dat het programma het resultaat real-time bijhoudt op verschillende wijzen: • Studenten die een goede progressie hebben, worden extra gestimuleerd om de

vervolgvragen goed te beantwoorden. • Studenten die bij het begin van de toets een aantal malen een fout antwoord geven, raken

door de ‘negatieve’ feedback eerder dan strikt noodzakelijk is gedemotiveerd. Door het zorgvuldig samenstellen van de toetsvragen komt het nauwelijks voor dat toetsresultaten achteraf, als gevolg van een verkeerd geformuleerde toetsvraag of interne fouten, gewijzigd hoeft te worden. Ook wordt de cesuur van de toetsen achteraf niet gedifferentieerd (per vraag bijvoorbeeld) aangepast, maar hooguit voor een gehele toets of cohort in één keer.

Flexibilisering van Toetsing

pagina 31 van 86

De resultaten worden door de systeembeheerder na afloop van de toets op papier uitgedraaid en aan de docent van het vak overhandigt voor verdere verwerking.

5.9 Kosten en Baten analyse

Hieronder is een inschatting gegeven van de kosten en baten die verbonden zijn aan het systeem. De belangrijkste kosten betreffen de investering in het ontwikkelen van de toetsvragen. De kosten voor PC’s e.d. wordt buiten beschouwing gelaten aangezien gebruik is gemaakt van reguliere PC-zalen. De belangrijkste baten van het gehele systeem zijn terug te vinden in besparing in nakijktijd en de snellere doorstroom van studenten door de mechanica vakken waardoor ook op dat terrein voordelen kunnen worden ingeboekt.. Met deze veronderstellingen ziet de kosten en batenanalyse van het systeem er ongeveer als volgt uit:

Tabel 5 Kosten en baten Tempo+ en Presto+

Investering Jaarlijkse kosten Jaarlijkse opbrengsten

Toetsprogramma ontwikkelen in Inigo door UTwente

50.000€

Onderhoud software 10.000€ Toetsitems ontwikkelen: 8 uur per item x € 75/uur = € 600,-/item. Totaal 1500 items.

900.000€

Afschrijving PC’s: 75 PC x € 500,-/jaar nvtAfschrijving Netwerk nvtGebouwkosten 75 maal 4m^2 x 300 nvtOndersteuningsorganisatie (programmeur, systeembeheer): 2,0 FTE

nvt

Aantal toetsafnames per jaar ongeveer 12.000. Tijdsvoordeel voor correctoren: 10 min/toetsafname x € 75

180.000€

Verbeterde doorstroom en derhalve uitstroom zorgt voor meer inkomsten

25.000€

Totaal 950.000€ 10.000€ 205.000€ Totaal over 10 jaar 950.000€ 100.000€ 2.050.000€ Totaal saldo 1.000.000€ De conclusie is derhalve dat het systeem op deze wijze – ook in geld uitgedrukt – een zeer zinvolle exercitie is gebleken. Worden de kosten van systeembeheer e.d. bijvoorbeeld voor de helft toegerekend, dan ziet het beeld er als volgt uit.

Flexibilisering van Toetsing

pagina 32 van 86

Tabel 6 Kosten en baten Tempo+ en Presto+ met meerekening van systeembeheer

Investering Jaarlijkse kosten Jaarlijkse opbrengsten

Toetsprogramma ontwikkelen in Inigo door UTwente

50.000€

Onderhoud software 10.000€ Toetsitems ontwikkelen: 8 uur per item x € 75/uur = € 600,-/item. Totaal 1500 items.

900.000€

Afschrijving PC’s: 75 PC x € 500,-/jaar/2 18.750€

Afschrijving Netwerk/2 10.000€ Gebouwkosten 75 maal 4m^2 x 300/2 45.000€ Ondersteuningsorganisatie (programmeur, systeembeheer): 2,0 FTE/2

30.000€

Aantal toetsafnames per jaar ongeveer 12.000. Tijdsvoordeel voor correctoren: 10 min/toetsafname x € 75

180.000€

Verbeterde doorstroom en derhalve uitstroom zorgt voor meer inkomsten

25.000€

Totaal 950.000€ 113.750€ 205.000€ Totaal over 10 jaar 950.000€ 1.137.500€ 2.050.000€ Jaarlijks batig saldo (exclusief investering)

37.500-€

Dit beeld is wat minder gunstig te noemen, maar nog steeds lijken investeringen en baten redelijk in balans.

5.10 Toekomst

Door reorganisaties in de Universiteit en door het verouderen van systemen zag de vakgroep en de faculteit zich genoodzaakt om zo rond 2003 het systeem buiten werking te stellen. De universiteit heeft gekozen voor het ontwikkelen van één centrale toetsvoorziening voor de gehele universiteit. De gelden die in andere projecten werden geïnvesteerd die niet in relatie stonden tot die toetsvoorziening werden stopgezet. De medewerkers van de vakgroep mechanica zijn het niet eens met deze beslissing. Daarnaast vindt er een universiteitsbrede standaardisering plaats van cursusinhouden op het gebied van mechanica en zijn de toetsen en tentamens nu voor elke faculteit precies hetzelfde. In plaats van tentamens voor groepen van 150 studenten dienen er nu gelijktijdig toetsen te worden afgenomen voor meer dan 400 studenten, verspreid over verschillende lokaties. Om het principe van zelfstudie toch te handhaven heeft de vakgroep het Computer Ondersteunde Zelfstudie (COZ) programma en bijbehorende methodiek van de faculteit der Civiele Techniek overgenomen. Bij dit systeem krijgen studenten twee maal per week een set van 12 opgaven mee, die ze in eigen tijd en bij voorkeur in groepjes moeten maken. Aan het eind van de week leveren ze de antwoorden in. Ze krijgen dan direct terugkoppeling of hun antwoorden correct of incorrect zijn. Tijdens de contacturen wordt ingegaan op de vraagstukken die meer dan gemiddeld fout werden gemaakt. De beoordelingen tellen mee voor de eindbeoordeling van de cursus, indien aan een aantal randvoorwaarden voor voldoende deelname is voldaan1.

1 Zie verder bijvoorbeeld: http://www.mechanics.citg.tudelft.nl/~studass/ct1041/coztoz.html

Flexibilisering van Toetsing

pagina 33 van 86

5.11 Discussie

Om studie-uitval tegen te gaan en om het studietempo van studenten te verhogen is het systeem succesvol gebleken. De maatschappelijke waardering is erg hoog. Het systeem is ook ingezet bij andere opleidingen (Graaff, Hulst et al. 2002). Daarnaast heeft het systeem voldoende lang gefunctioneerd om de investering terug te verdienen. Studenten zijn verdeeld over de waarde voor het systeem. Sommige studenten vinden het goed en waardevol om door het systeem ‘gedwongen’ te worden om regelmatig te studeren. Anderen vinden een dergelijk systeem juist ‘schools’. De terugkoppeling van het systeem vinden ze matig doordat het antwoord door het systeem wordt verwerkt, maar dat er geen inhoudelijke feedback wordt gegeven na het beantwoorden van de vraagstukken. De waardering van de medewerkers voor het systeem is hoog. Het systeem voldeed aan de verwachting om efficiënter en effectiever onderwijs te verzorgen. Het systeem zorgde ervoor dat docenten meer nadruk konden leggen op het ontwikkelen en verzorgen van goed onderwijs en minder op het verwerken van tentamens. De medewerkers benadrukken daarbij nogmaals dat het systeem met tussentoetsen (naast andere aspecten) alleen werkt als er door studenten een voordeel te behalen valt (deelpunten, vrijstelling e.d.). Vrijwillige tussentoetsen zonder bonus zullen niet werken. Het tienjarig succes van de geschetste aanpak in deze casus is terug te voeren op de gevoelde urgentie en noodzaak van een rigoreus andere oplossing en een duidelijk gedeelde visie van de vakgroep over de wijze waarop dit probleem aangepakt dient te worden. Door enthousiasme lukt het tevens om een voldoende grote database van vraagstukken te ontwikkelen. Meer informatie over deze gehele casus is te vinden in: (Staal, Kunst et al. 1993), (Staal, Boekbinder et al. 1994).

5.12 Achtergrond informatie

Onderstaande informatie is afkomstig van de inmiddels opgeheven voorlichtingswebsite over Tempo+ en Presto+: http://www.ocp.tudelft.nl/em/edu/tempo/tempo.htm Doel Het stimuleren en corrigeren van de zelfstudie van grote aantallen studenten (~ 12.000 per jaar) Middel De student kan in de onderwijsperiode wekelijks een toets afleggen waarvan het gemiddelde afhankelijk van het vak voor 30 of 40% meetelt in het tentamencijfer (alleen in positieve zin). Bij méér dan voldoende resultaat heeft de student bij sommige vakken vrijstelling van het tentamen. Een deel van de vragen uit de toets is aanbevolen oefenstof uit het studiemateriaal. Omschrijving TeMpo+ is een toetssysteem onder Microsoft Windows met een daaraan gekoppeld vragenbestand. De student krijgt bij de toets een aantal vragen, welke in willekeurige volgorde beantwoord kunnen worden. De antwoorden zijn numeriek en dienen binnen een per vraag instelbare tolerantie juist te zijn. Het aantal antwoordpogingen is per vraag instelbaar. Een vraag bestaat uit: - Een omschrijving- en vraagtekst aangemaakt m.b.v. WRITE. - Een tekening welke in diverse tekenpakketten kan worden aangemaakt. - Maximaal 6 parameters met ieder 6 kombinaties. - Maximaal 10 tussenformules en 1 eindformule. Voor het samenstellen van de toetsen zijn nog andere vakinhoudelijke en didactische gegevens in een database beschikbaar. Huidig vragenbestand (2001)

Flexibilisering van Toetsing

pagina 34 van 86

Ruim 1500 vragen (in totaal ruim 550.000 verschillende kombinaties) op het gebied van Statica, Stijfheid en Sterkte en Dynamica. Het niveau van de vragen ligt op eerste en tweede jaars Universiteit c.q. HBO. Mogelijkheden Het toetssysteem kan onbeperkt met andere vragen worden uitgebreid. Aantal afgenomen toetsen:

1992/1993 11.219

1993/1994 7.983

1994/1995 9.780

1995/1996 10.846

1996/1997 12.785

1997/1998 12.361

1998/1999 11.556

1999-2000 10.480

2000-2001 6.552

Totaal 93.562

Toetsen Om het regelmatig studeren te bevorderen wordt de student in de gelegenheid gesteld om een serie computertoetsen af te leggen gedurende de onderwijsperiode. Hiermee is het mogelijk om het tentamencijfer te verhogen. Deelname aan de toetsen is niet verplicht maar wel gewenst. Per toets worden gedurende maximaal één uur vragen gesteld over de stof die in de voorafgaande collegeweek is besproken (zie studiewijzer). De toetsen worden meestal op dinsdagavond, woensdagavond en soms donderdagavond volgend op de betreffende collegeweek afgenomen. Elke student moet elke week opnieuw, uiterlijk vrijdag voorafgaand aan de toets, zelf zijn dag en tijd van toetsen vastleggen door middel van de inschrijfcomputer. Deze inschrijfcomputer bevind zich: gebouw WbMT, bouwdeel 8C (blok 3), 2e verdieping en werkt uitsluitend met (de barcode van) het 7 cijferig studienummer. De toetsen worden afgenomen in de PC-zaal van het onderwijsgebouw WbMT, 1e verdieping. Bekendmaking toetscijfers Elke week worden na de toetsen de toetscijfers op internet bekendgemaakt. Een week nadien zijn hierin ook de mogelijke correcties n.a.v. klachten verwerkt. De juiste pagina voor het bekijken van de toetscijfers staat op de WWWpagina van de betreffende studiewijzer vermeld. Oefenen met het gebruik van het toets- en tentamenprogramma. Het is mogelijk met het programma te oefenen door de demoversie van het programma (MS Windows 3.1 of hoger) te downloaden vanaf : http://www.ocp.tudelft.nl/em/edu/tempo/ Daar is tevens diverse informatie over het programma en het gebruik te vinden. Versie : 27-08-2003 Meer literatuur over onderzoek naar het effect van regelmatig toetsen op het leren en studieprestaties zijn o.a. Tuckman (Tuckman 2000-2003). Artikelen die gaan over deze casus van de TU-Delft van Staal (Staal, Kunst et al. 1993; Staal, Boekbinder et al. 1994) zijn te downloaden vanaf de website van Flexibilisering van Toetsing via http://www.du.nl/flextoets.

Flexibilisering van Toetsing

pagina 35 van 86

6 Disciplinegewijs werken aan een itembank: samenwerkende wiskundedocenten in het nederlands hoger onderwijs Casusbeschrijving door Pascale Frinking en Silvester Draaijer

6.1 Samenvatting

In een samenwerkingsverband tussen de Hogeschool van Utrecht, Haagse Hogeschool, Saxion Hogescholen en Hogeschool Drenthe wordt vanaf 1992 gewerkt aan het opzetten en onderhouden van een toetsbank Wiskunde. De samenwerking kent een vrij grote continuïteit en resulteert, door actieve deelnemers, in een grote itembank. Er zitten nu zo’n 3000 items in. Door voortschrijdende technische ontwikkelingen en verandering van curricula wordt de synergie wel minder en gaat één instelling zijn eigen weg.

6.2 Probleemstelling

De opleidingen Bouwkunde en Civiele Techniek van de Hogeschool Enschede (nu: Saxion Hogescholen) werken met themagestuurd projectonderwijs. De projecten worden ondersteund door themacolleges. Het vak Wiskunde maakt bij deze onderwijsvorm deel uit van z.g. basisvakken. Men wilde bij dit vak voortgangstoetsen in gaan zetten. Enerzijds kon hiermee worden vastgesteld in hoeverre studenten van de propedeuse onderling van elkaar verschillen, anderzijds was het een snel toetsmiddel; elke week zou een voortgangstoets worden afgenomen, die bij voldoende resultaat, vrijstelling voor het vak zou opleveren. Zo zou het vak wiskunde voldoende aandacht van de student blijven houden. De voortgangstoetsen zouden worden samengesteld m.b.v. een toetsbank Wiskunde voor de propedeuse.

6.3 De oplossing

Er werd besloten om samen te werken met drie andere instellingen opdat in kortere tijd meer kwalitatief hogere vraagstukken gemaakt zouden kunnen worden dan als elke instelling alleen zou werken. De initiatiefnemer hiervoor was Roel van Asselt (van Saxion Hogescholen). Van Asselt is naast docent ook auteur van wiskunde methoden die veel gebruikt worden in het HBO. Door zijn positie in het Nederlands Hoger Onderwijs en door goede contacten tussen docenten wiskunde via de Vereniging voor Wiskunde leraren, kon samenwerking worden gestart met de Hogeschool van Utrecht, de Haagse hogeschool en Hogeschool Drenthe.

6.4 Toetsontwikkeling

Er werd een redactieraad en een begeleidingsteam ingesteld waarin vertegenwoordigers van elke deelnemende instelling plaatsnamen. De items zijn ontwikkeld door vier docenten Wiskunde, van elke deelnemende instellingen één. De vragen sloten aan bij de gebruikte notatie en diepgang van het boek “Wiskunde voor het HBO”, van Van Asselt. De vier docenten zaten voor overleg bijeen in een redactieraad. Elke vraag werd ter correctie naar de leden van de redactieraad gestuurd. Daarnaast werd er ongeveer eens in de twee maanden een redactievergadering belegd waarin de nieuwe items nog eens werden doorlopen voor ze in de toetsbank werden opgenomen. Daarnaast was er een begeleidingsteam dat eveneens uit vier mensen bestond, wederom van elke instelling één. Dit team stond onder leiding van Roel van Asselt en verzorgde diverse faciliteiten zoals de toekenning van taakuren, de keuze, aanschaf en onderhoud van het softwarepakket, het regelen van vergaderruimte en de opzet en begeleiding van de pilots.

6.5 Toetsbeheer

De vragen zijn opgeslagen in een centrale toetsbank die door de Haagse Hogeschool wordt onderhouden. Docenten van de verschillende instellingen die items willen gebruiken krijgen de

Flexibilisering van Toetsing

pagina 36 van 86

laatste update van de toetsbank en kunnen daar zelf (a)select vragen uit trekken (op basis van bijvoorbeeld de moeilijkheidsgraad) om hun toets samen te stellen. Gegevens als behaalde scores e.d. worden vervolgens weer naar de Haagse Hogeschool teruggekoppeld. De eerste software die werd gebruikt voor de constructie en opslag van items was Omega. Daarna werd overgegaan op het systeem Multo. De afname van toetsen vond plaats d.m.v. afdrukken; er werden geen online toetsen afgenomen. De Hogeschool van Utrecht heeft haar medewerking beëindigd omstreeks 1996. Ze vonden het gebruikte systeem Multo te verouderd om de continuïteit op langere termijn te kunnen borgen. Multo was eigenlijk ongeschikt om bijvoorbeeld goed formules afdrukken. (Bij Multo werd de formule-editor van Word Perfect gebruikt.). Bovendien wilde ze Hogeschoolbreed op één systeem overgaan. Daarom zijn ze op een ander systeem overgestapt: Examiner (windowsversie). Dit toetsprogramma heeft goede analysemogelijkheden, je kunt er bovendien online mee toetsen. Examiner heeft een grafisch systeem, ook op scherm. Zie o.a. Wolters (Wolters 1999) voor meer informatie. Bij de Hogeschool van Utrecht is de oorspronkelijke toetsbank Wiskunde wel gebruikt als input voor het nieuwe systeem. De vragen uit Multo zijn geconverteerd naar Examiner. In Multo waren alle vragen ja/nee vragen. Bij de Hogeschool van Utrecht hebben ze daar vierkeuzevragen van gemaakt, twee parallelvragen (2 variaties) zodat er evenveel juist als onjuist-antwoorden in zitten. Per toets wordt er steeds een van de twee parallelvragen gekozen. Er zitten nu circa 1000 vragen in de nieuwe toetsbank van de Hogeschool van Utrecht. Deze vragen worden gebruikt bij twee soorten toetsen die schriftelijk worden afgenomen: • integrale kennistoetsen: dit zijn 80 à 100 mc-vragen van alle vakken. Deze toetsen worden

elk blok gegeven. • voortgangstoetsen: Om de twee weken wordt er een korte toets gegeven waar

wiskundevragen in kunnen zitten. Het gaat om drie keer zes vragen (of vier keer of vijf keer zes vragen).

Er worden door Saxion Hogescholen, de Haagse Hogeschool en Hogeschool Drenthe geen nieuwe items aan de toetsbank toegevoegd, aangezien deze genoeg vragen bevat (circa 3000 items). Men gaat ervan uit dat studenten deze vragen niet uit het hoofd kunnen en zullen leren. Aan de ontwikkeling van de toetsbank is dus een einde gekomen.

Wel geven de docenten van de hogescholen aan dat zij ook inzien dat er niet op de huidige voet (met name het huidige verouderde programma voor opslag van items) doorgegaan kan worden. Ze discussiëren veel over een nieuw programma waarin de toetsvragen ondergebracht zouden moeten worden, maar door gebrek aan visie, gebrek aan geld en onmogelijkheid om tot een goede keuze te komen over de technologie die op langere termijn continuïteit kan waarborgen blijft een nieuwe koers uit.

6.6 Discussie

Het doel van de samenwerking, het in kortere tijd kwalitatief hogere vraagstukken ontwikkelen, is bereikt. Niettemin waren de docenten wiskunde van de Hogeschool van Utrecht die niet in het project zaten in eerste instantie niet erg te spreken over de gemaakte items, in tegenstelling tot de makers van de items die er enthousiast over waren. Na twee jaar werd vastgesteld dat van het inzetten van deze voortgangstoetsen een goed stimulerend effect uitging. De aanwezigheid van de

Flexibilisering van Toetsing

pagina 37 van 86

studenten in de les was zeer groot en de resultaten bemoedigend. Zie daarvoor ook Walter (Walter 1999). Bij Saxion Hogescholen gebruiken drie opleidingen van Techniek de toetsbank. De toetsbank is niet geëvalueerd, maar de indruk is dat de gebruikers, zowel docenten als studenten, er positief over zijn. Studenten doen de voortgangstoets direct aan het begin van hun studie en hebben zich er nog niet kritisch over uitgelaten Een groot voordeel van het gebruik van de toetsbank is dat de docent hierdoor snel en efficiënt een toets kan samenstellen. Daarnaast krijgt de docent beschikking over valide toetsen (namelijk direct gerelateerd aan een courant studieboek) en toetsen van een hoge kwaliteit. Oorspronkelijk, in ’92 en ’93, werd het project gefinancierd vanuit een project van het ministerie van Onderwijs en Wetenschap in het kader van het Hoofdlijnenakkoord. Dit akkoord had als doel de aansluiting tussen HAVO en HBO te verbeteren (deficiëntie basisvaardigheden). Later werd het gefinancierd door hetzelfde Ministerie in het kader van K&S-project (Kwaliteit & Studeerbaarheid). Momenteel zijn deze projectgelden uitgeput en dient financiering binnen de eigen instelling gevonden te worden of binnen één van de initiatieven zoals de Digitale Universiteit, Emerge of Apollo. Een interessante optie voor dit initiatief is om aansluiting te zoeken bij bijvoorbeeld WebAssign (http://www.webassign.net). Daar kan tegen relatief geringe kosten geput worden uit een enorm aanbod van toetsitems en is de continuïteit van de opgebouwde itembank en de technologie veel beter waarborgt. Deelnemers aan de itembank hebben aangegeven dat het moeilijk is om voortdurend via projectgelden de continuïteit van het systeem te waarborgen. Eigenlijk vinden ze dat de uitvoering en bekostiging van dit systeem op vaste basis moeten geschieden. In het denken bij het management over dit initiatief wordt dit echter nooit expliciet aangegeven en wordt deelname aan een dergelijk initiatief vaak gezien als een ‘probleem’ want er is steeds sprake van ‘out-of-pocket’ kosten die voortdurend verantwoord moeten worden. Dit in tegenstelling tot regulieren loonkosten of gebouwkosten die minder expliciet zichtbaar zijn in begrotingen.

Flexibilisering van Toetsing

pagina 38 van 86

7 Implementatie van een centraal toetssysteem: Saxion Hogescholen Casusbeschrijving door Alexander Kremers en Silvester Draaijer

7.1 Samenvatting

In deze casus wordt geschetst hoe op Saxion Hogescholen getracht wordt een instellingsbreed toetssysteem te implementeren. Via strategisch beleid probeert Saxion tot brede inzet van digitaal toetsen te komen. Er zijn voorzieningen op het gebied van hardware en software gecreëerd en er wordt getracht ondersteuning voor de organisatie te creëren op het gebied van functioneel beheer en didactiek. Gestructureerd werken aan itemontwikkeling vindt echter nog niet plaats en de beschikking over een infrastructuur voor summatieve toetsing is een grote wens. Het is een organisatie op weg.

7.2 Probleemstelling

In 2000 besloot de Raad van Bestuur van Saxion Hogescholen om het toetsbeleid op haar instelling meer handen en voeten te geven. Er werd een behoeft gevoeld om dit proces systematischer en met een hogere kwaliteit uit te voeren. In een strategisch beleidsdocument werd aangegeven dat toetsen en assessment een speerpunt voor innovatie moest gaan vormen. Daarin werd ook belangrijke rol voorzien voor digitaal toetsen.

7.3 Oplossing

MeetingPoint is de dienst die dit beleid moet vertalen naar concrete acties. In 1998 is de afdeling MeetingPoint opgericht. MeetingPoint is de ondersteunende dienst binnen Saxion Hogescholen voor de digitale leer- en werkomgeving. MeetingPoint onderzoekt nieuwe digitale onderwijsproducten, ondersteunt instituten en academies bij de implementatie van een digitale leeromgeving. MeetingPoint verzorgt in dit kader cursussen en trainingen. MeetingPoint geeft advies en helpt bij het schrijven van implementatieplannen. MeetingPoint verzorgt de opleiding van docenten en beheerders voor de digitale toetsomgeving van Saxion Hogescholen. Er zijn handleidingen geschreven en er liggen diverse procedures en standaard formulieren klaar voor de docenten welke eenvoudig en snel kunnen worden aangepast voor hun eigen situatie. Vanuit het strategisch document zijn in 2002 en 2003 toetsbeleidsplannen in samenwerking met de afdeling Onderwijs en Kwaliteit, in overleg met alle 22 instituten, herschreven om de toetsbeleidsplannen integraal in te kunnen voeren. Daarbij is aangegeven dat de instituten kunnen beschikken over een centrale toetsvoorziening. Het is aan de instituten over gelaten om aan te geven hoe een dergelijk systeem in hun beleid ingepast moet gaan worden. Keuze voor één centrale toetsomgeving Na een keuzeprocedure voor een centrale toetsomgeving voor Saxion Hogescholen, is in september 2001 gestart met een pilot met TestVision (TV). Binnen de pilot is gekeken of het programma en de ondersteuning goed de verschillende doelen met betrekking tot de toetsing zou kunnen ondersteunen. Belangrijke eisen waren bijvoorbeeld: • Robuustheid van de technologie (database) • Gebruiksvriendelijkheid van de software • Mogelijkheid om systematisch toetsen en toetsvragen te ontwikkelen aan de hand van

competentie en leerdoelen specificaties • Mogelijkheid tot schriftelijke afname en digitale afname • Aanwezigheid van krachtige Ingebouwde toetsanalysemodule De pilots zijn succesvol afgesloten en in 2002 is besloten om TestVision Hogeschoolbreed aan te gaan bieden en in te voeren.

Flexibilisering van Toetsing

pagina 39 van 86

Introductie van TestVision MeetingPoint heeft onderkend dat het belangrijk is de introductie van TestVision goed te communiceren om een breder draagvlak te creëren. Alle docenten van Saxion Hogescholen hebben een “programmaboekje” ontvangen van MeetingPoint en de ondersteuning die deze dienst biedt. Onderdeel van het boekje is informatie en aan te bieden ondersteuning bij implementatie van TestVision. Daarnaast houdt MeetingPoint om de drie maanden workshops waarin verschillende onderdelen worden gepresenteerd. Elke medewerker wordt hiervoor uitgenodigd en via inschrijving kan men dan deelnemen. Verder worden alle directeuren elk jaar bezocht en aan hen wordt gevraagd wat zij van MeetingPoint verwachten. Het overleg met de projectgroepen van de verschillende instituten gebeurt niet op regelmatige basis maar op basis van aanvraag. Wel proberen de projectleiders binnen MeetingPoint een vinger aan de pols te houden en als er te weinig contactmomenten dreigen te ontstaan worden deze door MeetingPoint weer opnieuw afgesproken. Bij contacten met docenten worden over het algemeen de volgende concrete argumenten gebruikt om docenten te overtuigen om digitale toetsen in te zetten: • Snel nakijken (efficiënt); • Het maken van hertoetsen of nieuwe toetsen is heel gemakkelijk en snel (rendement); • Met de toetsanalyse kunnen de eigen toetsen sterk verbeterd worden (kwaliteit); • Meertaligheid (Binnen TestVision bestaat de mogelijkheid om dezelfde toets in verschillende

talen aan te bieden).

7.4 Toetsontwikkeling

Het ontwikkelen van toetsitems en toetsen wordt niet centraal aangestuurd. Op instituutsniveau worden kunnen per opleiding verschillende afspraken gemaakt worden hoe toetsen in het algemeen ontwikkeld kunnen worden. Bij een paar opleidingen is er een expliciet toetsbeleid dat er op gericht is om een samenhangende en coherente itembank te ontwikkelen. Het professionaliseren en ondersteunen van de docenten en instituten op het gebied van toetsontwikkeling ligt in de handen van de afdeling Onderwijs&Kwaliteit (O&K). De samenwerking en afstemming tussen MeetingPoint en O&K is nog beperkt. De samenwerking begint van 2003 meer vorm te krijgen doordat O&K als doelstelling heeft gesteld voor elk instituut dat zij hun toetsbeleid duidelijk formuleren en op papier zetten en daar ook de rol van ICT en TestVision in opnemen. O&K biedt ondersteuning aan de instituten voor dit proces.

7.5 Beheer van de toetsomgeving

TestVision is zo ingericht dat elk van de 22 instituten zijn eigen databestand met toetsitems heeft. Wel wordt via de centrale Novell Application Launcher (NAL) de ingang tot de toetsitems en toetsen geregeld voor zowel docenten, studenten als administrators. Het beheer van de toetsen is zodanig dat de instituten zelf kunnen bepalen welke toetsen worden klaargezet en welke studenten daaraan mogen deelnemen. De logistieke organisatie hiervoor is tussen de verschillende lokaties van Saxion Hogescholen (Enschede en Deventer) verschillend.

7.5.1 Beheer in Enschede en Deventer

Docenten van opleidingen bij Saxion Enschede kunnen een account aanvragen bij het hoofd van de werkgroep digitaal toetsen voor het invoeren van toetsitems en het samenstellen van toetsen. De docenten krijgen dan de rechten om voor één/meerdere cursussen/onderwerpen toetsvragen aan te maken. Iedere opleiding regelt dus zelf de accounts tot zijn/haar database.

Flexibilisering van Toetsing

pagina 40 van 86

Als de toetsitems zijn ingevoerd in TestVision kunnen docenten/beheerders met die toetsitems een toets maken. Als deze toets gereed is kan een instituutsadministrator studenten toewijzen aan deze toets. Het koppelen van studenten aan toetsen kan op verschillende manieren: • Automatisch, via een door MeetingPoint ontwikkelt programma. Het is bijvoorbeeld mogelijk

om het hele adresboek in één keer toe te voegen. Ook groepen kan men toevoegen. Eigenlijk kan men alle lijsten die in een MS-Excel of Access database staan, bijvoorbeeld de namen en de wachtwoorden, snel toevoegen.

• Handmatig, door het invoeren van namen en wachtwoorden. Deze optie zit standaard in TestVision. Een combinatie met automatisch toevoegen is ook mogelijk.

7.5.2 Afname in Enschede

Voor het afnemen van summatieve toetsen zal gebruik moeten worden gemaakt van een PC-lokaal binnen Saxion Hogescholen. In de meeste gevallen hebben de instituten wel de beschikking over eigen PC-lokalen waar zij de toets kunt afnemen. Deze PC-lokalen moeten worden besproken via het roosterbureau. Het roosterbureau is op de hoogte van de inzet van deze lokalen voor toetsing en geeft bij roostering daar dan ook zo mogelijk prioriteit aan. Als het instituut niet beschikt over PC-lokalen of als ze grote groepen tegelijk willen toetsen, dan kan uitgeweken worden naar een groot PC-lokaal in het studielandschap. Hierin staan 50 PC’s opgesteld. Hieraan zijn wel enkele randvoorwaarden verbonden: • Minimaal 5 dagen voor de toets moet het lokaal gereserveerd worden (studenten kunnen tot

vijf dagen van tevoren een PC reserveren); • Er kunnen maximaal 60 studenten tegelijk getoetst worden; • Tijden die gereserveerd mogen worden zijn:

o ‘s Maandagochtends van 8.00 tot 12.00 uur en vrijdagmiddagen van 13.00 tot 17.00 uur;

o Verder elke dag van 8.30 – 11.00 uur en van 16.00 - 18.00 uur. ‘s Avonds zijn er, beperkt, ook mogelijkheden. Deze tijden zijn afgesproken met de beheerder van het studielandschap. Alleen via hem kan met het hele lokaal reserveren;

o In de tentamenperioden zijn er extra mogelijkheden. Dit komt omdat het dan minder druk is in het studielandschap.

7.5.3 Beveiliging tegen fraude in Enschede

Saxion is tot de conclusie gekomen dat de enige manier om fraude effectief tegen te gaan is om mensen ‘ouderwets’ te laten surveilleren. Er is niet een 100% zekere technische oplossing om te achterhalen dat degene die achter de PC zit ook daadwerkelijk daar zit. Surveillance moet door het instituut zelf geregeld worden. Dit wordt dus niet door de mensen van het studielandschap of systeembeheerders geregeld of gedaan. Ook mensen van MeetingPoint verzorgen deze functie niet. Het roosterbureau bepaalt wie er gaan surveilleren. In Enschede is het meestal zo dat de vakinhoudelijk docent in ieder geval surveilleert en meestal ook een paar collega-docenten of medewerkers. De surveillanten komen allemaal wel uit het instituut waarvoor de toets gehouden gaat worden. Ook is het mogelijk externe surveillanten in te huren maar dit bepaalt het instituut in overleg met het roosterbureau zelf. Externe surveillanten moeten uit het instituutsbudget betaald worden. De surveillanten worden door MeetingPoint getraind in het begeleiden van beeldschermtoetsen. MeetingPoint heeft standaard instructie formulieren gemaakt waar de desbetreffende docent gebruik van kan maken. Zij krijgen concrete instructies en aanwijzingen hoe zij moeten handelen bij inlogproblemen, authentificatie van studenten, tegengaan van fraude e.d.

Flexibilisering van Toetsing

pagina 41 van 86

Ook de studenten die de toets afgenomen krijgen, ontvangen een korte instructie voordat de toets start. Deze taak is de verantwoordelijkheid van de surveillant. Om de logistiek van het koppelen van studenten aan toetsen zo betrouwbaar mogelijk te maken krijgen studenten voorafgaand aan de toets van tevoren te horen of hij/zij mee mag/moet doen. Dit gaat via een registratieprogramma waarover elk instituut beschikt. Het enige dat de studenten verneemt is waar en wanneer de toets gehouden gaat worden en om welke toets het gaat. Saxion heeft ervoor gekozen om bij het inloggen van summatieve toetsen iedereen in te laten loggen met hetzelfde wachtwoord. Dit wachtwoord wordt pas in de toetsruimte bekend gemaakt door de surveillant. Hiermee wordt voorkomen dat studenten op een andere plek in het gebouw inloggen. Toetsen waarvoor geen cijfer behaald hoeft te worden, of welke voor oefening bedoeld zijn, moeten altijd bereikbaar zijn voor studenten. Saxion kiest er voor om bij deze low-stakes toetsen (formatieve en voortgangstoetsen) een bij een student behorend wachtwoord te gebruiken. Dat wachtwoord is het studenten e-mailadres. Studenten hoeven zo geen extra wachtwoord te onthouden. Ook wordt de inlogtijd om in de toets te komen vrij kort gehouden. Met TestVision is dit zeer eenvoudig in te stellen. Pas nadat deze tijd verstreken is mogen studenten die al klaar zijn of het niet zien zitten, vertrekken. Immers, vanaf dat tijdstip kan je niet meer inloggen in de toets, dus doorgeven van wachtwoorden heeft geen enkele zin.

7.5.4 Afname in Deventer

In Deventer zijn er vrij weinig PC-lokalen en er is ook geen groot PC-lokaal met veel PC’s. Er is wel een studielandschap met 50 PC’s maar dat is zo groot en onoverzichtelijk dat daar geen summatieve toets kan plaatsvinden. Het aantal surveillanten dat nodig is voor een afdoende controle tegen fraude zou onevenredig groot zijn. Bovendien is dat landschap eigenlijk nooit beschikbaar. Er zijn daarom in Deventer afspraken gemaakt met het roosterbureau. Men kan nu, zij het alleen in de toetsperiodes, de PC-lokalen (er liggen er vier naast elkaar) allemaal tegelijk ‘afhuren’. Op deze manier kunnen er ongeveer 50 studenten tegelijk getoetst worden. Er zijn dan vier surveillanten nodig. Op locatie Deventer willen de instituten daarbij nog graag grote groepen in één keer toetsen. Hier moet worden gedacht aan groepen van 150 deelnemers. Met papier en pen toetsen kan dit in een grote collegezaal geregeld worden. Moeilijker wordt het om 150 PC’s te regelen en ook nog in één lokaal. Op locatie Deventer is het beleid dat het surveilleren bij tentamens niet door de docenten plaatsvindt, maar dat hiervoor mensen worden ingehuurd. Ook dit wordt door het roosterbureau geregeld en niet door het instituut. Deze ingehuurde surveillanten krijgen in Deventer dus eerst een kleine cursus in het afnemen van digitale toetsen. Materialen en cursus worden ook hier verzorgd door MeetingPoint. Op dit moment is MeetingPoint bezig om een procedure op te stellen hoe het ‘opstarten van een toets’ nu precies geregeld moet worden. Ook zal het zo moeten worden dat docenten in Deventer zelf gaan surveilleren. Het zal een extra drempel betekenen om digitaal te gaan toetsen omdat deze docenten er daardoor extra taken bij krijgen. MeetingPoint geeft de volgende adviezen om toch deze grootte aantallen studenten summatief te toetsen via het beeldscherm. • Toon de vragen in random volgorde aan studenten • Toon de alternatieven van vragen in random volgorde aan studenten

Flexibilisering van Toetsing

pagina 42 van 86

• Zorg ervoor dat er meerdere, maar verschillende, toetsvragen beschikbaar zijn van hetzelfde niveau die random aan de studenten worden aangeboden

Door een beperkte hoeveelheid toetsitems en een gebrek aan tijd en kennis om voldoende gelijkwaardige toetsitems te kunnen ontwikkelen ervaren docenten dit wel als een groot probleem. In de praktijk kiest Saxion er op dit moment voor om toetsen voor grote groepen toch via het aangeven van antwoorden op schrapkaarten af te handelen. In TestVision wordt nu gewerkt aan functionaliteit om deze schrapkaarten service te integreren met de toetsanalyse software van TestVision. Voordeel van deze opzet is dat grote groepen tegelijk getoetst kunnen wat ruimte en surveillanten bespaard en dat er door omzetting van de gegevens snel resultaten gegenereerd kunnen worden. Hiervoor heeft het instituut wel software nodig van TestVision en een schrapkaartenlezer, maar dit weegt ruim op tegen het handmatig nakijken.

7.6 Kosten en Baten

De inzet van het systeem is heel verschillend per instituut. Op dit moment is er één instituut die verplicht heeft gesteld dat alle tentamens via TestVision worden afgenomen. In de meeste instituten wordt TestVision nog niet gebruikt voor tentamens maar voor tussentoetsen. Ongeveer 5% van alle toetsen wordt gedaan met TestVision. Na twee jaar inzet van TestVision is dat niet zo’n slecht resultaat. Per 1 september 2003 gaan weer twee nieuwe instituten met TestVision aan de slag gaan dus het gebruik en inzet van TestVision stijgen. Een andere opbrengst betreft de kwaliteitstoename van de toetsen. Inherent aan het gebruik van TestVision zijn de resultaten en toetsanalyse die met de analysetool van TestVision worden gegenereerd. Docenten worden hiermee veel directer geconfronteerd met de aanwezigheid van psychometrische data. Veel docenten vinden dat in het begin niks: ze zien het belang en de relevantie er niet van in en bovendien vergt het veel tijd om dergelijke analyses goed te interpreteren en consequenties aan te verbinden. Toch is de indruk van MeetingPoint dat ze daardoor – en zeker op de langere termijn – met een ander oog kijken naar de kwaliteit van het toetsvragen en toetsen. Docenten moeten er dus aan wennen maar zien er ook de voordelen uiteindelijk van in.

7.7 Discussie

De invoering van een centraal toetsprogramma, in dit geval TestVision, op Saxion Hogescholen wordt landelijk gezien als één van de meer succesvolle pogingen in Nederland. Het is Saxion gelukt om op centraal niveau middelen en ondersteuning vrij te maken voor de implementatie van digitaal ondersteund toetsen. Er is ook centraal beleid en visie over de rol van toetsing binnen de curricula van de Hogeschool. Daarin wordt veel aandacht besteed aan competentiegericht opleiden. Helaas is de vertaling in de richting van digitaal toetsen met TestVision weinig operationeel uitgewerkt. Ook de instituten van Saxion geven niet aan hoe ze systematisch gebruik willen maken van het systeem op de Economische opleidingen na. Binnen TestVision wordt de verantwoordelijkheid voor de inhoud van de toetsing voor het belangrijkste deel bij de docent gelaten. Op dit moment heeft dat o.a. geresulteerd in een grote database met toetsvragen die weinig coherentie vertonen en kwaliteitscontrole en borging nauwelijks toelaten. Het ideaal om tijd- en plaatsonafhankelijk te toetsen is bij Saxion Hogescholen nog zeker niet gerealiseerd. Om dat ideaal te realiseren zal het proces van toetsontwikkeling, toetsbeheer en afname ‘losgekoppeld’ moeten worden van de onderwijsorganisatie en moet tevens de curriculumfasering losgelaten worden. Zolang de organisatie en het onderwijs niet op deze wijze flexibel is ingericht en studenten niet op aanvraag cursussen individueel of in zelf samengestelde groepjes volgen, blijft dat ideaal nog ver verwijderd.

Flexibilisering van Toetsing

pagina 43 van 86

Ook het gebrek aan een voldoende grootschalige voorziening om beveiligd te toetsen vormt een drempel om traditionele summatieve toetsing via beeldschermen grootschalig in te voeren. We verwijzen hier nog naar de video van de casus van de University of Dundee op de website Flexibilisering van Toetsing via http://www.du.nl/flextoets. In die video wordt een gelijksoortige casus beschreven als die van Saxion Hogescholen, maar bij de University of Dundee wordt het aspect van een beveiligde toetsomgeving integraal meegenomen in het beleid. MeetingPoint heeft helaas geen nadere evaluaties gedaan onder studenten. Het is niet duidelijk welke voor- en nadelen zij op dit moment precies ervaren. De docenten zijn over het algemeen pas overtuigd van de voordelen van een centraal digitaal toetssysteem als ze er zelf mee gewerkt hebben. De initiële tijdsinvestering voor docenten om met het systeem te werken en toe te passen is groot (alle vragen moeten worden ingevoerd, toetsen moeten gemaakt worden, studenten moeten worden toegevoegd etc.). Docenten krijgen van hun instituten slechts in beperkte mate compensatie voor het gebruik van het systeem. Als docenten eenmaal ervaring hebben opgedaan met het systeem zijn ze redelijk tot zeer tevreden over TestVision en ervaren ze ook de geschetste voordelen. Meer informatie over TestVision: http://www.testvision.nl Informatie over TestVision bij Saxion Hogescholen http://edapp01.saxion.nl/QuickPlace/qpcolumbus/PageLibraryC1256D8D004916EA.nsf/h_Toc/9BC8CFE58C18C5B6C1256E68003CDD6C/?OpenDocument

Flexibilisering van Toetsing

pagina 44 van 86

8 Invoeren van beeldschermtoetsing bij één opleiding: faculteit Economie, Hanzehogeschool Groningen Casusbeschrijving door Silvester Draaijer

8.1 Samenvatting

Via een initiatief van een individuele docente besluit de International Business School (IBS) van de Hanzehogeschool tot invoering van een centraal toetssysteem en het inrichten van een beveiligde infrastructuur om summatief te kunnen toetsen. De voorziening wordt gerealiseerd en gebruikt voor het beoogde doeleinde. Een meer grootschalige opzet (bijvoorbeeld instellingsbreed) komt nog niet van de grond. Dit wordt veroorzaakt door een gebrek aan een gedeelde visie op de rol van kennistoetsing in competentiegericht onderwijs en door voorziene technische en organisatorische problemen. Men neemt daarom nu kleine stapjes op het niveau van IBS. Deze casus is uitgewerkt in de video ‘Dossier Hanzehogeschool’ die te vinden is op de website Flexibilisering van Toetsing http://www.du.nl/flextoets of rechtstreeks te bekijken via: http://stream1.surfnet.nl/cgi-bin/users/launch.cgi?v/vu2/mpeg/Dossier_Hanze.mpg

8.2 Probleemstelling

Bij de Hanzehogeschool in Groningen wordt al vanaf de jaren negentig, door een flink aantal docenten van de economische opleidingen, gebruik gemaakt van het programma Questionmark. Docenten konden middels Questionmark kennistoetsen aanmaken. Studenten kregen deze toetsen op diskette mee naar huis. Thuis konden ze deze toetsen maken, waarbij de resultaten op de diskette werden opgeslagen. De diskette werd weer ingeleverd bij de docent die zo kon uitlezen wat de behaalde resultaten waren van de student. Aan de hand van deze resultaten kon de docent besluiten om het vak aan te passen of studenten individueel aan te spreken op hun inzet voor het vak. Deze aanpak van het onderwijs was succesvol voor docenten die deze werkwijze consequent toepasten. Ook waren er docenten die op eigen gelegenheid eindtoetsen afnamen met Questionmark. Daartoe organiseerden zij zelf een lokaal met PC’s en toezicht. De gekozen opzet was vrij arbeidsintensief en er was een grote logistieke last met organiseren, uitdelen, innemen en verwerken van toetsen en resultaten. De Faculteit Economie en haar Dienst OnderwijsInnovatie en –Onderzoek, zagen in 1999 een aantal ontwikkelingen bij elkaar komen: • De International Business School (IBS) van de Faculteit Economie trekt veel buitenlandse

studenten. Deze studenten kunnen op afstand deelnemen aan de opleidingen of participeren in delen van het curriculum. De opleiding ervoer echter dat – door gebruik van verschillende academische kalenders – flexibilisering van het onderwijs en de toetsing aandacht zou moeten krijgen.

• In het algemeen wilde de opleiding IBS de werkdruk van docenten verlagen. Door een vrij open beleid konden docenten zelf hun onderwijs en werkvormen grotendeels invullen. Belangrijk daarbij was dat door de heersende onderwijscultuur op de opleiding, alle toetsen bestonden uit ‘open vraag’ tentamens. Hierdoor was de nakijklast – met ongeveer duizend studenten in de opleiding – erg groot. Het management van de opleiding zag toetsen met ICT als middel om de werkdruk te verlagen. Bovendien zou dan ook meer aandacht kunnen worden besteed aan kwaliteitsverhoging van het toetsen binnen de opleiding.

• De Faculteit Economie bezat al sinds lange tijd drie talenpracticum lokalen. Vooral de International Business School maakte daar veel gebruik van om buitenlandse studenten te

Flexibilisering van Toetsing

pagina 45 van 86

kunnen trainen in verschillende talen. De talenpracticum lokalen waren aan vervanging en vernieuwing toe.

• Het programma Questionmark werd vanaf 2000 niet meer ondersteund door de leverancier. Deze heeft ervoor gekozen om de ontwikkelingen van haar programma te sturen in de richting van een webgebaseerd systeem: Questionmark Perception. De Dienst OnderwijsInnovatie en -Onderzoek van de Hanzehogeschool wil dat programma kiezen als centraal toetssysteem voor de gehele Hanzehogeschool en is daar al experimenten mee aan het uitvoeren.

8.3 Gewenste situatie

De Dienst OnderwijsInnovatie en -Onderzoek van de Faculteit Economie besloot daarop een projectvoorstel te maken voor een Talenpracticum en Toetslokaal (TPTL). Het betrof een voorbeeldproject om het concept van een TPTL te onderzoeken. De doelen die een dergelijk lokaal moest gaan dienen werden als volgt geformuleerd: • verbetering van het studierendement; • vermindering van het aantal docentenuren dat besteed wordt aan toetsen; • bijdrage aan de positie op gebied van onderwijsinnovatie van de faculteit Economie; • vervullen van een randvoorwaarde voor het realiseren van de flexibilisering van het onderwijs. In de projectaanvraag werd duidelijk gesteld dat deze einddoelen buiten het bereik van het project(management) lagen. Deze achterliggende doelen zouden moeten worden gerealiseerd in de periode die volgde op de afronding van het project. Het eindproduct dat het project als doel stelde werd zo geformuleerd: De beschikbaarheid van een lokaal met 30 werkplekken met een tweeledige functionaliteit: Multimediagebruik t.b.v. videocasussen en talenpracticum; het afnemen van toetsen. De inrichting van een beheer- en toetsorganisatie. De begroting die opgesteld was, bevatte globaal de volgende posten: Investering • Tijdsinvestering: ~1700 uur ongeveer overeenkomend met ~ € 55.000 • Middelen (computers, licenties, software, accessoires etc.) ~ € 160.000 • Totaal: ~ € 215.000 Jaarlijkse lasten • Afschrijving middelen ~ € 40.000 • Licenties en Technisch beheer ~ € 23.000 • Fulltime toetsontwikkelaar ~ € 50.000 • Totaal derhalve: ~ € 103.000 • Bij de jaarlijkse lasten werd per faculteit rekening gehouden met een

afdelingsQuestionmaster (aQM). Deze functionaris zou voor de faculteit het beheer over het toetssysteem en toetsbanken moeten gaan voeren. Deze lasten zouden door de faculteit moeten worden gedragen.

Baten De verwachtingen met betrekking tot de baten werden als volgt geformuleerd: • studierendementsverbetering; • besparing toetsorganisatie. Het valt vast te stellen dat het tarief van een 2-uurstentamen ten

minste € 20,= bedraagt, exclusief de kosten die gepaard gaan met de handelingen door de dienst IEP en surveillance. In de geautomatiseerde situatie bedragen de kosten van een 2-uurstentamen € 10,=, uitgaande van de bovenstaande exploitatie;

• positieve bijdrage aan imago en positie van de faculteit;

Flexibilisering van Toetsing

pagina 46 van 86

• besparing investering in traditioneel talenpracticum. Na veel gelobby werd het project in uitvoering genomen en in 2001 werd het lokaal opgeleverd.

Figuur 6 De opgeleverde TLTP zaal van de Hanzehogeschool

De zaal is geluidsgeïsoleerd en bestaat uit 4 ‘eilanden’ met elk 6-8 PC’s. De PC’s kunnen fysiek van elkaar worden afgezonderd door opklapbare schotten. Het lokaal is niet beschikbaar voor vrij gebruik door studenten. Alleen onder toezicht van de beheerder van de zaal mogen de PC’s gebruikt worden. De PC’s zitten daarnaast in een apart netwerk. Hierdoor wordt ‘softwarevervuiling’ van de PC’s tot een minimum beperkt. Als er een toets wordt afgenomen brandt een rode lamp boven de deur zodat er geen in- en uitloop zal plaatsvinden. De PC’s zijn standaard voorzien van geluidskaart, multimediakaart, koptelefoon, microfoon etc. Zo zijn ze geschikt voor het talenpracticum en kunnen toetsen met multimediale aspecten worden afgenomen. Centraal staat een controller-PC opgesteld. Daarmee kunnen de losse PC’s bediend worden en de toegang geregeld. Een student kan in toetsmodus opstarten voor gebruik van Questionmark toetsen (oude versie). De student kan dan niet het internet op. Een student kan in een andere modus opstarten en kan zo toetsen maken met Questionmark Perception via het internet. Afhankelijk van de aard van de toets kan een student verdere toegang tot het internet worden ontzegd (Secure Browser) of kan de toegang tot andere applicaties (bijvoorbeeld kantoorsoftware) al dan niet worden ontzegd.

Flexibilisering van Toetsing

pagina 47 van 86

De beheerders (functioneel en technisch) van Questionmark Perception hebben scholing gekregen in het beheer van het systeem. De beheerders en enkele docenten hebben een training gekregen om met het auteurssysteem van Questionmark om te gaan.

8.4 Toetsontwikkeling

Het lokaal wordt momenteel gebruikt voor twee verschillende soorten toetsen:

8.4.1 Toetsen aangemaakt door docenten

Er is een aantal docenten die, op vrij individuele basis, gebruik maakt van Questionmark Perception. Via een vrij uitgebreide logistiek kunnen deze toetsen ingebracht worden in het systeem. De docenten leveren hierbij toetsvragen aan bij de functioneel beheerder van Questionmark Perception. Deze voegt deze vragen toe aan de database en zorgt voor de goede indeling en metadatering van de toetsvragen. Eén docente maakt intensief gebruik van het systeem. Zie bijgaande artikel uit de Hanzekrant van februari 20032.

Kader 1 Artikel Hanzekrant februari 2003

Duitsers halen meer voldoendes met minder les 'Als je computerondersteund onderwijs op een uitgebalanceerde manier combineert met gewone lessen, haal je met minder contacturen betere studieresultaten.' Dat stelt docente Petra van Heugten van de International Business School. Op de helo-studieochtend van 23 januari hield ze een overtuigend pleidooi. Docente Engels Petra van Heugten stond vijf jaar geleden voor een dilemma. 'Ik geef les op onder andere de Duitstalige IBS-opleiding. De resultaten van grammaticatoetsen waren bedroevend. Gemiddeld veertien onvoldoendes van de twintig. Echt zware onvoldoendes. En de voldoendes, aan de andere kant, tussen de 7.5 en 9.5. Lesgeven aan zo'n groep loopt erg onprettig omdat, aan de ene kant, de zwakke studenten het niet meer zien zitten, terwijl aan de andere kant de betere studenten zich gaan vervelen door gebrek aan tempo. Verplicht stellen werkt niet. Als mensen de stof beheersen, moet je ze niet dwingen te komen.' Van Heugten koos daarom voor een andere strategie. Het aantal contacturen voor grammatica terugbrengen van twee naar een, en in de vrijgekomen tijd computerondersteund aan de slag met Questionmark. Van Heugten: 'Question Mark Perception is een programma dat studenten een groot aantal verschillende toetsvragen geeft over bestudeerde stof. Op zich niets bijzonders. Het mooie van Question Mark Perception is dat je specifieke feedback kunt geven op allerlei mogelijke foute (en ook goede) antwoorden. Als zwakke studenten continu een bepaalde fout maken, kun je ervoor zorgen dat ze via een aantal vervolgvragen in geleidelijke stapjes tot een goed antwoord komen. Je past de vragen steeds beter aan met behulp van de 'rapportage' functie die zowel individuele antwoorden als ook een verzameling van antwoorden van een groep studenten kan laten zien. Een ander voordeel is dat je op verschillende niveaus werkt. Als ze niet voldoende scoren, gaan ze een stapje terug, als ze heel hoog scoren slaan ze een deel over.' 'Ik kan met Question Mark Perception zien hoe lang iemand aan een opdracht heeft gewerkt en met welk resultaat. Is er reden tot ingrijpen, dan stuur ik een mailtje. Wat is er aan de hand?' Van Heugten lacht. 'Daar schrikken die Duitsers behoorlijk van. Dan is het de volgende keer een stuk beter. Ze kunnen oefenen wanneer en waar ze maar willen, zelfs thuis in Duitsland.' Het overblijvende contactuur stellen de studenten aan Van Heugten vragen over zaken waar ze nog niet uit zijn. Daarna maken ze samen aanvullende opdrachten. Van Heugten: 'Iedereen kan nu op het zelfde niveau meedoen. Dat kon voorheen nooit.'

2 http://145.33.6.223/Over+de+Hanzehogeschool/Nieuws/hanzekrant/2003-02-06duitsers.htm

Flexibilisering van Toetsing

pagina 48 van 86

Momenteel haalt tweederde van Van Heugtens studenten een voldoende voor grammatica. Dat is een verdubbeling ten opzichte van vijf jaar geleden. 'Maar de tijd die je overhoudt door minder contacturen, weegt niet op tegen de tijdsinvestering die nodig is om een goed draaiend testprogramma te maken', waarschuwt Van Heugten. 'Ik heb het in mijn eigen tijd ontwikkeld, hetgeen nu eigenlijk ondenkbaar is geworden. De hogeschool zou docenten daarom de ruimte moeten geven iets te ontwikkelen. Daarbij is het belangrijk dat je iets ontwikkelt dat je kunt delen met collega's.' Tot op heden is er maar een handjevol docenten die op deze wijze gebruik maken van de mogelijkheden van geautomatiseerd toetsen.

8.4.2 Kant-en-klare toetsen

Een andere inzet van het TPLT lokaal betreft een zogenaamde prep-toets met behulp van Dialang3. Voor de opleiding IBS melden zich veel Chinese studenten. Het is belangrijk voor de opleiding en deze groep studenten, om voldoende vaardigheid te hebben in de Engelse taal voordat een aanvang wordt genomen met de opleiding. Dialang.org is een door de Europese Unie gesubsidieerd programma om het eigen beheersingsniveau in te schatten voor alle Europese talen. Voor elke vaardigheid kan een student eerst zelf een inschatting maken van de eigen vaardigheid en vervolgens kan de student dan de eigen inschatting meten/testen. Het programma maakt veel gebruik van geluid en filmpjes. De zaal is ‘ervoor gemaakt’ om deze toetsen af te kunnen nemen. Gedurende een cursus kunnen deze metingen herhaald worden. Voor deze meting bij Chinese studenten wordt het lokaal veel gebruikt. Daarnaast wordt sinds 2003 het programma ook ingezet voor ondersteuning bij het onderwijs van alle andere studenten van IBS (190 studenten).

8.5 Toetsafname

De toetsbeheerder verzorgt voor een toetsafname de volgende zaken: • Hij draagt zorg voor logistiek mbt intekening van een bepaald moment (niet te veel / weinig

studenten in een keer), De inschrijving vindt plaats via internet, waarbij automatisch limieten worden bepaald (data, aantal inschrijvers, testen)

• De toetsbeheerder moet er voor zorgen dat een student zich slechts beperkt aantal kansen krijgt (afstemmen met docenten, studentadministratie e.d.).

• De beheerder wijzigt eventueel de configuratie van de PC’s opdat specifieke software goed zal functioneren ten behoeve van de toetsen. o Zorgt daarbij bijvoorbeeld voor een goede (logische) structuur op het netwerk en heeft

daartoe in principe alle rechten op het netwerk • Heeft op het toetsmoment lijstje met namen (ook username + password) en de daarbij

behorende toetsen paraat. • Hij zorgt voor een papieren versie (map) van de wachtwoorden die bij elk tentamen horen. • Identificeert en surveilleert bij de tentamens (in eerste instantie). • Geeft scores en tentamencode door aan Dienst Examens. Hij heeft directe toegang tot

cijferregistratiesysteem. Studenten wordt via roostering kenbaar gemaakt waar en wanneer de toets zal worden afgenomen. Studenten dienen zich voor een toets aan te melden via het internet. Voorts zijn de volgde afspraken gemaakt die gelden tijdens de toetssessies: • Een instructieblad over de wijze van bedienen van de computer, met eventueel username en

password, ligt klaar voor de student die zich heeft aangemeld Hieronder is een voorbeeld van een instructieblad opgenomen van een Questionmark toets.

3 http://www.dialang.org

Flexibilisering van Toetsing

pagina 49 van 86

Figuur 7 Instructieblad voor Questionmark toets

• Een student die zich wel heeft ingetekend en niet komt zonder zich tijdig af te melden verliest

een kans. • In het toetslokaal mogen geen andere elektronische apparaten aanwezig zijn dan die

apparaten die bij de inventaris horen. (geen gsm’s bijv.) • Er mogen geen boeken, tassen e.d. mee naar binnen worden genomen, tenzij er een

speciale plaats voor gecreëerd is, of tenzij het tentamen wordt omschreven als een “open boek-tentamen”.

• Na afloop van het tentamen meldt de student zich en kan de surveillant (toetsbeheerder) het tentamen aftekenen en het cijfer zien en noteren voor verwerking.

8.6 Toetsbeheer

De toetsbeheerder vervult een centrale rol binnen het beheer en de exploitatie van TLTP. In de vorige paragrafen is e.e.a. al uitgebreid beschreven. Voor het afnemen van de toetsen die door docenten in Questionmark of Questionmark Perception zijn gemaakt, is er een logistiek afgesproken. Hierin is een belangrijke rol weggelegd voor de toetsbeheerder. De docenten geven de toets of de toetsmatrijs door aan de beheerder. Zie onderstaande Figuur 8.

Flexibilisering van Toetsing

pagina 50 van 86

Figuur 8 Aanvraagformulier QM op het netwerk

De toetsbeheerder controleert de toetsen en toetsvragen (op techniek, op metadatering). Hij voert de toetsvragen eventueel in en plaatst deze toetsen op de server en stelt ze beschikbaar onder de door de docent opgegeven condities (tijd, duur).

8.7 Toetsverwerking

De verwerking van de resultaten vindt direct plaats. Bij een Questionmark toets worden de resultaten opgeslagen in aparte files. Één file per student. De beheerder kan dan met analyse software van Questionmark de resultaten uit die files destilleren. De resultaten worden gecontroleerd en doorgestuurd naar de Dienst Examens ter vastlegging. De resultaten worden minimaal gedurende 5 maanden bewaard indien er onverhoopt problemen optreden.

8.8 Resultaten

Na oplevering van de toetszaal is deze op bescheiden schaal in gebruik genomen. Er worden talenpractica naar tevredenheid in verzorgd, pre-tests afgenomen en door individuele docenten getoetst met het programma Questionmark of Questionmark Perception. Het heeft niet de omvang van inzet gekend die vooraf gedacht was. Ook de mogelijke kwaliteitsverhoging van toetsing is (nog) niet gerealiseerd. Daar zijn een aantal redenen voor te noemen. De Hanzehogeschool is anno 2004 bezig met het formuleren van instellings toetsbeleid. Van daaruit zouden de afdelingen dan eigen toetsbeleid moeten maken. Zowel de Hanzehogeschool als de opleidingen wachten centraal beleid of voordat zij willen investeren in mensen en middelen om e.e.a. met voldoende inzet aan te gaan pakken. Dat maakt dat opleidingen en docenten op dit moment aarzelend staan om te gaan investeren in het opzetten van toetsbanken in Questionmark Perception. Het vergt van docenten een grote initiële investering om goede toetsvragen en toetsen aan de maken. Dat blijft een grote drempel om tot inzet over te gaan. Vanuit de opleiding wordt dit

Flexibilisering van Toetsing

pagina 51 van 86

probleem wel erkend, maar wordt aangegeven dat er binnen het huidige beleid niet veel aan valt te veranderen. De toetszaal staat in principe klaar om tentamens mee af te nemen. Docenten zijn daar ook van op de hoogte. Ze ervaren het echter als een probleem dat in de zaal slechts ~28 studenten per keer kunnen worden getoetst. Voor grotere groepen studenten zullen toch ‘noodmaatregelen’ moeten worden getroffen (meer toetsen genereren van hetzelfde niveau, maar toch verschillende vragen). Dat zijn belemmeringen voor docenten. Voor het beheer van de zaal en Questionmark Perception is uiteindelijk 0,05 FTE gereserveerd (in het oorspronkelijke projectplan stond meer). Voor die omvang dient alle communicatie en ondersteuning rondom Questionmark Perception plaats te vinden. Dat is in de praktijk te weinig. Vooral het bekendheid geven aan het systeem en het verzorgen van de noodzakelijk scholing kan zo niet vormgegeven worden. Bij het centrale beheer van toetsitems en toetsen is het moeilijk om een centrale structuur van de grond te krijgen. Er zijn afspraken gemaakt over de indeling en beheer van de toetsbank. De aanschaf-, beheer- en licentiekosten van Questionmark Perception zijn hoog, wat snelle implementatie hindert. Voor elke nieuwe installatie, auteur en student in het systeem dient opnieuw de licentie aangepast te worden.

8.9 Toekomst

De Hanzehogeschool heeft in 2003 een onderzoek afgerond naar het grootschalig opzetten en implementeren van Questionmark Perception (Biesbroek, Folkerts et al. 2003). De belangrijkste conclusie van het onderzoek was dat het op dit moment niet opportuun zou zijn om een dergelijk traject in gang te zetten. De belangrijkste reden daarvoor is dat de instelling nog niet een duidelijk beeld heeft van de rol van kennistoetsing binnen competentiegericht onderwijs en – afgeleid daarvan – de rol die ICT daarbij dan moet spelen. Dit aspect kreeg zelfs geen expliciete aandacht binnen een hogeschool breed project gericht op het formuleren van beleid rondom competentiegericht toetsen binnen de Hanzehogeschool. Daarnaast zijn er problemen met betrekking tot de beheerstructuur (inclusief topics/rechtenstructuur en rollen) bij het gebruik van Questionmark Perception en de investering in tijd voor scholing en opbouwen van toetsbanken. Dat zou naar verwachting een groot beslag leggen op de organisatie. Op dit moment het de dienst Onderwijssupport aanbevelingen gedaan voor nader onderzoek naar de inzet van Questionmark Perception. Dat project moet de volgende producten leveren: Zicht op de mogelijkheden van competentiegericht toetsen binnen een digitaal toetssysteem. Een rapport over de voorwaarden (benodigde infrastructuur etc.) voor het gebruik van Perception. Een rapport over het opbouwen en onderhouden van kwaliteits-toetsenbanken binnen Questionmark Perception, en een of meer in Questionmark Perception opgebouwde itembanken. Een voorstel voor de inbedding van het gebruik van Questionmark Perception in de lijnorganisatie.

8.10 Conclusies

Het is essentieel gebleken voor het opzetten van een beveiligde toetsomgeving dat afdelingen ICT en Onderwijs (zoals de dienst Onderwijsinnovatie en –Onderzoek van de faculteit Economie), nauwe contacten hebben met opleidingen, IT-diensten en gebouwbeheer. Het is noodzakelijk om al in embryonaal stadium bij elkaar te komen en elkaars vertrouwen te hebben om tot voldoende budgettaire ruimte te komen en uiteindelijk een goed werkende infrastructuur te hebben. Voor echte kwaliteitsverhoging van toetsen moet er echter op instellingsniveau een ‘echt’ toetscentrum worden geïnstalleerd. Een centrum dat de kwaliteit van toetsing bewaakt, ondersteunt, etc. Het moet dan ook meer zijn dan alleen een ‘schrapkaarten service’.

Flexibilisering van Toetsing

pagina 52 van 86

Als opleidingen daadwerkelijk willen dat docenten overgaan tot inzet van een toetsprogramma zoals Questionmark Perception, dan dienen zij de (tijds)inverstering die daarvoor noodzakelijk is serieus te begroten. Stimulering door het management is essentieel om een dergelijk initiatief op grotere schaal van de grond te krijgen. We verwijzen hier nog naar de video van de casus van de University of Dundee op de website Flexibilisering van Toetsing via http://www.du.nl/flextoets of rechtstreeks via http://stream1.surfnet.nl/cgi-bin/users/launch.cgi?v/vu2/mpeg/Allemaal_Dundee.mpg. In die video wordt een gelijksoortige casus beschreven als die van de Hanzehogeschool, maar bij de University of Dundee wordt het aspect van een beveiligde toetsomgeving en training van personeel en kwaliteitsbewaking integraal meegenomen in het beleid.

Flexibilisering van Toetsing

pagina 53 van 86

9 Invoeren van digitale toetsing door één docent: docent Genetica, faculteit der Aard- en Levenswetenschappen Vrije Universiteit Amsterdam Casusbeschrijving door Silvester Draaijer

9.1 Samenvatting

Een docent wil zijn traditionele collegereeks vervangen door een meer probleemgerichte onderwijsaanpak en wil tegelijkertijd daarmee het onderwijs tijdsextensiever voor hemzelf te maken. Om de kennisverwerving te stimuleren besluit hij de studenten oefentoetsen aan te bieden en deeltoetsen. Hij ontwikkelt daartoe ongeveer 330 vragen die hij digitaal aanmaakt en via Blackboard aanbiedt aan studenten. De studenten maken gretig gebruik van het aanbod van toetsen, maar leren vervolgens de toetsvragen uit hun hoofd. Het tentamen wordt ook via Blackboard afgenomen. De behaalde cijfers op het tentamen zijn echter zeer laag. De docent besluit daarop de volgende jaren zijn toetsbank op een andere wijze in te zetten. Deze casus is uitgewerkt in de video ‘ICT doorstart voor docenten’ die te vinden is op de website Flexibilisering van Toetsing http://www.du.nl/flextoets of rechtstreeks te bekijken via: http://stream1.surfnet.nl/cgi-bin/users/launch.cgi?v/vu2/mpeg/Doorstart_Stuitje.mpg

9.2 Inleiding

Een docent van de opleiding Biologie van de Faculteit der Aard en Levenswetenschappen van de VU verzorgt al enige jaren het vak inleiding genetica. Het vak wordt op een ‘traditionele wijze’ verzorgd door de docent. Per jaar nemen ongeveer 180 studenten deel aan de cursus. De cursus beslaat een periode van 4 weken. Daarin verzorgt de docent 20 maal een hoorcollege in een periode van 2 weken. Daarnaast moeten de studenten 5 experimenten uitvoeren. Deze zijn verdeelt over ±14 dagdelen practicum, gedurende 3 weken. De laatste week is ingeroosterd als studiepauze. Over het practicum hoeven de studenten geen verslag te schrijven maar er worden wel twee toetsen afgenomen. De beoordeling van de tussentoetsen telt mee in de eindbeoordeling. Aan het eind van de cursus is er een schriftelijk tentamen. Dit tentamen bestaat uit 50 multiplechoice vragen. Het gemiddelde slagingspercentage van de student voor dit vak voor de eerste keer is ongeveer 80 %. De docent is wel tevreden over dit percentage.

9.3 Gewenste situatie

Door nieuw beleid van de faculteit, waarin activerend onderwijs centraal staat, besluit de docent om het vak te wijzigen. De docent neemt het vak over en heeft een afweging gemaakt om zijn tijd in het opzetten en verzorgen van een collegereeks te stoppen, of om dit anders te besteden. Hij wilde aansturen op meer zelfwerkzaamheid en minder colleges. Hij vond onder andere dat de studenten in de cursus ‘veel te weinig actief’ waren. De docent besloot om de cursus meer in de vorm van Probleem Gestuurd Onderwijs (PGO) aan te bieden en om studenten gerichter te ondersteunen in kennisverwerving gericht op het behalen van een eindtoets. De opbouw van de cursus werd daarmee ongeveer als volgt: • 5 experimenten: de cursus zou draaien rondom de uitvoering van 5 experimenten die de

studenten in groepjes van 12 tot 14 studenten zouden uitvoeren; • 5x brainstorm van een uur over leerdoelen: de studenten zouden zelf vast stellen welke

theoretische voorkennis ontbreekt om de practicum proef te kunnen begrijpen; • 5x stof bestuderen: studietijd van 2 dagen, individueel en in aansluiting op de brainstorm;

Flexibilisering van Toetsing

pagina 54 van 86

• Rapportage van een uur in de groep over hun leerdoelen en bestudeerde thema’s. De groepjes zouden van elk experiment een mondelinge rapportage geven. Deze rapportages werden beoordeeld, maar het cijfer ervan telde niet mee in de eindbeoordeling van de cursus;

• Een computerdeeltentamen over de leerstof: de studenten zouden voorafgaand aan de experimenten deeltentamens achter de computer moeten maken. Het gemiddelde cijfer voor de deeltentamens zou – als aan alle deeltentamens was deelgenomen – 50% wegen in de bepaling van het eindcijfer;

• Dan begint het practicum van ongeveer 2 maal 2 dagdelen; • Gedurende deze gehele tijd zijn de oefenvragen reeds beschikbaar; • Tentamen: de cursus zou besluiten met een tentamen.

9.4 Toetsontwikkeling

De docent heeft ±65 toetsvragen ontwikkeld voor de deeltentamens, totaal dus zo’n 325 vragen. Aan elke vraag heeft hij ongeveer 40 minuten besteed. Totale inzet voor de vraagontwikkeling was derhalve 220 uur. De docent heeft op eigen initiatief besloten om dit te doen. Hij heeft geen extra tijd gekregen van zijn faculteit. De meeste toetsvragen zijn door de docent zelf ontwikkeld. Dit heeft hij geheel zelfstandig gedaan. Controle van de vragen is uitgevoerd door een collega-docent. De docent maakte intensief gebruik van het programma Respondus om een goed beheer over de toetsvragen te krijgen en om het invoegen van figuren en formules goed mogelijk te maken. Via een import- en exportfunctie van Respondus kan de docent de toetsvragen eenvoudig in Blackboard plaatsen. De docent heeft besloten om in de meeste gevallen inhoudelijke feedback te formuleren bij de toetsvragen. Daarnaast besloot de docent om in de meeste gevallen gebruik te maken van de 4-5 keuze Multiplechoice vraag. Soms multiple answer en matching. De belangrijkste redenen om voornamelijk voor multiplechoice vragen te kiezen waren: • Bekendheid van de docent met deze vraagvorm waardoor ontwikkelen sneller ging • Bekendheid van studenten met deze vraagvorm zodat er geen problemen daarmee optreden

Figuur 9 Voorbeelden van toetsvragen genetica

Flexibilisering van Toetsing

pagina 55 van 86

De docent heeft uitgebreid de toetsen uitgeprobeerd op de locatie waar de studenten ook de toetsen zouden maken. Dat was vooral van belang omdat de toetsen op iMac’s zouden worden afgenomen waarbij een ander besturingssysteem dan Windows er voor kan zorgen dat plaatjes niet goed worden weergegeven of dat de lay-out niet klopt. Er waren niet veel problemen.

9.5 Toetsafname

9.5.1 Oefentoetsen

De oefentoetsen stonden op elk willekeurig moment ter beschikking van de studenten. Zij konden op elke PC met een internetverbinding deze toetsen maken.

9.5.2 Deeltentamens

Het aanbieden van de deeltentamens vond plaats voorafgaand aan de practica. De faculteit heeft de beschikking over 2 zalen met elk 40 iMacs en 1 zaal met 15 PC’s, zodat er 90 studenten tegelijkertijd met de toetsen bezig konden zijn. Er werden verder geen extra voorzieningen getroffen om de bedrijfszekerheid van de Blackboardomgeving of de PC’s te garanderen. Het tegengaan van fraude (in de zin van voorkomen dat er overlegd kon worden, of dat studenten literatuur konden raadplegen of dat studenten onder iemands anders naam zouden inloggen) bleek wel lastig te zijn. En ondanks het aanbieden van de toetsvragen in willekeurige volgorde bleek afkijken regelmatig voor te komen. Het surveilleren tijdens de toetsen hielp echter goed om deze vorm van fraude tegen te gaan. Tijdens het afnemen van de toetsen traden er ook een aantal technische problemen op. Er waren zo nu en dan tijdens het afnemen van de toetsen performance problemen van de Blackboardserver (dat bleek later veroorzaakt te worden doordat juist bij het opstarten van tentamens, waarbij op hetzelfde moment meer dan 100 studenten teglijkertijd dezelfde resources opvragen, de belasting op webservers het hoogst is). Voor het surveilleren en oplossen van mogelijke problemen waren de docent en 3-4 assistenten beschikbaar. Deze ondersteuning was regelmatig nodig om de toets voor studenten te resetten wanneer de student de toets per ongeluk had verlaten of anderszins problemen had met de toets.

9.5.3 Tentamen

Het afnemen van het tentamen vond plaats op de traditionele wijze van pen en papier. De docent besloot daartoe vanwege zijn verwachting omtrent optredende problemen met beveiliging en fraude, door de beperkte hoeveelheid PC’s en de beperking in het controleren en surveilleren tijdens een tentamen bij afname op PC’s.

Flexibilisering van Toetsing

pagina 56 van 86

9.6 Toetsbeheer

Het beheren van de toetsvragen vond plaats binnen het programma Respondus. De docent had de vragen geordend met de volgende kenmerken: • 5 sets vragen: per experiment één. • Moeilijkheidsgraad: De waarde van de toetsitems Hoeveelheid toegekende punten, voor een

moeilijke vraag kan een student meer punten krijgen. • Trefwoord binnen Respondus • Subonderwerp De docent ervoer dat het beheer van de toetsvragen met Respondus zeker eenvoudiger was dan met Blackboard zelf, maar ideaal vond hij het nog niet. Negatieve ervaringen zijn vooral het beperkte overzicht van de hoeveelheid vragen en de grote hoeveelheid schermklikken die nodig zijn om toetsvragen te bewerken. De docent heeft regelmatig uitdraaien op papier gemaakt van de toetsen om op die wijze een goed mentaal beeld te krijgen van de aard en om vang van de toetsbank. Bovendien komen fouten sneller aan het licht als toetsen op papier zijn uitgedraaid. Gelukkig biedt Respondus goede mogelijkheden om toetsen te printen.

9.6.1 Deeltentamens

De studenten kregen in willekeurige volgorde 10-12 vragen uit de 60 aangeboden om te beantwoorden. Ze kregen vragen in drie moelijkheidscategorieën voorgelegd. Vanaf de brainstorm tot de deeltoets was het mogelijk om proeftoetsen via Blackboard te doen.

9.6.2 Tentamen

Voor het tentamen putte de docent de vragen uit het bestand van ongeveer 320 vragen. Voor het tentamen selecteerde hij 50 vragen uit dat bestand. Via Respondus kon hij deze vragen eenvoudig selecteren en printen. De docent besloot om 2 varianten van de toets aan te maken, waarbij de vragen dezelfde waren, maar de volgorde van de antwoorden en de vragen was gevarieerd. Ook werd meestal de stam van de vraag geherformuleerd.

9.7 Toetsverwerking

9.7.1 Deeltentamen

Nadat studenten de toetsvragen hebben beantwoord en hebben ‘gesubmit’, verwerkt Blackboard direct de toets. Studenten krijgen direct feedback op de toets in de vorm van het aantal vragen dat zij goed hadden beantwoord: een score en de juiste antwoorden op de vragen. Als studenten de ‘helft plus één’ van de vragen correct hadden beantwoord kregen zij een voldoende voor dat deeltentamen. De docent heeft na elke toetsafname de resultaten van de toetsen geanalyseerd. Daarmee heeft hij toetsvragen aangepast en de voortgang van de groep in de gaten gehouden. Als er een verkeerde toetsvraag in de toets zat is nagegaan wie welke student die vraag heeft beantwoord. Die vraag is vervolgens er handmatig uitgehaald en de score is handmatig aangepast. Dit leverde veel extra werk op. Dat werk is gedaan door student-assisstenten.

9.7.2 Tentamen

De docent koos ervoor om niet gebruik te maken van de schrapkaartenservice van het toetsservicecentrum van de Vrije Universiteit. Hij heeft ze met een malletje zelf handmatig nagekeken. De reden om geen gebruik te maken van de schrapkaarten service kwam voort uit het idee van de docent dat dat omslachtig is en weer apart ‘out-of-pocket’ geld kost. Hij vond het

Flexibilisering van Toetsing

pagina 57 van 86

interessanter om zelf ‘te ervaren’ hoe de studenten op de verschillende vragen scoorden. Hij was zich er niet van bewust dat er nu geen gedegen itemanalyse van de toets zou plaatsvinden.

9.8 Cursusresultaten

De docent ondervond aanloopproblemen met de nieuwe opzet van de cursus, in relatie tot de experimenten en wijze van rapporteren. Studenten bleken niet goed in staat om zelfstandig leerdoelen vast te stellen. Het groepswerk resulteerde regelmatig in te weinig diepgang en het net ‘off-topic’ werken. Ook constateerde de docent veel meelift-gedrag. Er traden daarnaast ook de nodige onverwachte neveneffecten op met betrekking tot de toetsing.

9.8.1 Deeltentamens

Omdat gezegd was dat de deeltentamens (computertoetsen) identiek zouden zijn aan de oefentoetsen en het gemiddelde van alle deeltentamens even zwaar zouden wegen als het tentamen zelf, had dit tot gevolg dat studenten besloten om alle vragen te verzamelen en de antwoorden uit het hoofd te leren! Een vorm van zeer onwenselijk reproductiegedrag. Ook door de relatieve lage cesuur om een voldoende te behalen bleek het slaagpercentage op de deeltentamens hoog. Door de opzet van de computertoetsen waarin een random keuze werd gemaakt uit een relatief kleine database werden de studenten gestimuleerd tot het uit het hoofd leren van de antwoorden. Hierdoor kon zonder bestudering van de leerstof een zeer hoog gemiddelde worden gescoord voor de deeltentamens, waardoor een grote groep studenten waarschijnlijk de noodzaak niet inzag om nog verder te leren voor het tentamen. Omdat de computerdeeltentamens een relatief groot aandeel hadden in de bepaling van het eindcijfer, op voorwaarde dat aan alle deeltentamens was deelgenomen, leidde dit ook tot extra ‘ziekmeldingen’ voor de deeltentamens – een manier van ‘calculerende studenten’ om zoveel mogelijk opties op het behalen van een goed cijfer, open te kunnen houden. Ziekmeldingen leveren voor docenten altijd extra administratieve rompslomp op door de ‘verplichting’ van het aanbieden van herkansingen. Kortom er was onvoldoende nagedacht over de consequenties van de gekozen opzet.

9.8.2 Tentamen

Op het tentamen heeft de docent, zoals aangegeven aan de studenten, ook toetsitems gebruikt uit de bank van 320 vragen (50 voor het tentamen). Het rendement van het tentamen was echter erg laag. De eerste afname had een rendement van ±30%. De belangrijkste oorzaak bij navraag onder studenten bleek de volgende te zijn: op het tentamen, dat schriftelijk werd afgenomen, heeft de docent besloten de antwoordalternatieven te verwisselen en de vragen iets te herformuleren. Daardoor is het reproducerend studiegedrag van de studenten afgestraft. Bovendien lag de cesuur bij het tentamen hoger, namelijk op een niveau waarbij ook de raadkans was ingecalculeerd. De score voor het tentamen was dan ook zeer laag, terwijl het slagingspercentage voor de cursus als geheel relatief hoog was (±80%).

9.9 Kosten en baten analyse

De kosten en baten van deze casus worden in onderstaande tabel kort weergegeven. Er wordt vanuit gegaan dat de docent 4 jaar lang gebruik zal maken van zijn ontwikkelde toetsbank. Naast deze ‘kale’ berekening geldt voorts dat: • Studenten uiteindelijk de beschikking krijgen over veel oefenmateriaal; • De gemiddelde score van de studenten op het vak niet veel is veranderd.

Flexibilisering van Toetsing

pagina 58 van 86

Tabel 7 Kosten en baten van docententoetsbank

KostenAanmaken van toetsvragen 320 maal 0,67 uur maal 75€ 16.000€ Beheren van toetsvragen 4 maal 8 uur maal 75€ 2.400€ Toetssessies begeleiden en voorbereiden (overleg e.d.)

32 uur maal 75€ 2.400€

Deeltentamencijfers verbeteren 16 uur maal 75€ 1.200€ Totale kosten 22.000€

BatenGeen colleges meer 64 maal 3 uur maal 75 14.400€ Geen gewoon tentamen meer maken

4 maal 16 uur maal 75 4.800€

Total baten 19.200€

Balans extra kosten 2.800€

9.10 Toekomst

Voor een volgende uitvoering van de cursus zal de docent niet meer werken met deeltentamens die hij aan zal bieden via de computer. Hij zal deeltentamens schriftelijk afnemen op momenten dat kleine groepen studenten in de werkgroep aanwezig zijn.. Hij zal wel de oefentoetsen aan studenten ter beschikking stellen zodat zij op eigen tempo en plaats kunnen oefenen, maar de docent zal niet meer alle vragen uit oefentoetsen halen, maar speciaal voor het tentamen en deeltentamens gereserveerde vragen ontwikkelen.

9.11 Discussie

Deze casus beschrijft een veelvoorkomende situatie: een individuele docent neemt initiatief om meer formatieve tussentijdse toetsen in het onderwijs in te zetten met behulp van ICT. Hij zet verschillende programma’s in om een toetsbank op te zetten, om de toetsen tijdonafhankelijk via het beeldscherm te laten afnemen en om te tentamineren. De casus geeft aan welke waaier van argumenten een docent kan hebben om deze stap te nemen. De casus toont ook aan dat er technisch heel veel mogelijk is. De docent kiest bijvoorbeeld programmateur die het mogelijk maakt om de toetsvragen en toetsen flexibel aan te kunnen bieden, via verschillende programma’s en zowel via de computer als op papier. Belangrijk is echter dat het verweven van vele vormen van toetsing in onderwijs en het gebruik van ICT daarbij, ook vele valkuilen kent. Zonder een goede oriëntatie van docenten op deze valkuilen is de kans groot dat iedere docent het wiel opnieuw uit zal vinden. We noemen hier enkele valkuilen. • Een reguliere Digitale Leeromgeving (zoals Blackboard) is niet erg geschikt voor het afnemen

van tentamens. Er is geen ondersteuningsorganisatie beschikbaar op het moment dat de techniek het laat afweten. Laat jezelf goed voorlichten en kies bij voorkeur een programma dat echt geschikt is voor summatieve toetsing. Zorg er daarboven voor om studenten altijd in kleinere groepjes te laten inloggen om de belasting op de server niet te groot te maken.

• Er zijn meer maatregelen nodig om reproductiegericht leren van tentamens, door het uit het hoofd leren van toetsvragen van oefententamens door studenten, tegen te gaan. Voorbeelden daarvan zijn: o Geef als docent zelf al een deel van de oefenvragen uit op schrift, ook dat voorkomt

dat studenten ‘op jacht gaan naar toetsvragen’ zonder aandacht voor de toetsvragen zelf (Leiblum 1994) .

o Biedt oefenvragen altijd aan met behulp van randomiseertechnieken (niet alleen random aanbieden van vragen, maar ook alternatieven in verschillende volgordes aanbieden e.d.);

Flexibilisering van Toetsing

pagina 59 van 86

o Biedt digitale oefenvragen zo mogelijk zodanig aan dat ze niet geprint kunnen worden. o Houd een strikte scheiding aan tussen de oefenvragen en tentamenvragen;

communiceer met studenten dat de tentamenvragen lijken op de oefenvragen, maar niet dezelfde zijn.

o Ontwikkelen significant meer vragen door bijvoorbeeld eerst uitgebreid op het internet en bij uitgeverijen te zoeken naar vragendatabases. Ontwikkel zelf vragen met gebruikmaking van de item-delen methode (Wilbrink 1983).

• Schep geen onduidelijke verwachtingen bij studenten; o Zorg dat oefentoetsen en deeltentamens dezelfde beoordelingswijze volgen als de

eindtoets; zorg er m.a.w. dat ze een correct diagnostisch karakter hebben.

Flexibilisering van Toetsing

pagina 60 van 86

10 Studenten maken zelf toetsvragen: Question Bank Casusbeschrijving door Silvester Draaijer

10.1 Samenvatting

Docenten van een cursus Marketing en Consumentengedrag, waaraan wordt deelgenomen door veel studenten, maken een systeem waarbij studenten zelf toetsvragen formuleren. Deze vragen worden vervolgens gebruikt om een tentamen mee samen te stellen. Voor de docenten levert dit een efficiënte manier op om studenten regelmatiger de literatuur te laten bestuderen en om toetsvragen te verzamelen. De toetsvragen worden zijn met name nuttig voor het bevragen op feiten- en kennisniveau. Deze casus bevat om die reden tevens enige overwegingen omtrent de voor- en nadelen, sterke- en zwakke kanten van gesloten vragen versus open vragen voor tentamendoeleinden. Deze casus heeft verband met kader 15 uit het boek Flexibilisering van Toetsing.

10.2 Introductie

Voor de studenten van de VU, faculteit Economie, zijn cursussen op het terrein van consumentengedrag en marketing vaste en verplichte onderdelen van het eerste en tweede studiejaar. Deze cursussen worden gevolgd door zo’n 200 tot 300 studenten tegelijkertijd. In deze cursussen ligt het accent op het leren kennen, en in enige mate beheersen, van het begrippenkader van het betreffende vakgebied.

10.3 Probleemschets

Voor de cursus Marketing voor tweedejaars studenten maken de twee docenten gebruik van een boek Consumer Behavior van Peter en Olson, 5th Edition waarbij zij kunnen beschikken over zo’n 3000 kant-en-klare gesloten toetsvragen. Deze toetsvragen zijn opgeslagen in het itembankprogramma Diploma 97 van Brownstone. Om te zorgen dat studenten alleen geschikte toetsvragen voorgeschoteld krijgen, nemen de docenten voor aanvang van de cursus alle toetsvragen door en verwijderen vragen die bijvoorbeeld een hoog cultuurbepaald karakter hebben (zoals het kiezen van zeer Amerikaanse voorbeelden om vragen aan te relateren). Op deze wijze verwijderen zij zo’n 800 vragen, maar er blijven er genoeg over om een breed spectrum van onderwerpen te kunnen bevragen. De docenten maken volop gebruik van deze toetsbanken om efficiënter te kunnen werken en studenten tegelijkertijd een variëteit aan toetsvragen en toetsen te kunnen voorleggen via het internet om te oefenen.

Flexibilisering van Toetsing

pagina 61 van 86

Met deze itembank stellen de docenten ook de eindtoets samen. Globaal volgen zij daarmee de strategie die ook beschreven wordt door Leiblum (Leiblum 1994). De conclusie van Leiblum is dat een dergelijke opzet van het onderwijs positieve resultaten heeft op de uitslag op tentamens. Voor de eerstejaarscursus Consumentengedrag maken de docenten gebruik van het boek 'Consumer Behavior; a European Perspective’ van Solomon, Bamossy and Askegaard. Bij dat boek worden geen toetsvragen meegeleverd en kunnen de docenten bovenstaande werkwijze niet volgen. Daarnaast zijn er nog meer problemen die opgelost zouden kunnen worden • De tijd die studenten besteden aan zelfstudie wordt niet genomen. Het studietempo van

studenten loopt altijd snel achter bij het tempo van de cursus. • De nakijkperiode moet van het management verkort worden van 10 naar 5 werkdagen. Dat

betekent dat het schriftelijke tentamen voor de cursus Consumentengedrag met alleen open vragen, niet zo gecontinueerd kan worden en dat er overgestapt moet worden naar een tentamen met gesloten vragen.

10.4 Gewenste situatie

De docenten willen de studenten stimuleren en ondersteunen bij het systematischer en meer ‘on time’ uitvoeren van zelfstudie. Ze bedenken het idee om studenten te stimuleren om zelf toetsvragen over de literatuur te formuleren. Het liefst zouden ze dat een niet-vrijblijvend karakter geven: controle op uitvoering zou mooi zijn. Bovendien zouden ze de geformuleerde vragen kunnen gebruiken om het tentamen mee samen te kunnen stellen. Het formuleren en beantwoorden van vragen over leerstof heeft in principe een positief effect op het leren (Hamaker 1986; Wilhelm en Christenhusz 2003). In cursussen ‘studievaardigheden’ wordt deze wijze voor het bestuderen van teksten ook altijd gehanteerd. In het algemeen geldt dat, hoe actiever en gerichter studenten studievragen stellen en beantwoorden, hoe hoger het cijfer is dat zij behalen op een eindtoets. Ook komen ze tot de conclusie dat het geen verschil maakt of studenten gezamenlijk proberen de vragen te beantwoorden of geheel individueel. Hoe zou het stimuleren van het stellen van vragen – en het controleren dat dat gebeurd – echter in de praktijk vorm kunnen krijgen?

Flexibilisering van Toetsing

pagina 62 van 86

Een belangrijk struikelblok voor toepassing van deze werkwijze is de extra werklast, die het voor docenten met zich meebrengt om geformuleerde studievragen te beoordelen en te voorzien van bijvoorbeeld feedback of een score. De grote studentenaantallen in de eerste twee jaar van het Bachelorprogramma en de tijdsduur, waarin de beoordeling van deze opdrachten moet plaatsvinden, meestal binnen dezelfde week, weerhouden docenten over het algemeen voor deze oplossing te kiezen.

10.5 Gekozen oplossing

De docenten van de VU hebben daarop de handen ineen geslagen. Één docent heeft reeds ervaring in het functioneel ontwerpen van databaseachtige internetomgevingen, de faculteit waar de docenten werken heeft een eigen digitale leeromgeving waar zij zelf aanpassingen aan kan plegen en er is wat geld om een student-assistent het nodige programmeerwerk te laten uitvoeren. Er zijn korte lijnen aanwezig op de faculteit om nieuwe ideeën te implementeren in die omgeving. Dit resulteert in een experimentele toetsomgeving voor en door studenten; Question Bank. Question Bank is een website, waar studenten multiplechoice vragen kunnen invoeren die vervolgens voor andere participerende studenten beschikbaar zijn om interactief te beantwoorden. Wie geen vragen inlevert, heeft ook geen toegang tot de database. Gedurende de cursusperiode is het de bedoeling dat elke student wekelijks twee gesloten vragen formuleert met het bijbehorende goede antwoord. Medestudenten moeten de ingeleverde vragen beoordelen. Daartoe kunnen ze zelf vragen op het beeldscherm oproepen die ze vervolgens moeten beantwoorden. Na het beantwoorden wordt door het systeem aangeven of het antwoord goed dan wel fout was en op welk gedeelte van de stof de vraag betrekking heeft. Vervolgens kunnen studenten aangeven of de gestelde vraag een goede (leerzame) vraag was. Ze moeten met andere woorden een waardering (rating) aan de vraag geven. (Een dergelijk rating systeem is vergelijkbaar met de ratings van reviews op Amazon.com). Wanneer studenten de vragen van een bepaald hoofdstuk voorgeschoteld krijgen, kunnen zij deze laten sorteren op rating: wat vonden anderen de beste vragen? Daarnaast houdt het systeem bij, hoe vaak vragen goed of fout worden beantwoord. Deze functionaliteit zorgt er op deze manier voor, dat docenten zicht houden op het gebruik van het systeem.

Figuur 10 Inleveren van vragen in Question Bank

Flexibilisering van Toetsing

pagina 63 van 86

Figuur 11 Online beantwoorden van vragen in Question Bank

Figuur 12 Fig. 4 Antwoord en rating van een vraag in Question Bank

Studenten die niet twee toetsvragen inleveren of studenten waarvan de vragen niet goed genoeg bevonden worden door medestudenten om op te nemen in een eindtoets, krijgen geen toegang tot de toetsvragen van de overige studenten. Dat laatste moet deelname zoveel mogelijk stimuleren. De toetsvragen worden beoordeeld op plagiaat om simpelweg kopiëren van vragen tegen te gaan.

10.6 Toetsontwikkeling

Bij de introductie van de cursus leren de studenten wat Question Bank is en hoe ze het moeten bedienen. Ook wordt bij de introductie al aangegeven dat (een deel) van de vragen die ze zelf ontwikkelen in de eindtoets terug zullen komen. Studenten hebben vaak weinig idee hoe ze goede toetsvragen moeten ontwerpen. Gedurende het eerste instructiecollege wordt hier dan ook enig aandacht aan besteed. Tijdens dit introductiecollege worden allerlei ideeën aangereikt voor het maken van vragen. Ook wordt er gewerkt met voorbeeldvragen. Direct na het introductiecollege kunnen studenten aan de slag gaan met het systeem. Vlak voor het verstrijken van de inleverdeadline versturen de docenten naar alle cursisten een reminder. Meestal leveren de studenten de toetsvragen in vrij kort voor de inleverdeadline. Uit analyse van de logfiles

Flexibilisering van Toetsing

pagina 64 van 86

blijkt dat de eerste week 140 van de 180 meedoen aan het inleveren van toetsvragen. Dit aantal neemt vervolgens wekelijks met ongeveer 10 studenten af. In totaal zijn in het systeem zo’n 1320 vragen door studenten ingeleverd. Analyse van de vragen levert ongeveer 5% vragen op die geschikt zouden zijn voor opnamen in een eindtoets. Er is door de docenten nagevraagd waarom studenten steeds minder participeerden in het systeem. De meest gehoorde reacties waren daarbij: vergeten en geen tijd (prioriteit).

10.7 Toetsbeheer

De ingeleverde toetsvragen worden opgeslagen in een databestand. De docent bepaalt aan de hand van de voortgang van de cursus welke vraagstukken in de eindtoets worden opgenomen. Het selecteren vindt plaats op basis van de regelmatige monitoring van de docent gedurende de loop van de cursus en door gebruik te maken van de kenmerken die bij een vraag zijn opgeslagen. Met name de vragen die door de studenten zijn gekwalificeerd als moeilijk worden vaak in een toets opgenomen. De docent heeft een mentaal beeld van de inhoud van de toetsdatabase en kan zo snel geschikte opgaven selecteren.

10.8 Toetsafname

Gedurende de cursus kunnen de studenten de toetsvragen van medestudenten beantwoorden via het beeldscherm zoals reeds hierboven geschetst. Het eindtentamen wordt geprint aan de studenten voorgelegd. Het eindtentamen bestaat voor een deel uit gesloten multiplechoice vragen die de docent uit Question Bank heeft geselecteerd (telt voor 60% mee in het eindresultaat) en voor een deel uit open vragen (telt voor 40% mee in de eindbeoordeling). Zie bijlage … voor het tentamen.

10.9 Toetsverwerking

De toetsen zijn door het Onderwijscentrum van de VU geanalyseerd. Uit een psychometrische analyse komt naar voren dat de toets zeer betrouwbaar is (p-waarde rond 0,8).

Zoals gezegd moesten de docenten een tentamen bestaande uit open vragen deels omzetten naar gesloten vragen. Voor hun is het verband tussen de scores op de gesloten en de open vragen in dat verband interessant. De standaard Pearson correlatie tussen de score op de gesloten vragen en de open vragen is 0.567 en dit is significant. Er is dus sprake van een redelijk verband. Op het eerste oog zou de conclusie getrokken kunnen worden dat beide variabelen het zelfde meten. Interessanter wordt als een scatterplot van de twee variabelen wordt bekeken:

Flexibilisering van Toetsing

pagina 65 van 86

Figuur 13 Verband tussen score op open vragen en gesloten vragen bij een tentamen Marketing en Consumentengedrag (rondjes geven de score op de open vragen weer)

In de figuur lijkt zich een driehoek af te tekenen (lower half triangle). Studenten die slecht scoren op de open vragen kunnen zowel goed als slecht scoren op meerkeuzevragen, maar als studenten goed scoren op de open vragen, scoren ze ook vaak goed op de meerkeuzevragen. Dat kan worden geïnterpreteerd als: de open vragen zijn moeilijker dan de meerkeuzevragen. Wellicht komt dat omdat de meerkeuze vragen basiskennis meten en de open vragen meer inzicht meten (tenminste, dat was de bedoeling). Het kan echter ook komen omdat de studenten zelf de meerkeuzevragen hebben bedacht (ze komen allemaal uit Question Bank) en de docent zelf de open vragen. De casus kan hierover echter geen uitsluitsel geven. Illustratief voor het laatste is in dit verband een andere casus. Daarbij neemt het slaagpercentage door inzet van gesloten vragen in plaats van open vragen juist af. Zie daarvoor onderstaande tekstkader.

Kader 2 Overgaan van een tentamen met open vragen naar een tentamen met gesloten vragen

De docent van het vak Filosofie van de Faculteit der Wijsbegeerte van de Vrije Universiteit zag zich geconfronteerd met het feit dat ze een cursus inleiding filosofie moest gaan verzorgen voor Psychologie en Pedagogiek studenten. Werd voorheen haar cursus gevolgd door een handjevol studenten, nu moest ze een cursus en de toetsing verzorgen voor meer dan honderd studenten. Zij voorzag dat ze een enorme inspanning zou moeten plegen als ze vasthield aan de door haar gebruikte toetsvorm: na afloop van de cursus een schriftelijk tentamen met open vragen. Zij besloot daarop om haar toetsing om te zetten van open vragen naar gesloten vragen. Wat vonden zij zelf van deze verandering? “Wat me tegenviel was dat de slagingspercentages sterk daalden. Was eerst het slagingspercentage 90%, nu werd het ‘slechts’ 75%. De reden daarvoor was – bleek achteraf – dat mijn open vragen sowieso niet zo goed gesteld waren en ik niet werkte met een duidelijk antwoordmodel. De vragen waren bijvoorbeeld gesteld in de vorm van: Wat is het uitgangspunt van filosoof X over de vraag Y.

Flexibilisering van Toetsing

pagina 66 van 86

Studenten konden dan allerlei lange verhandelingen houden over een dergelijk onderwerp en ik was al snel geneigd om - ook als ze het gingen hebben over filosoof P en vraag Q – punten toe te kennen voor überhaupt zinvolle informatie. Bovendien bleek dat studenten alle mogelijke antwoorden op dergelijke open vragen inmiddels verzameld hadden en uit hun hoofd aan het leren waren. Het is me dus gebleken mijn oorspronkelijke toetsen wel ‘fair’ leken, maar dat dat vanuit onderwijskundig oogpunt niet terecht was. Voor mijn nieuwe opzet van het tentamen ben ik daarom vanaf scratch weer begonnen met het samenstellen van een toets en toetsvragen. Het is me daarbij gebleken dat met gesloten vragen veel nauwkeuriger en betrouwbaarder gemeten kan worden. Ook bleek me dat het wel mogelijk is om vragen van hoger cognitief niveau te formuleren mits ik er voldoende aandacht aan besteedde. Gevoelsmatig blijf ik echter met gesloten vragen toch wel problemen houden. Ogenschijnlijk zorgt de inzet van meerkeuzevragen ervoor dat ik veel inzet moet plegen in het ontwikkelen van goede vragen en dat studenten weinig inzet hoeven te plegen: ze hoeven immers alleen maar een vakje aan te kruisen. Het feit dat de vragen nu toch wel discrimineren tussen goede- en slechte studenten en dat het me uiteindelijk tijd oplevert, weegt daar echter wel tegenop.”

Over het inzetten van gesloten of open vragen voor tentamendoeleinden is veel te vinden in de literatuur over toetsen (Dousma en al 1997) en het laatste is er nog niet over gezegd. Gesloten vragen staan daarbij voortdurend ter discussie of ze wel ‘geschikt zijn’ om te gebruiken in hoger onderwijs (Verheul 1994). Zie onderstaande tekstkader van haar hand.

Kader 3 Misverstanden over toetsen: 'Met multiple choice (mc) vragen kun je alleen kennis meten, geen inzicht'

Wat bedoelen mensen in het algemeen en docenten in het bijzonder dan wel als ze zoiets beweren? Er zijn minstens drie mogelijke - en in meerdere of mindere mate gangbare - interpretaties van de titel van dit verhaal. Twee ervan zijn zonder meer te weerleggen; de derde klopt weliswaar, maar daar moeten onmiddellijk de nodige aantekeningen bij gemaakt worden. Wat er zeker vaak achter zal steken, óók bij studenten, is het volgende idee: • Interpretatie 1: 'Om een mc-toets te kunnen maken, hoef je het antwoord alleen maar te

kunnen herkennen en hoef je de stof niet te begrijpen' Helaas blijkt dit in de praktijk nogal eens te kloppen óók! Ik zeg helaas, omdat we het dan over slechte mc-tentamens hebben. Je kunt het studenten die niet veel heil zien in mc-tentamens in dat geval ook niet eens kwalijk nemen dàt ze klagen, alleen is hun gebrek aan affiniteit niet zozeer op rekening te schrijven van de vòrm waarin ze getoetst worden, dan wel van de kwaliteit van die vorm. Het soort vragen waar deze interpretatie betrekking op heeft, zijn kennisvragen. Bij de indeling in vraagniveau's die in de literatuur vrij gebruikelijk is, worden kennisvragen als volgt omschreven: de student moet de stof kunnen weergeven, zònder er iets aan toegevoegd te hebben. Dit betekent echter zeker niet, dat de stof niet begrepen zou hoeven zijn. Bij een goede mc-toets gaat het er juist om de boodschap zèlf te herkennen en niet de bewoordingen waarin die boodschap is vervat. Om die reden moeten mc-vragen voor zover mogelijk uit een herformulering van het te bevragen kenniselement bestaan. Voor zover mogelijk, want rijtjes laten zich uiteraard niet zo makkelijk in andere bewoordingen gieten. Een docent zal er echter in het algemeen niet zo op uit zijn een

Flexibilisering van Toetsing

pagina 67 van 86

tentamen voor een groot deel uit 'rijtjesvragen' te laten bestaan (mogen we hopen) - tenzij de stof op die manier in elkaar steekt, natuurlijk. Om een op de gòede manier samengestelde mc-toets te kunnen beantwoorden, moet je de stof dus wel degelijk begrepen hebben. • Interpretatie 2: 'Met mc-vragen kun je niet meten of iemand de stof begrepen heeft, in die zin

dat hij/zij in staat is verbanden te leggen binnen de stof' Deze interpretatie heeft het voordeel dat hiermee in ieder geval een correcte omschrijving wordt gegeven van wat in de literatuur onder 'inzichtvragen' wordt verstaan. Meer volledig weergegeven luidt deze omschrijving als volgt: 'de student moet verbanden kunnen leggen binnen de stof. De kennis die nodig is om dergelijke verbanden te kunnen leggen, moet in de stof gegeven zijn; er komt geen externe kennis bij te pas. De verbanden zelf daarentegen zijn niet in de stof gegeven.' Interpretatie 2 heeft echter als nadeel, dat zij als geheel onwaar is. Er is geen enkele reden om te veronderstellen dat je dit soort vaardigheden niet met mc-vragen zou kunnen meten; dat zal hooguit te maken hebben met een gebrek aan creativiteit van de constructeur. Datzelfde geldt ook voor toepassingsvragen: vragen waarbij de geleerde stof in verband moet worden gebracht met èxterne informatie. Theoretisch zijn toepassingsvragen weer van een hogere orde dan wat onder 'inzichtvragen' verstaan wordt. Het gaat hier echter eerder om een verschil in nuances, dan om een principieel verschil. Zowel bij inzichtvragen als bij toepassingsvragen gaat het om het leggen van verbanden; alleen gaat het in het ene geval om verbanden binnen de stof en in het andere geval om verbanden met informatie daarbuiten. Toepassingsvragen worden vaak gesteld aan de hand van casuïstiek. Natuurlijk is het voor een constructeur moeilijker om mc-vragen van een hogere orde te stellen dan alleen 'simpele kennisvragen' (hoewel die dus, zoals hierboven betoogd, lang niet zo simpel zijn als vaak wordt aangenomen, want er komt altijd tenminste herformulering aan te pas). Dat is alleen maar rechtvaardig: het is voor een student ook moeilijker deze te beantwoorden - daar zijn het hogere-orde vragen voor. • Interpretatie 3: 'Met mc-vragen kun je niet meten of iemand goed kan redeneren' Inderdaad, dat kun je niet (of in ieder geval, heel moeilijk). Maar dan heb je het ook niet over inzichtvragen, maar over vragen van het hoogste niveau van cognitieve vaardigheden: denkvragen. Dit is daarbij ook gelijk het niveau dat het moeilijkst valt te meten, op wàt voor manier dan ook. Vragen van dit niveau worden als volgt omschreven: 'de student moet er blijk van geven productief en creatief te kunnen denken.' Ook het evalueren - het geven van een eigen mening- over de stof valt onder dit niveau. Net als bij toepassingsvragen gaat het hier om operaties mèt kennis. Belangrijkste verschil met toepassingsvragen is echter, dat bij toepassingsvragen (net als bij kennis- en inzichtvragen!) slechts één oplossing de juiste is, terwijl bij denkvragen meerdere oplossingen mogelijk zijn. Dit zorgt dus automatisch voor nakijkproblemen: het is moeilijk om aan te geven wat nog wel goed is en wat niet meer (en wat te denken van het toetsen van creativiteit?). U zult op dit punt aangekomen wellicht denken: 'Maar dat is toch juist wat wij met ons universitair onderwijs willen bereiken, dat studenten leren zelfstandig te denken en te argumenteren!' Inderdaad, dat is het uitgangspunt dat de meeste docenten voor ogen zal staan. Het is alleen zo jammer dat dit een uitgangspunt is waar je het heel makkelijk over kunt hèbben, maar waarvan het in de praktijk heel lastig blijkt er handen en voeten aan te geven.

Flexibilisering van Toetsing

pagina 68 van 86

Zeg eens eerlijk: u wilt uw studenten hierop toetsen, maar léert u het ze ook? Weten uw studenten wel dat ze dat zouden moeten kunnen, bij dit bepaalde vak en bij dit bepaalde tentamen? Staat het in uw onderwijsdoelstellingen? En, ook niet onbelangrijk, heeft u zich, alvorens u te wagen aan deze hoogste trap van de hiërarchie van de cognitieve vaardigheden, er wel van verzekerd dat het onderwijs en bijbehorend meetinstrument voor de vaardigheden daarònder behoorlijk in elkaar steekt? Als u deze vragen naar eer en geweten met 'ja' kunt beantwoorden - vooruit, dan mag u denkvragen stellen in uw tentamen en daar kunt u dan inderdaad het beste open vragen voor gebruiken (als u tenminste niet opziet tegen het ingewikkelde nakijkwerk). Zo niet, dan dunkt me dat het inzicht dat nodig is om vragen van de overige niveau's te kunnen beantwoorden, al lang niet gering is: men moet de stof begrijpen om deze in geherformuleerde vorm te kunnen herkennen (kennisvragen), men moet overeenkomsten en verschillen kunnen onderscheiden binnen de stof (inzichtvragen) en/of kenniselementen uit de stof kunnen toepassen in nieuwe situaties (toepassingsvragen). Om op deze niveau's te kunnen meten kunt u rustig mc-vragen gebruiken; díe boodschap is hopelijk wel overgekomen. Wat u zich ook bij déze niveau's echter goed moet realiseren, is dat u niets mag toetsen wat ook niet eerst is onderwezen en dat de toets moet aansluiten bij de onderwijsdoelstellingen. Een tentamen mag op geen enkele manier verrassingen bevatten voor wie het onderwijs gevolgd heeft, anders is het geen meetinstrument, maar een selectiemiddel op oneigenlijke gronden.

10.10 Kosten en Baten analyse

De kosten en batenanalyse van het systeem ziet er ongeveer als volgt uit. Daarbij wordt er vanuit gegaan dat het systeem 5 jaar zal functioneren.

Tabel 8 Kosten en baten van Question Bank systeem

Investering Jaarlijkse kosten

Jaarlijkse opbrengsten

Ontwikkelen toets-database 20.000€ 4.000€ Onderhoud software 10.000€ Toetsitems ontwikkelen: 6 weken * gemiddel 220 vragen/per week -> 1320 vragen, daarvan 5% bruikbare vragen = 132 vragen - hoeft de docent niet zelf te ontwikkelen

-€ 1.634€

Tijdsvoordeel voor niet meer na hoeven kijken volledig open tentamen 12 min/toetsafname x € 75 x 180 studenten

2.700€

Totaal 20.000€ 14.000€ 4.334€ Saldo na 1 jaar 9.667-€ Saldo na 5 jaar 7.668€ De tabel laat zien dat de gedane investering in principe snel rendabel kan zijn. Het ontwikkelen van toetsvragen is een tijdrovend proces en als studenten een deel van die taak over kunnen nemen is dat een zeer efficiënte oplossing. Natuurlijk zijn hier veel mitsen en maren bij te plaatsen. Indien docenten toch al geen gebruik maken van open vragen, valt dat voordeel in de bovenstaande tabel weg.

10.11 Toekomst

Het idee van Question Bank is ingediend als mogelijk product voor de Digitale Universiteit. Medio 2004 is de ontwikkeling van dit product in volle gang.

Flexibilisering van Toetsing

pagina 69 van 86

10.12 Discussie

Er zijn meerdere initiatieven bekend van docenten die studenten willen stimuleren om zelf studievragen of toetsvragen te laten ontwikkelen. Vaak wordt het ingezet als noodmaatregel als studenten bijvoorbeeld niet in staat blijken om cursussen met voldoende resultaat af te ronden. Het blijkt in de praktijk echter dat studenten – zonder goede begeleiding en instructie – veel moeite hebben om dergelijke vragen te formuleren. Vaak bevragen de geformuleerde vragen slechts op het niveau van feitjes. Dat komt overeen met de bevindingen in deze casus – slechts 5% van de vragen is geschikt voor opnamen in een eindtoets. Kortom: • de docenten zijn aan de slag gegaan zonder al te veel kennis van zaken over toetsen of

studievaardigheden; • toch levert hun doortastendheid en ondernemerschap een product op dat een goede plaats in

het onderwijs kan innemen, daar moeten dan echter nog wel een aantal zaken bij in ogenschouw genomen moeten worden; o Het leren stellen van studievragen zou expliciet geïnstrueerd moeten worden als

onderdeel van cursussen waarin het systeem wordt ingezet (zie bijvoorbeeld http://www.leren.nl/cursus/leren_en_studeren/actief_leren/vragen.html );

o De docent zou zelf elke week een aantal ‘goede’ vragen moeten toevoegen die studenten altijd moeten beantwoorden.

Toch lijkt het systeem wel zeer zinvol te zijn als het gaat om efficiëntie en effectiviteit. Door middel van het systeem kan aan meerdere fronten tegelijkertijd worden gewerkt. Studenten krijgen middelen in handen om op andere dan reguliere manieren te studeren, docenten krijgen tegen relatief geringe inspanning een grote hoeveelheid toetsvragen tot hun beschikking. Het belangrijkste is echter dat zowel studenten als docenten op een meer continue basis bezig zijn met het oefenen en ontwikkelen van toetsvragen. Dat kan het leer- en toetsproces alleen maar ten goede komen.

Flexibilisering van Toetsing

pagina 70 van 86

11 Inzetten van MarkThis voor het beoordelen van essayvraagstukken: docent Rechtzoeken, faculteit der Rechtsgeleerdheid Vrije Universiteit Casusbeschrijving door Silvester Draaijer

11.1 Samenvatting

Een docent neemt zich voor om systematischer essayvraagstukken te beoordelen. Na een kort keuzeproces wordt er besloten om van het programma MarkThis gebruik te maken. Op het moment dat met het programma resultaten moeten worden geregistreerd ziet de docent echter af van het gebruik. Toch is hij tevreden over de nieuwe aanpak van zijn beoordelingsproces waartoe de software hem dwingt.

11.2 Inleiding

Een docent van de faculteit der Rechtsgeleerdheid van de VU heeft net één jaar het vak Rechtzoeken verzorgd samen met zijn collega. In het academisch jaar 2003/2004 neemt deze docent de gehele cursus over. De cursus bestaan voor een belangrijk onderdeel uit het maken van een essay over een onderwerp dat een sterk juridisch karakter heeft. Studenten moeten in groepjes argumenten verzamelen en ontwikkelen rondom een aantal stellingen. Een voorbeeld van een stelling is: “mogen medewerkers van een rechtbank een hoofddoek dragen?”. De opdracht is vervolgens vrij gesloten. De lengte van het essay is maximaal 12 pagina’s en de indeling is voorgeschreven volgend uit 3-4 deelopdrachten. Ieder jaar participeren ongeveer 300 studenten in de cursus. Zij werken in ongeveer 150 groepjes van 2 studenten. Het essay heeft een certificerende status. Dat wil in de praktijk zeggen dat studenten het ingeleverde werkstuk schriftelijk aan moeten leveren en dat ze het niet geretourneerd krijgen: de ingeleverde werkstukken moeten, net als reguliere tentamens, gearchiveerd worden voor eventueel later gebruik als bewijsmateriaal. Tot het academisch jaar 2002/2003 kunnen studenten zich inschrijven op een inschrijfrooster voor een kwartier nabespreking. In de praktijk maken ongeveer 20 groepjes daar gebruik van. De docent heeft geen behoefte om het niveau en de inzet van de individuele studenten te meten. Elke student van een groepje krijgt hetzelfde cijfer. Tot aan het academisch jaar 2002/2003 worden de essays op een vrij ‘losse’ manier beoordeeld. Er gelden enige algemene, weinig expliciete, criteria waarop wordt beoordeeld. Globaal zijn deze: • Argumentatie • Interpretatie cq. samenvatten • Taalgebruik • Vinden (voldoende informatie gevonden) Voor de eerste twee criteria kunnen de studenten cijfers krijgen en opmerkingen. De criteria 3 en 4 zijn eigenlijk criteria die alleen gebruikt worden als studenten onder de maat presteren op criteria 1 en 2: er wordt puntenaftrek toegepast als het taalgebruik slecht is of als er te weinig bronnen zijn gevonden of gebruikt. Alleen de docent heeft dit (impliciete) beoordelingsformulier. Studenten zijn vrij onwetend over deze criteria. De studenten ontvangen alleen een eindcijfer op hun werk. De beoordelingsformulieren blijven in het bezit van de docent die ze gebruikte als studenten verschijnen op de nabespreking.

11.3 Gewenste situatie

De docent wil voor het academisch jaar 2004/2005 de werkwijze rondom het beoordelen van deze werkstukken meer stroomlijnen. Globaal onderscheidt de docent de volgende doelen voor zichzelf:

Flexibilisering van Toetsing

pagina 71 van 86

• Studenten moeten op één of andere manier meer inhoudelijke feedback krijgen op werkstukken.

• De tijdsinspanning voor nakijken en beoordelen mag niet stijgen en moet bij voorkeur dalen. • De tijdsinspanning voor het individueel nabespreken van de werkstukken met groepjes

studenten moet afnemen. • De essays moeten niet in elektronisch formaat, maar nog steeds in hard-copy formaat

aangeleverd worden. De docent hoopt dat de tijd voor nabesprekingen zal dalen doordat studenten nu inhoudelijke feedback zullen ontvangen op hun werkstuk. Om die tijd verder in te perken besluit de docent om het nabespreken ‘op afspraak’ om te zetten naar het organiseren van een centraal terugkoppelingscollege.

11.4 Oplossing

Er zijn twee mogelijke ICT middelen onderzocht om de nieuwe werkwijze te kunnen realiseren. • Er zou gebruik gemaakt kunnen worden van een excel-sheet om resultaten van de studenten

in op te slaan4. Vervolgens zou MS-Word gebruikt kunnen worden om per student een feedback formulier te genereren met de ‘afdruksamenvoegen’ functie. En zou een mailmergeprogramma zoals WorldMerge gebruikt kunnen worden om alle studenten individueel te mailen.

• Er zou gebruik gemaakt kunnen worden van het Programma MarkThis Pro. Dat een geïntegreerde programma voor het aanmaken van criteria, weegfactoren, beheren van studentgegevens en gepersonifieerd mailen.

Er wordt gekozen voor de oplossing met MarkThis. De belangrijkste reden daarvoor is dat de docent geen ervaren computergebruiker is en zo doelgericht mogelijk wil werken met een applicatie die speciaal gemaakt is voor een specifiek doel. Samen met de adviseur wordt de programmatuur geïnstalleerd en wordt geoefend in de bediening van het programma. De docent voelt zich voldoende toegerust om met het programma in de praktijk te gaan werken.

11.5 Toetsontwikkeling

De fase van toetsontwikkeling is niet gewijzigd ten opzichte van de werkwijze die voorheen werd gehanteerd. Studenten krijgen nog steeds eenzelfde soort opdracht. Wel wordt de docent gedwongen om beter na te denken over de wijze waarop de opdrachten uiteindelijk worden beoordeeld. Het programma eist namelijk van de beoordelaar dat de beoordelingscriteria expliciet worden geformuleerd. De docent vindt het een goede zaak dat deze geëxpliciteerd zijn zodat studenten zich beter kunnen voorbereiden op het maken van het werkstuk. Één van de moeilijkste punten vormt het wijzigen van het criterium waarbij studenten alleen ‘negatief’ kunnen scoren: het aftrekken van punten als er te weinig bronnen zijn gevonden of als het werkstuk tekstueel erg slecht is. De docent besluit om voor die kenmerken van het essay ook expliciet een deel van het beoordelingscijfer te reserveren: hij toetst er immers op. Ook ontwikkelt de docent alvast standaard inhoudelijk feedback die hij verwacht te kunnen geven op de ingeleverde werkstukken. Vanuit zijn ervaring heeft hij een goed idee over de meest voorkomende problemen die studenten hebben.

11.6 Toetsafname

Ook deze fase is niet gewijzigd. Studenten moeten nog steeds een hard-copy van het document inleveren bij de docent.

4 Andere opties zijn programma’s voor cijferregistratie zoals Gradebook van Brownstone via http://www.brownstone.net of MicroGrade van Chariot http://www.chariot.com/

Flexibilisering van Toetsing

pagina 72 van 86

11.7 Toetsbeheer

Ook in deze fase is niets gewijzigd. Er is in feite geen toetsbeheerfase zoals bij geautomatiseerde toetssystemen.

11.8 Toetsverwerking

Op het moment dat het bij de docent daadwerkelijk aankomt op het gebruiken van het programma besluit de docent af te haken: “Er zijn een paar belangrijke overwegingen waarom ik afhaank. De belangrijkste is dat MarkThis geen tijd mag kosten. Tijd is een zeer schaars goed voor een docent (in ieder geval voor mij, ik hoef met niet te vervelen). Een andere overweging is dat ik niet nakijk achter de computer, maar "op de bank" of in de luie stoel. Dit heeft te maken met de omvang van de werkstukken. Ik schrijf dan op een papier (met criteria) de scores. Ik wilde MarkThis gebruiken, door eerst op papier scores bij te houden en daarna alles in te typen. Dit zijn de redenen waarom dat niet is gebeurd: • alle namen, studentnummers etc moet worden ingetypt en dat kost veel EXTRA tijd; • de studenten hebben wel een facultair mailadres maar dat gebruiken velen niet, dus de kans

is groot dat wanneer die adressen worden gebruikt de moeite voor niets is geweest. Wat de redenen laten zien, en dat is denk ik heel interessant voor je onderzoek: om MarkThis te gebruiken op een efficiënte manier (zonder tijdverlies) moet het hele proces er omheen ook geautomatiseerd worden. Studenten moeten zich via internet/blackboard kunnen inschrijven, ik moet nakijken achter de computer (daar heb ik nog moeite mee), en het programma moet automatisch de rapportjes naar de, door de studenten zelf via de pc ingevulde e-mailadressen, sturen. Alleen dan kan MarkThis efficiënt voor Rechtzoeken worden gebruikt. De doelstelling de studenten per e-mail feedback te geven is gegeven deze randvoorwaarden "luxe". Ik heb enkele studenten nu op de nabespreking hun rapport laten inzien. Ik denk dat ik in het komende jaar op de mondelinge presentaties ook al feedback ga geven over het schriftelijke deel. Desalniettemin heb ik van MT toch veel geleerd: ik heb, in de voorbereiding, mijn toetsingskader behoorlijk gespecificeerd. Ook is jou tip om een algemene nabespreking te houden en niet per studentenkoppel een werkstuk na te bespreken erg aantrekkelijk gebleken.”

11.9 Discussie

De casus is waarschijnlijk kenmerkend voor veel docenten. Docenten willen wel graag betere opdrachten ontwikkelen en systematischer beoordelen, maar het ontbreekt vaak aan tijd en overtuiging van noodzaak om dat proces goed vorm te geven en consentieus uit te voeren. Ook geeft de casus het belang aan van gecentraliseerde gegevensstromen. Het kost docenten veel tijd om administratieve gegevens te verwerken. Zeker al de betrouwbaarheid van die gegevens dan laag is, zien docenten snel af van de inzet van dergelijke programmatuur. Voor deze docent kan bijvoorbeeld de functie ‘Grademark’ van het internetprogramma Turntin beter de functie vervullen die de docent zichzelf wenst.

Flexibilisering van Toetsing

pagina 73 van 86

12 Inzetten van CODAS voor het beoordelen van essayvraagstukken: testen bij de Vrije Universiteit Casusbeschrijving door Christoffel Reumer en Pascale Frinking

12.1 Samenvatting

Deze casus beschrijft hoe het programma CODAS aan een test is onderworpen. De test geeft antwoord op de vraag in welke mate CODAS geschikt is voor het ondersteunen bij het automatisch beoordelen van de kwaliteit van essayvraagstukken. Daartoe is de beoordeling die docenten geven op een opdracht vergeleken met de beoordeling die CODAS geeft, waarbij CODAS in drie ronden aan een steeds betere rangorde werkt. De conclusie is dat CODAS helpt om snel rangordening in beoordeling van essayvraagstukken aan te brengen, maar dat er een kans is dat minder exemplarische vraagstukken niet juist beoordeeld worden. De rol die CODAS kan spelen is daarmee met name weggelegd voor formatieve opdrachten. Voor summatieve opdrachten (met een groot belang in bijvoorbeeld een eindbeoordeling) moet CODAS alleen als extra hulpmiddel gezien worden.

12.2 Achtergrond informatie CODAS

Wat is CODAS? CODAS (Conceptuele Documenten Analyse Systemen) is een documenten-analyse programma, ontwikkeld door Prof. Dr. De Mulder aan de Erasmus Universiteit van Rotterdam. Met de Fraudedetectie-module van CODAS kan van een set documenten met de computer worden nagegaan welke textuele gelijkenissen er tussen documenten bestaan en op die manier een indicatie worden gegeven van vermoede fraude in auteurschap. De Nakijkhulp-module in CODAS ordent de documenten op basis van door een menselijke beoordelaar beoordeelde voor- en tegenvoorbeeldige documenten, en kan op die manier een hulp bieden bij het beoordelen van een set van essays. Hoe werkt CODAS? CODAS houdt van elk document bij welke woorden er voorkomen in het document en hoe frequent. In elk document komen andere woorden voor en woorden in andere verhoudingen, waardoor ieder document zijn specifieke 'profiel' heeft van de frequentie van aan- en afwezige woorden. Als deze frequentie-profielen erg op elkaar lijken is de kans groot dat de documenten ook erg op elkaar lijken en kan op die manier een indicatie zijn voor fraude. Voorts kan worden verwacht dat een door een menselijke beoordelaar als 'goed' beoordeeld document een profiel zal hebben dat meer overeenkomt met andere 'goede' documenten dan met 'slechte' documenten en vice versa. CODAS beoordeelt de inhoud van documenten dus niet het 'micro-niveau' van de precieze formulering en volgorde van zinnen, maar op een meer geabstraheerd, 'hoger', 'conceptueel' niveau. Hoe is CODAS inzetbaar? CODAS is te gebruiken bij het nakijken van een groot aantal essay-werkstukken, waarbij eerst de Fraudedetectie-module wordt gebruikt om na te gaan of studenten (gedeelten van) werkstukken van elkaar hebben overgenomen, en vervolgens de Nakijkhulp-module kan worden gebruikt om een ordening aan te brengen van goed en slecht beoordeelde essays, en daaraan gekoppeld een beoordeling te geven van ranges van essays in de ordening. Op deze manier kan een beperkte groep documenten worden beoordeeld door een menselijke beoordelaar om een groot aantal andere documenten automatisch te scoren, waardoor een aanzienlijke tijdwinst kan worden geboekt.

Flexibilisering van Toetsing

pagina 74 van 86

Wat zijn de randvoorwaarden voor het werken met CODAS? CODAS werkt goed met essays die elkaar niet te zeer ontlopen in inhoud, maar waarbij ook een zekere variabiliteit verwacht kan worden tussen goed en slecht inhoudelijk beoordeelde documenten. Begrips- en argumentatie-essays leveren in zulk een verband beter resultaat dan meningswerkstukken. Verder is het goed als de document-grootte niet kleiner is dan 3/4 A4-blad (plm. 300 woorden) , en het aantal deelnemers/te beoordelen essays vanaf meerdere tientallen. De populatie waaruit de essays worden betrokken moet homogeen zijn in taalgebruik. Voorbeeldessays van experts of van de docent verbeteren de performance van het programma niet, men beoordeelt slechts de documenten binnen de doel-populatie. Studenten mogen wel overleggen over het essay-onderwerp, maar niet samenwerken bij het schrijven van het essay.

Kader 4 Vaak gestelde vragen over CODAS

Hoe werkt CODAS met meerdere talen? Iedere karakter-gebaseerde taal is geschikt om te worden geanalyseerd met CODAS. Als meerdere talen worden gebruikt bij één set van documenten moeten er van beide talen voldoende goed en slecht beoordeelde representanten zijn. Hoewel ze gezamenlijk kunnen worden verwerkt, verdient het de voorkeur ze te scheiden naar taal. Hoe worden afwijkende antwoorden gescoord? Hoe beoordeelt CODAS taalzwakke essays? Hoe behandelt CODAS schrijffouten? Zeer creatief geschreven essays of essays met afwijkend taalgebruik die een uniek karakter dragen binnen de populatie documenten zullen door CODAS niet betrouwbaar worden beoordeeld. Is de groep homogeen in taalgebruik of komen bepaalde schrijffouten vaker voor in de populatie dan zullen de effecten hiervan in CODAS worden uitgemiddeld. Hoe gaat CODAS om met synoniemen? Als synoniemen binnen de populatie vaker worden gebruikt, zal CODAS betrouwbaar kunnen ordenen met synoniemen. Voor welke vakgebieden werkt CODAS goed en voor welke minder goed? Voor alle talige vakgebieden, waarbij essays worden beoordeeld waarin een betoog wordt uiteengezet, werkt CODAS goed. CODAS werkt niet goed voor essays met tabellen, grafieken of getallen. Kunnen de werkstukken meerdere vragen bevatten? Dat kan, maar CODAS werkt het beste als de vragen over één onderwerp gaan. De antwoorden per vraag lang genoeg zijn (plm. 300 woorden) wordt het beste resultaat verkregen als de vragen als aparte essays worden beoordeeld. Werkt CODAS beter als er meerdere beoordelingscategorieën worden gebruikt? CODAS brengt slechts een rangorde aan van 'goed' tot 'slecht' beoordeelde documenten. Beoordelingscategorieën zijn 'ranges' in de rangorde, waarbij een fijnschaliger beoordelingsmaat met meerdere categorieën ook meer menselijke beoordelingen vergt voor een betrouwbaar resultaat. CODAS werkt dus het meest efficiënt met zo weinig mogelijk beoordelingscategorieën. Maakt het uit in de beoordeling of in de documenten de vraagformulering wordt herhaald? Als in meerdere documenten de vraag wel en in voldoende andere documenten niet wordt herhaald wordt het effect in CODAS uitgemiddeld.

Flexibilisering van Toetsing

pagina 75 van 86

12.3 CODAS ervaringen van andere instellingen

CODAS wordt o.a. gebruikt op diverse faculteiten van de Erasmus Universiteit Rotterdam, op de Rechtenfaculteit van de Rijksuniversiteit Leiden, en op het Alfa College in Groningen. Op de RUL werden begin 2003 van 650 studenten tweemaal de essays beoordeeld, met welk resultaat men in Leiden goed tevreden was: de automatische beoordelingen van CODAS werden acceptabel bevonden, en bovendien behoefde van de 650 documenten maar 70 door een menselijke waarnemer te worden beoordeeld, hetgeen een aanzienlijke tijdswinst opleverde van 50%5. Op de vraag welke interbeoordelaarscorrelatie CODAS behaalt in vergelijking met een menselijke beoordelaar, meldt het Alfa College in Groningen een correlatie van 0,86. Deze correlatie is vergelijkbaar met de interbeoordelaarscorrelatie tussen twee menselijke beoordelaars. In het kader van het project Flexibilisering van Toetsing werd een zgn. 'benchmark'-test gedaan met CODAS. Deze test bestond uit twee fasen. De eerste fase betrof een analyse van de werking van CODAS met al eerder door docenten beoordeelde werkstukken. De tweede fase bestond uit een praktijkproef in een echte onderwijssituatie.

12.4 Eerste fase analyse van werking CODAS: test met geprepareerd materiaal

Op de Faculteit Sociale Wetenschappen van de Vrije Universiteit Amsterdam werd van het vak Globalisering een reeds beoordeelde essay-opdracht opnieuw m.b.v. CODAS geanalyseerd. De opdracht voor de studenten hield in het schrijven van een essay over de vraag: "In hoeverre trekt Cambodja profijt van of lijdt het land schade door processen van globalisering in het algemeen en regionalisering in het bijzonder?" Deze opdracht had 184 nederlands-talige essays opgeleverd die beschikbaar voor analyse. De grootte van de essays varieerde van plm. 250 woorden tot ongeveer 1300 woorden. De essays waren reeds door 3 verschillende beoordelaars beoordeeld met cijfers tussen 3,5 en 10, afgerond op decimalen. Deze zijn omgevormd voor gebruik in CODAS naar 4 categorieën, A, B, C en D volgens onderstaande tabellen.

Tabel 9 Transformatie cijfer van docent naar beoordelingscategorie in CODAS

Categorie Cijfer

A ≥ 8

B ≥ 6, < 8

C < 6, ≥ 4,5

D < 4,5

Tabel 10 Criteria voor bepaling van voorbeelden (‘+’) en tegenvoorbeelden (‘-’) in CODAS

voorbeeld Cijfer

+ ≥ 8,5

- ≤ 6

De test beoogde een reële weerspiegeling te zijn van het gebruik van CODAS voor de analyse van essays in de onderwijspraktijk. De procedure was als volgt: • Eerst werden alle documenten geanalyseerd door de Fraudedetectie-module, waarbij de

meest-gelijkende documenten nader inhoudelijk werden onderzocht, waarna een 'vermoeden-van-fraude-oordeel' werd geformuleerd voor de desbetreffende documenten.

5 Inclusief het leren kennen van CODAS, het bedienen van het programma en het beoordelen van een aantal voor het proces benodigde werkstukken heeft de procedure met CODAS zo'n 100 uur gekost. Als alle documenten met de hand hadden moeten worden beoordeeld was er naar schatting van de betrokken docenten meer dan 200 uur nodig geweest.

Flexibilisering van Toetsing

pagina 76 van 86

• Vervolgens werden de documenten ingevoerd in de Nakijkhulp-module, waarbij in een aantal ronden door CODAS een rangordening van de kwaliteit van – al al eerder door docenten beoordeelde – essayvraagstukken werd gegenereerd.

De evaluatie van de test bestond eruit, dat de rangorde van de documenten werd vergeleken met de door de docent toegekende cijfers. De correlatie tussen de twee maten werd na iedere cyclus bepaald, en uitgezet tegen het aantal met de hand beoordeelde essays, om een indruk te krijgen hoeveel door een persoon beoordeelde essays zijn benodigd voor een acceptabele automatische beoordeling. De kwaliteit van de automatische scoring werd beoordeeld op (1) correlatie, en (2) de verhouding tussen het aantal overeenkomend en verschillend gescoorde categorieën. In een 'real-life' situatie zou een docent kunnen stellen dat het ten onrechte afwijzende automatisch verkregen oordeel (uitgaand van de menselijke beoordeling als norm) onacceptabel is. M.a.w., als een student ten onrechte een onvoldoende scoort, is dat onacceptabel. Om deze 'fout' geheel uit te sluiten zal de desbetreffende docent alle essays die de computer als 'onvoldoende' scoort, met de hand moeten nakijken. Het spreekt voor zich dat in een dergelijk geval van een substantiële tijdswinst nog sprake kan zijn mits het aantal onvoldoendes relatief klein is. Voorbereiding documenten • De voor de test beschikbaar gestelde documenten werden uit de digitale leeromgeving6

geëxporteerd en hernoemd naar de naam van de student7. • Voor het desbetreffende vak werden alle beschikbare documenten gecontroleerd op

geschiktheid. Hiervoor werden alleen Nederlandstalige documenten geselecteerd. Voorts diende er van het document een door de docent toegekend cijfer beschikbaar te zijn.

• De geschikte documenten8 werden geconverteerd naar tekst-formaat om behandeling door CODAS mogelijk te maken.

• De documenten werden gescheiden naar docent.

12.4.1 CODAS - fraudedetectiemodule

Na invoer in CODAS worden de documenten in paren gerangschikt naar relatieve maat voor overeenkomst. Nu worden de documentenparen een voor een bekeken. In de eerste plaats wordt gekeken naar de maat voor overeenkomst. Een ruwe vuistregel is dat paren met een score hoger dan 7500 verdenking verhogen. Dan wordt gekeken met de A-B functie of het paar wellicht in de buurt staat van andere paren, waarbij een van beide documenten ook veel lijkt op een ander document. Als dit niet zo is, lijkt een document dus wel veel op een bepaald uniek document, maar niet op andere documenten, en verhoogt de verdenking van het paar. Als een paar op beide vorige gronden verdenking op zich heeft geladen, kunnen de documenten op inhoud worden vergeleken. Dit kan in MS Word met de functie 'documenten vergelijken'. Hiermee kan gemakkelijk worden gezien of documenten grote gedeelten overeenkomende tekst hebben of dat er tekstuele verschillen zijn tussen de documenten, al dan niet doordat met opzet de documenten van elkaar zijn verschillend gemaakt. Het is, in geval van gerede verdenking van plagiaat, moeilijk te bepalen welk document het oorspronkelijke is en welk het plagiaat. Het overgeschreven document kan tekstgedeelten parafraseren, tekstvolgordes wijzigen, tekstgedeelten toevoegen om te verbeteren of verwijderen

6 In dit geval is de digitale leeromgeving BSCW gebruikt. 7 Met oog op de bescherming van de identiteit van de student is het beter studentnummers te gebruiken i.p.v. namen. 8 De documenten waren opgemaakt in MS Word.

Flexibilisering van Toetsing

pagina 77 van 86

om de overeenkomst te maskeren. Ter bestrijding van plagiaat kan men overwegen beide kandidaten te sanctioneren. Volgens bovenstaande procedure zijn voor de test 40 paren met de hoogste overeenkomst nader onderzocht. De eerste zeven paren, met een score tussen de 9640 en 7465, waren zonder veel twijfel gevallen met gerede verdenking van plagiaat. Bij paar 8 en 9 (overeenkomst resp. 6982 en 6948) was te zien dat de desbetreffende documenten ook veel overeenkomst vertoonden met een aantal andere documenten. Bij nadere inhoudelijke vergelijking bleek dat er geen reden tot verdenking van plagiaat was. Paar 10, overeenkomst 6905, vertoonde daarentegen wederom een unieke parenovereenkomst: de desbetreffende documenten leken wel veel op elkaar, maar niet op andere documenten met een vergelijkbare maat voor overeenkomst. Nadere inspectie wees uit dat de documenten op het eerste gezicht tamelijk van elkaar verschilden, maar bij nader inzien toch sprake leek van plagiaat, waarbij men zich moeite had getroost de documenten door parafrasering en volgordewijzigingen van elkaar verschillend te maken. Ondanks de tekstwijzigingen detecteerde CODAS terecht een hoge mate van overeenkomst. Paar 11 t/m 21 vertoonden veel overeenkomst met ander documentparen in de buurt en werden verder niet onderzocht. Alleen bij paar 22 (overeenkomst 6652) viel op dat er geen andere documentenparen in de buurt werden aangegeven. Nadere inspectie onthulde een gedegen moeite de documenten op formulering en woordgebruik verschillend te laten lijken. Toch was er een dusdanige overeenkomst in inhoud en argumentatie zichtbaar, dat met gerede gronden aan te nemen was dat de documenten niet onafhankelijk van elkaar tot stand waren gekomen. Tijdsbesteding: Met behulp van CODAS kunnen binnen korte tijd enkele honderden documenten worden gecontroleerd op verdenking van plagiaat. Men kan zeer snel de initiële ordening van de documentenparen door CODAS doorlopen en paren selecteren voor nadere inhoudelijke inspectie. T.b.v. de plagiaatbestrijding geeft CODAS dus goede mogelijkheden.

12.4.2 CODAS – nakijkhulpmodule

Na het controleren op fraude is de procedure uitgewerkt om met CODAS de documenten te gaan beoordelen. Na de initiële ordening van CODAS werden aan zowel de bovenkant als de onderkant van de ordening een aantal documenten geselecteerd. Van deze documenten werd opgezocht welk cijfer de docent aan deze had toegekend. Hiermee werd getracht een analoog proces uit te voeren aan een docent die een aantal documenten selecteert, ze nakijkt en een cijfer toekent. Vervolgens werd de beoordelingscategorie bepaald (zie Tabel 9) en of het document als een voorbeeld of een tegenvoorbeeld kon worden gemarkeerd (zie Tabel 10). Beide markeringen werden in CODAS aangebracht. Als na een stuk of vijftien documenten op deze wijze minstens drie voorbeelden en drie tegenvoorbeelden waren gemarkeerd, werd een herberekening van de orde in CODAS uitgevoerd. In de nieuwe ordening verschenen de voorbeelden boven aan de lijst, en de tegenvoorbeelden onderaan. Hierna werd op dezelfde bovenstaande wijze nogmaals een vijftiental documenten geselecteerd, beoordelingscategorieën bepaald, voorbeeldmarkeringen aangegeven en de ordening herberekend. Deze cyclus van herordenen werd drie maal toegepast. Aan het eind werd voor de overgebleven documenten de grenzen in de lijst vastgesteld tussen de beoordelingscategorieën, en integraal een beoordelingscategorie vastgesteld, zonder het door de docent vastgestelde cijfer in ogenschouw te nemen. Deze laatste procedure is ook analoog aan het proces dat een docent wil uitvoeren t.a.v. niet-nagekeken essays, die op deze wijze een beoordeling krijgen toegekend op basis van de plaats in de rangordening.

Flexibilisering van Toetsing

pagina 78 van 86

Op deze wijze werden voor iedere nakijkende docent alle essays door de CODAS-procedure gescoord.

Figuur 14 Ordening van de documenten in CODAS voordat er voorbeelden zijn geselecteerd

123456789

10

0 50 100 150 200

niet nagekekenwel nagekeken

2.

Figuur 15 Selecteren van documenten voor beoordeling door de docent.

123456789

10

0 50 100 150 200

niet nagekekenwel nagekeken

Figuur 16 Ordening van de documenten door CODAS na markering van voorbeelden

123456789

10

0 50 100 150 200

niet nagekekenwel nagekeken

Voor de beoordeling van de betrouwbaarheid van de met CODAS gebruikte procedure is bij elke herberekeningscyclus de volgorde van de documenten gecorreleerd met het cijfer dat de docent had toegekend. De resultaten staan in Error! Reference source not found..

Tabel 11 correlaties één docent per cyclus

cyclus # nagekeken

documenten

# ‘+’ # ‘-‘ corr.incl. corr.excl.

0 0 0 0 - 3,9 % - 3,9 %

1 23 11 3 - 68,8 % - 58,6 %

2 30 13 6 - 71,0 % - 38,5 %

3 45 19 6 - 72,9 % - 23,7 %

Flexibilisering van Toetsing

pagina 79 van 86

(aantal documenten = 58) N.B. ‘corr. incl.’ is de correlatie tussen rangorde en cijfer van de docent inclusief de voor de ordening gebruikte (‘nagekeken’) documenten; ‘corr. excl.’ is zonder de in CODAS beoordeelde documenten. In Error! Reference source not found. is voor iedere cyclus in een kruistabel de aantallen documenten in de beoordelingscategorieëen van CODAS uitgezet tegen de naar categorieën getransformeerde cijfers toegekend door de docent. Bij iedere cyclus is een grens in de ordening tussen de categorieën vastgesteld op basis van zoveel mogelijk overeenkomst met de cijfers van de docent, om een schatting voor de ondergrens van het beoordelingsverschil te verkrijgen.

Tabel 12 kruistabel beoordeling van één docent na de 3e cyclus

cyclus 3 # nagekeken

documenten

# ‘A’

CODAS

# ‘B‘ # ‘C’. # ‘D’

docent # ‘A’ 34 1 0 0

# ‘B’ 8 6 3 0

# ‘C’ 0 0 1 0

# ‘D’ 0 0 1 0

In Tabel 13 en Tabel 14 zijn de correlaties tussen de beoordeling van CODAS en van de docent uitgezet tegen het aantal ronden nakijken van werkstukken. In Tabel 3 staat voor iedere docent per ronde hoeveel documenten zijn nagekeken en hoeveel zijn gebruikt als voorbeeld of tegenvoorbeeld. De correlatie waarbij de nagekeken documenten zijn inbegrepen neemt toe met het aantal nagekeken documenten, waaruit blijkt dat de methode met CODAS tot meer overeenstemming lijkt met de beoordeling van de docent als meer documenten worden nagekeken9.Dit is gedeeltelijk te verklaren doordat de documenten die door de docent is nagekeken 'meedoen' in de populatie door CODAS geordende documenten. Bekijkt men de correlatie waarbij de nagekeken documenten zijn uitgesloten, dan ziet men dat die afneemt met het aantal nagekeken documenten, waaruit blijkt dat de voorspellende kracht van de nagekeken documenten voor de niet-nagekeken documenten steeds meer afneemt. Dit is echter weer deels te verklaren uit de methode van selectie van de na te kijken documenten; die worden namelijk gekozen aan de uiteinden van de volgorde van CODAS. Hierdoor worden de juist geordende, extreem-scorende documenten onttrokken aan de correlatie waardoor deze afneemt. Omdat de eerste correlatie (met inbegrip van de nagekeken documenten) dus in bepaalde zin een overschatting is, en de tweede (met uitsluitsel) een onderschatting, kan de prestatie van CODAS kan dus enigszins worden gedacht tussen de twee correlaties in.

Tabel 13 Correlaties inclusief nagekeken werkstukken per cyclus (R)

R docent1 docent2 docent3 allen

0 0,037 -0,039 0,048 0,022

1 -0,544 -0,688 -0,707 -0,287

2 -0,633 -0,710 -0,674 -0,435

3 -0,709 -0,729 -0,742 -0,495

4 -0,546

9 N.B. het is nog de vraag, hoe betrouwbaar de beoordeling van de docent is. De betrouwbaarheid van de docent is een bovengrens voor de prestatie van CODAS.

Flexibilisering van Toetsing

pagina 80 van 86

Tabel 14 Correlaties exclusief nagekeken werkstukken per cyclus (R)

R docent1 docent2 docent3 allen

0 0,037 -0,039 0,048 0,022

1 -0,355 -0,586 -0,586 -0,208

2 -0,055 -0,385 -0,369 -0,342

3 0,190 -0,237 0,174 -0,290

4 -0,298

Ook kan worden gekeken naar de grafiek waarin de beoordeling met de methode van CODAS en het cijfer van de docent tegen elkaar zijn uitgezet (scatterplot). Dit is getekend in Figuur 17.

Figuur 17 Het verband tussen de beoordelingen met CODAS en die cijfers toegekend door één docent. De paarse punten zijn de nagekeken documenten, de blauwe zijn niet nagekeken.

123456789

10

0 20 40 60 80

niet nagekekenwel nagekeken

r

123456789

10

0 20 40 60 80

niet nagekekenwel nagekeken

r

resultaat na cyclus 0 resultaat na cyclus 1

123456789

10

0 20 40 60 80

niet nagekekenwel nagekeken

r

123456789

10

0 20 40 60 80

niet nagekekenwel nagekeken

r

resultaat na cyclus 2 resultaat na cyclus 3

12.5 Resultaten

Aan de correlaties tussen de rangorde van alle documenten die door CODAS werd bepaald en het cijfer dat de docent had gegeven is te zien dat bij toenemend aantal ‘nagekeken’ documenten (essays waarvan voor de beoordeling in CODAS door de docent een cijfer is toegekend), de correlatie toeneemt. De toename is het grootst bij weinig (plm. 20) nagekeken documenten, maar blijft wel enigszins toenemen bij verder nakijken. Echter, in deze correlatie is een vorm van autocorrelatie verborgen, doordat de hoog- resp. laag-beoordeelde nagekeken voor- en tegenvoorbeelden door de procedure van CODAS zoveel mogelijk aan de uiteinden van de ordening worden geplaatst, en daardoor als het ware met zichzelf correleren. Als de nagekeken

Flexibilisering van Toetsing

pagina 81 van 86

documenten worden uitgesloten, en wordt gekeken naar de correlatie van de niet-nagekeken documenten, is deze het grootst bij weinig documenten, en neemt deze steeds verder af, hetgeen betekent dat de ‘voorspellende kracht’ van de voor- en tegenvoorbeelden voor de overige documenten steeds verder afneemt. Echter, CODAS lijkt hierin een beetje door zijn eigen succes in het opsporen van voor- en tegenvoorbeelden gedupeerd te worden, want door de voor de beoordeling geselecteerde documenten aan de uiteinden van de ordening te kiezen, worden de extreem-scorende voor- en tegenvoorbeelden aan de ‘exclusieve’ correlatie onttrokken. Algemeen kan worden geconcludeerd dat de procedure met CODAS redelijk succesvol is in het opsporen van extreem-scorende essays maar dat de grootste winst in het ordenen van de documenten voornamelijk wordt geboekt bij relatief weinig documenten, en dat verder nakijken een marginaal effect heeft. Er kan geconcludeerd worden uit Figuur 17, dat met toenemend aantal nagekeken werkstukken (paarse punten) er steeds meer een verband ontstaat tussen de beoordelingen van CODAS en die van de docent. Kijkt men slechts naar de niet-nagekeken werkstukken, dan ziet men dat dat verband niet verbetert. Er zullen dus tussen de niet-nagekeken documenten altijd gevallen zijn, waarbij de beoordeling van CODAS behoorlijk afwijkt van die van de docent. Om die reden lijkt het dus niet verantwoord een doorslaggevend gewicht toe te kennen aan de beoordeling van CODAS, bijvoorbeeld voor selecterende doeleinden. Als men CODAS wil gebruiken om tijd te besparen bij het nakijken van werkstukken moet men ervan uitgaan dat de beoordelingen die met de methode van CODAS worden verkregen slechts bij benadering en grosso modo een indicatie kunnen zijn van de kwaliteit van het werkstuk, niet voor ieder afzonderlijk geval. Het is dus verstandig, de beoordeling prudent te gebruiken en maatregelen te treffen beoordelingsfouten op te vangen. Men kan in dit verband denken aan het nakijken van alle door CODAS beoordeelde 'onvoldoendes' zodat in ieder geval geen werkstukken ten onrechte onvoldoende worden beoordeeld. Ook kan men verkiezen 'bloemrijk' geschreven werkstukken handmatig na te kijken, omdat deze qua taalgebruik niet representatief zijn voor de populatie van de werkstukken, en dus wellicht door CODAS afwijkend worden beoordeeld. Een indicatie voor dergelijke werkstukken kan worden gevonden in de verhouding van het aantal 'typen' met het aantal 'tokens', die door CODAS worden aangegeven voor ieder document. Het aantal 'typen' in het document is het aantal uniek voorkomende woorden, het aantal 'tokens' is het totaal aantal woorden in het document. Als de typen/tokens ratio hoog is, gebruikt men dus relatief een grote woordenschat voor de lengte van het document, hetgeen het desbetreffende document afwijkend kan plaatsen t.o.v. de overige documenten in de populatie.

12.5.1 Evaluatie van CODAS op basis van de eerste fase

CODAS is als programma ter detectie van fraude een goed bruikbaar hulpmiddel, zeker in combinatie met tekstvergelijkingsprogramma's zoals de documentenvergelijkingsmodule in Microsoft Word. Fraudegevallen komen gemakkelijk aan het licht, zelfs als de personen in kwestie zich veel moeite hebben getroost hun fraude te maskeren door synoniemgebruik of gewijzigde zinsconstructies. CODAS is ook als hulp bij het nakijken van essayvraagstukken te gebruiken, blijkens de redelijke correlatie die de rangordening van CODAS had met de cijfers van de docent. Het meest efficiënt is het daarbij, niet meer dan drie of vier beoordelingscategorieën te gebruiken. De benchmarktest noopt evenwel tot bezinning bij het gebruik, daar de resultaten aangeven dat er in individuele gevallen grote verschillen kunnen rijzen tussen de beoordeling van een menselijke waarnemer en

Flexibilisering van Toetsing

pagina 82 van 86

die van CODAS. De verschillen zijn strategisch te ondervangen door alle 'onvoldoende'-gescoorde essays met de hand na te kijken, en door de studenten de gelegenheid te geven verhaal te halen n.a.v. hun beoordeling, en ze de mogelijkheid te geven hun essay door een persoon te laten beoordelen. De resultaten van de benchmarktest wijzen in de richting dat CODAS niet moet worden gebruikt voor schrijfopdrachten waarvan het gewicht van de beoordeling niet op zich zelf selecterend is, omdat de methode niet garandeert dat in alle individuele gevallen de beoordeling juist is. CODAS lijkt vooral inzetbaar te zijn voor tussentijdse, activerende schrijfopdrachten, waarvoor de capaciteit voor de docent om de werkstukken na te kijken anders niet toereikend zou zijn, en waarvoor het gewicht van de beoordeling gering is.

12.6 Tweede fase analyse van werking CODAS: test in de praktijk (Draaijer en Reumer 2004)

Uit de eerste fase van de analyse is gebleken dat CODAS geen instrument is dat ‘stand-alone’ essayvraagstukken kan nakijken zoals dat gewenst is voor high-stakes testing. Daarvoor is de validiteit van de beoordelingen van CODAS te weinig gewaarborgd, en kunnen in individuele gevallen de beoordelingen van CODAS en van een menselijke waarnemer te zeer uiteenlopen. Wel is het geschikt om in te zetten voor bijvoorbeeld summatieve tussenopdrachten, waarbij aan dergelijke opdrachten bijvoorbeeld slechts bonuspunten toegekend kunnen worden ten bate van de eindbeoordeling. Een docente die een derdejaars cursus ‘Massacommunicatie en Journalistiek’ verzorgt, wilde dat haar cursus een onderdeel bevatte dat studenten zelf op zoek moeten gaan naar informatie en deze actief verwerken in een paper. Het beslag op haar tijd moest echter beperkt blijven. Daarom besloot zij CODAS in te zetten in haar cursus in het academisch jaar 2003/2004. Gedurende de cursus kregen de studenten twee essayopdrachten mee. Deze opdrachten zijn te vinden via http://student.fsw.vu.nl/ba/cw/mcj/opdrachten.xml. In het kort luidden de opdrachten: Opdracht 2 - Patronen in het nieuws tijdens de verkiezingscampagne van 2003 Evenals bij de Tweede Kamerverkiezing van 2002 is door de afdeling communicatiewetenschap aan de VU onderzoek gedaan naar patronen in het nieuws tijdens de verkiezingscampagne van 2003. De gegevens zijn inmiddels verzameld, maar nog niet gepubliceerd. In deze opdracht ga je aan de hand van een aantal tabellen zelf conclusies trekken over de karakteristieken van het verkiezingsnieuws van 2003. Analyseer daarvoor eerst de gegevens en schrijf daarna een logisch opgebouwd en met argumenten onderbouwd betoog, waarin je aangeeft welke effecten te verwachten zijn bij de gevonden nieuwspatronen. Maak in je argumentatie gebruik van de theorie zoals die besproken wordt in ‘De puinhopen in het nieuws’ (Kleinnijenhuis e.a. 2003). Het betoog moet minimaal 500 woorden en maximaal 750 woorden lang zijn. Het betoog dient een doorlopend verhaal te vormen, zonder tussenkopjes en zonder tabellen. De vragen die in de opdrachtomschrijving geformuleerd worden, moeten in het betoog niet herhaald worden. Het is belangrijk de opdracht niet samen met andere studenten te schrijven, omdat CODAS dergelijke opdrachten zal herkennen als identieke opdrachten. Opdracht 3 - De invloed van mediaroutines op nieuwsartikelen Shoemaker en Reese behandelen verschillende factoren die invloed hebben op de invloed van het nieuws. In deze opdracht draaien we de volgorde om. Je analyseert een aantal krantenartikelen en probeert op die manier te verklaren waarom deze artikelen in deze vorm nieuws werden. De analyse beperkt zich tot nieuwswaarden en het gebruik van bronnen.

Flexibilisering van Toetsing

pagina 83 van 86

Een aantal krantenartikelen zijn beschikbaar als pdf-bestand. Vier artikelen zijn afkomstig van de voorpagina van Trouw, vier artikelen zijn afkomstig van de voorpagina van AD. Lees de artikelen aandachtig. Deze artikelen zijn ook in de algemene map van BSCW geplaatst. Analyseer eerst de gegevens en schrijf vervolgens een logisch opgebouwd en met argumenten onderbouwd betoog, waarin je verklaart welke gevolgen nieuwswaardefactoren en bronnen hebben gehad op de vorm en inhoud van deze artikelen. Maak in je argumentatie gebruik van de theorie zoals die besproken wordt in Shoemaker en Reese (1996) en in het artikel van Galtung en Ruge (1965). De studenten werden van tevoren geïnformeerd dat CODAS zou worden gebruikt om de opdrachten te beoordelen. De opdrachten leverden in totaal één bonuspunt op voor het tentamen als de opdrachten beide met een voldoende werden beoordeeld. 90 van de 140 studenten die deelnamen aan de cursus maakten deze opdrachten en leverden deze in. De docente ordende de documenten met behulp van CODAS op een 3-puntsschaal: ‘goed’, ‘voldoende’, ‘onvoldoende’. Studenten die een onvoldoende scoorden, kregen geen bonuspunt. De docente beoordeelde handmatig, per opdracht, ongeveer 20 van de 80 ingeleverde werkstukken. Op basis daarvan werden de overige 75% van de opdrachten door CODAS beoordeeld. Alle toegekende onvoldoendes beoordeelde de docente zelf nog handmatig om er zeker van te zijn dat de onvoldoendes in haar ogen terecht waren toegekend. Zij gaf haar studenten binnen enkele dagen na het inleveren van de opdrachten, het cijfer terug. Er kwam geen spontaan commentaar van de studenten terug op de beoordeling. Kennelijk vonden ze dat het cijfer genoeg in overeenstemmin was met de waarde die zij zelf zouden geven. Er is door Onderwijscentrum VU daarop nader onderzocht of dat beeld correct was. Daarvoor werd via een online vragenlijst nagevraagd of studenten het eens waren met het cijfer dat zij hadden gekregen voor de opdrachten. De resultaten voor beide opdrachten waren vergelijkbaar. Voor de beknoptheid geven we in onderstaande tabel echter slechts de resultaten weer die horen bij opdracht 3.

Tabel 15 De beoordeling van CODAS ten opzichte van de zelf-beoordeling door studenten

beoordeling CODAS

zelf -

beoordeling

goed vol-

doende

onvol-

doende

Eind-totaal

Hoger dan

CODAS

5 0 5

Gelijk aan

CODAS

6 14 1 21

Lager dan

CODAS

3 2 5

Weetniet 0 1 2 3

Eindtotaal 9 22 3 34

De tabel toont dat sommige studenten vonden dat ze wel een hogere waardering hadden mogen krijgen (5 studenten die een goed i.p.v. een voldoende zouden willen hebben), sommigen zelfs dat ze wat lager zouden mogen worden beoordeeld (3 zouden voldoende goed genoeg hebben gevonden, 2 zelfs dat ze een onvoldoende hadden mogen krijgen), maar dat het merendeel, ongeveer twee-derde, van de studenten was het eens met het m.b.v CODAS gegeven beoordeling.

Flexibilisering van Toetsing

pagina 84 van 86

Bovendien is gevraagd of studenten de schrijfopdrachten nuttig vonden in het kader van de cursus en of ze hebben geholpen beter voorbereid te zijn op het tentamen. Hieruit bleek dat het overgrote deel van de studenten de opdrachten nuttig tot zeer nuttig vonden, en het merendeel door de opdrachten in enige mate beter voorbereid was op het tentamen. Kortom, CODAS is inderdaad een prettig, overzichtelijk en goed instrument voor inzet in het onderwijs. Niet op het terrein van high-stakes testing, maar wel degelijk om studenten ‘aan het schrijven’ te krijgen, waarbij de nakijklast van beoordelaars beperkt wordt.

Flexibilisering van Toetsing

pagina 85 van 86

Literatuurlijst

Biesbroek, I., I. Folkerts, et al. (2003). Perception getoetst, Op Weg Project ‘Digitaal toetsen met Perception, Hanzehogeschool Groningen. Dousma, T. and e. al (1997). Tentamineren, Wolters-Noordhoff. Draaijer, S. and C. Reumer (2004). "CODAS in de praktijk." Examens. Graaff, R. d., M. E. v. d. Hulst, et al. (2002). Het afnemen van toetsen met de computer. Toetsen in het Hoger Onderwijs. H. v. Berkel and A. Bax, Bohn Stafleu Van Loghum: Hoofdstuk 5. Hamaker, C. (1986). "The effects of adjunct questions on prose learning." Review of Educational Research 56(2): 212-242. Heijmen-Versteegen, I. (2002). Waar ligt de grens? Cesuur bij voortgangstoetsing. Eindhoven, Fontys Hogescholen, Facilitair Bedrijf, afdeling Onderwijs. Leiblum, M. D. (1994). Biological Psychology for first year University Students. De kwaliteiten van computer ondersteund onderwijs. M. J. A. Mirande. Bussum, Coutinho. Mazur, E. (1997). Peer Instruction: A User's Manual. Upper Saddle River, Prentice Hall. Mirande, M. J. A. (1994). Deel IV Efficiënte toetsing en toetsvoorbereiding. De kwaliteiten van computer ondersteund onderwijs. Bussum, Coutinho. Staal, R., P. Boekbinder, et al. (1994). Computertests in a first year Engineering Mechanics Course. International conference on Computer Aided Learning and Instruction in Science and Engineering (CALISCE), Paris. Staal, R., S. Kunst, et al. (1993). "Computer aided tests to facilitate regular selfstudy." Tuckman, B. W. (2000-2003). USING FREQUENT TESTING TO INCREASE STUDENTS' MOTIVATION TO ACHIEVE, The Ohio State University. Verheul, I. (1994). Misverstanden over Toetsen, Ondewijsadviesbureau Vrije Universiteit. Verwijnen, G. M., M. C. Pollemans, et al. (1995). Voortgangstoetsing. Medisch onderwijs in de praktijk. J. C. M. Metz, A. J. J. A. Scherpbier and C. P. M. v. d. Vleuten. Assen, Van Gorcum: 225-231. Vleuten, C. v. d., L. Schuwirth, et al. (in press). "Cross institutional collaboration in assessment: a case on progress testing." Medical Teacher. Walter, J. (1999). Een toetsbank wiskunde. Wiskunde in het hoger beroeps onderwijs, een symposium over de positie van het vak wiskunde in het HBO, Utrecht. Wilbrink, B. (1983). Toetsvragen schrijven. Utrecht/Antwerpen. Wilhelm, P. and L. C. A. Christenhusz (2003). "Studievragen als tentamenvragen." Onderzoek van Onderwijs(december 2003): 61-63. Wolters, G. (1999). Examiner, niet volmaakt, wel goed bruikbaar. Toetsen en ICT in het hoger onderwijs, Stand van zaken en trend in Nederland. G. Heijnen and S. Meeder. Utrecht, Stichting SURF: 97-100.

Flexibilisering van Toetsing

pagina 86 van 86