13
FORMATOS DE EXAMEN Y OBJETIVIDAD EN LAS CALIFICACIONES ACADÉMICAS ALFREDO FIERRO (`) CARLUS FIERRO-HERNÁNDEZ (*) Nábleme del tercer acto de Hamlet. El alumno no sabfay el profesor le dijo; Queda usted suspendido. Y la verdad es gue tambtEn Shakes- peare hubiera quedado sus^endido porqur la división en actos y escenas es posterior a fl, una decistón de !os editares. Ysi a mi mc pidieran que habinse de una página de El Aleph, también quedaria suspendido. Qorge Luis Borges) RESUMEN. Se comparan los resultados de examen en modalidades distintas de evaluación y calificación de alumnos. Las modalidades estudiadas en dos grupos dis- tintos de alumnos han sido: examen objetivo, a manera de test, de respuestas cerra- das; corrección de frases•, preguntas breves; tema de desarrollo. Excepto esta última modalidad, las demás han mostrado elevadas correlaciones entre s(. Respecto a ellas, no cabe decir que alguna sea significativamente más equitativa que otras en la califi- cación. Por otro lado, sin embargo, la elevada correlación entre las mismas es compa- tible con la circunstancia de que para alumnos concretos el resultado es muy distinto en una u otra modalidad. En la universidad española los exámenes tienen un prota gonismo académico, unas peculiaridades de formato y una trascen- dencia para la futura carrera profesional, que no encuentran parann en otros siste- mas universitarios. Una discusión sobre la validez de los formatos convencionales de examen, y de la consiguiente eqttidad de las calificaciones que derivan de ellos, diffcil- mente podrfa interesar a un profesor britá- nico o germano, cuya tradición académica se adhiere a otros modos de evaluación de los conocimientos y destrezas de los estu- diantes. Sin embargo, también en otros pa(ses, dentro o fuera del ámbito universi- tario, existen procedimientos selectivos que corresponden a un modelo de examen, y que merecen ser analizados y discutidos desde p rincipios y criterios proptos de una disciplina de evaluación. (*) Universidad dc Malaga. Revista de Educ•ación, núm. 322 (2000), pp. 291- ^04 291 Fecha de entrada: 31-01-2000 Frcha dr acrptarión: 12-04-2000

formatos de examen y objetividad en las calificaciones

Embed Size (px)

Citation preview

FORMATOS DE EXAMEN Y OBJETIVIDAD EN LAS CALIFICACIONESACADÉMICAS

ALFREDO FIERRO (`)CARLUS FIERRO-HERNÁNDEZ (*)

Nábleme del tercer acto de Hamlet. El alumno no sabfay el profesorle dijo; Queda usted suspendido. Y la verdad es gue tambtEn Shakes-peare hubiera quedado sus^endido porqur la división en actos y escenases posterior a fl, una decistón de !os editares. Ysi a mi mcpidieran quehabinse de una página de El Aleph, también quedaria suspendido.

Qorge Luis Borges)

RESUMEN. Se comparan los resultados de examen en modalidades distintas deevaluación y calificación de alumnos. Las modalidades estudiadas en dos grupos dis-tintos de alumnos han sido: examen objetivo, a manera de test, de respuestas cerra-das; corrección de frases•, preguntas breves; tema de desarrollo. Excepto esta últimamodalidad, las demás han mostrado elevadas correlaciones entre s(. Respecto a ellas,no cabe decir que alguna sea significativamente más equitativa que otras en la califi-cación. Por otro lado, sin embargo, la elevada correlación entre las mismas es compa-tible con la circunstancia de que para alumnos concretos el resultado es muy distintoen una u otra modalidad.

En la universidad española los exámenestienen un protagonismo académico, unaspeculiaridades de formato y una trascen-dencia para la futura carrera profesional,que no encuentran parangón en otros siste-mas universitarios. Una discusión sobre lavalidez de los formatos convencionales deexamen, y de la consiguiente eqttidad de lascalificaciones que derivan de ellos, diffcil-mente podrfa interesar a un profesor britá-

nico o germano, cuya tradición académicase adhiere a otros modos de evaluación delos conocimientos y destrezas de los estu-diantes. Sin embargo, también en otrospa(ses, dentro o fuera del ámbito universi-tario, existen procedimientos selectivosque corresponden a un modelo de examen,y que merecen ser analizados y discutidosdesde principios y criterios proptos de unadisciplina de evaluación.

(*) Universidad dc Malaga.

Revista de Educ•ación, núm. 322 (2000), pp. 291- ^04 291Fecha de entrada: 31-01-2000 Frcha dr acrptarión: 12-04-2000

El examen tipo, que constituye el ám-bito de referencia del presente estudio, serealiza por escrito, comporta un fuertecomponente memorístico, puesto que alexaminando no se le permite consultar li-bros o apuntes, y tiene un contenido es-tándar, aplicado a veces a centenares dealumnos o candidatos, en una o varias au-las a la vez. A ese prototipo obedecen, enEspaña, no sólo la mayoría de los exáme-nes universitarios, sino también muchosexámenes en el Bachillerato, las pruebasde acceso a la universidad y al gunos ejerci-cios en concursos-oposición de acceso a lafunción pública, en este caso, incluso, conun mismo formulario de prueba en distin-tas ciudades a la vez. Ese género de exa-men representa, pues, toda una institu-ción y no solo en la universidad española.

Ser examinado es un modo especialde ser evaluado. Es una evaluación cuyosresultados repercuten, y a veces de mododecisivo, en la vida personal y no sólo en lacarrera: en forma de ser aprobado o no, deobtener o no una plaza, un tftulo, de al-canzar tal o cual puntuación que, a su vez,computará al lado de otras puntuaciones yméritos. El examen, y la correspondientecalificación, constituyen un filtro institu-cional de suma relevancia, en una socie-dad que dice ser meritocrática y no discri-minativa, excepto por las capacidades ylos méritos.

La exacta delimitación del tema re-quiere puntualizar que existen muchosmodos y ámbitos de evaluación, ademásdel examen. Pueden y deben ser objeto deevaluación los procesos de ensefianza y nosólo los resultados de aprendizaje. Ademáses posible y necesaria la evaluación de losprocesos de aprendizaje, de adquisiciónde destrezas, y no únicamente los produc-tos de nuevos conocimientos. En fin, esrecomendable realizar la evaluación de losalumnos sin ob '̂etivos de criba, ni de cali-ficación, con Eines de información paraellos mismos -alcanzable también me-diante prácticas de autoevaluación-y para

los docentes. Los exámenes, en suma,constituyen una forma particular de eva-luación. Son, además, una forma pedagó-gicamente cuestionable -una cosa es apro-bar, otra aprender-, no precisamentefavorita de los estudiosos en sociolo g(a yteoría de la educación y en metodologfaevaluativa (Castells, 1989; Stufflebeam yShinkfield, 1985, 1987; Wilson, 1992),los cuales suelen pasar de largo ante el exa-men tipo, aunque, por otra parte, reco-nozcan que nada influye tanto en los mo-dos de estudio de los alumnos como elmodo en que saben que van a ser exami-nados. Por cuestionable que sea, el caso es,pues, que el modo de examen:

• ^asa a ser, retroactivamente, unactor influyente, crucial, en el pro-

ceso de enseñanza y aprendizaje,formando parte así de la actividadmisma de instrucción;

• llega incluso a ser un factor quemodifica (eventualmente, defor-ma) el núcleo del Currículo o plande estudios establecido; y, en con-secuencia,

• es importante identificar las mejo-res formas prácticas, no ya sólo deevaluar, sino de examinar ( Biggs,1999; Gettinger, 1988; Lazarus,1993).

Todo lo anterior vale, también, parala enseñanza universitaria. También enella hay que examinar y no sólo evaluar,aunque ésa sea una de las tareas c^ue losprofesores juzgan menos gratihcantes(Gros y Romaña, 1995).

Para el investigador famiiiarizado conla tecnologfa de las pruebas psicométricas,resulta tentador abordar el asunto en tér-minos semejantes al de la fiabilidad y vali-dez de los tests. Al fin y al cabo, se rrata deuna variedad de éstos: son tests de conoci-miento. Cabe entonces incorporar tam-bién, por consiguiente, elementos de aná-lisis psicométrico, como los de la reoría de

292

la respuesta al item (as(, Rivas, Jornet ySuárez, 1995). Sin embargo, la es pecíficanaturaleza las consecuencias de los exá-menes acaáémicos o selectivos, frente a lostests psicométricos, les constitu yen en unaespecie muy singular de prueba, dondetambién es preciso idear y practicar proce-dimientos especfficos de recogida de in-formación pertinente, en orden a estable-cer su fiabilidad y validez.

Un enfoque de validez predictiva, ode criterio, respecto a un futuro profesio-nal, salvo que éste se tome a largo plazo,podrfa incurrir en circularidad. Exámenesy expediente académico contribuyen acrear el futuro inmediato de los estudian-tes y no meramente a predecirlo. Dado elpeso clue las calificaciones suelen tener enlos inicios de la carrera laboral de cual-quier graduado, habr[a que esperar algu-nos años para poder utilizar los logrosprofesionales como criterio de referenciapara las calificaciones, y aun, entonces, loserta para el promedio de éstas, y no ^arala nota académica en tal o cual materta.

La validez de un examen tiene quever, ante todo, con la apropiada represen-tación muestral del dominio de conoci-mientos que intenta someter a prueba. Sinembargo, no es fácil establecer con rigor lavalidez de contenido de un examen, a par-tir de su carácter de muestra representati-va, extrafda de algún universo o corpus deconocimientos que el alumno debe po-seer. Salvo que ese corpus esté perfecta-mente acotado en un catecismo, una listao un manual, carece de sentido atenerse aese proceder, que si acaso vale al poner aprueba los conocimientos del alumno, enconjuntos claramente delimitados, comouna tabla, un (éxico o un código civil.Ahora bien, ninguno de los tramos de laenseñanza, y mucho menos la universita-ria, se propone aleccionar sólo en tales gé-neros de conjuntos cerrados; como mínrmo, pretende también instruir en cómoentenderlos y manejarlos. Qué debe co-nocer un examinando suele formar parte

de la clase de las categorfas difusas (Rosch,1978). Un dominio, quizá, con núcleosprototfpicos indudables, pero que se vandifuminando hacia la periferia en contor-nos un tanto borrosos, lo que suele servir,por otra parte, para graduar la calificaciónentre el mero aprobado y el sobresaliente.

Para hacerla todavta más compleja, laconfección de pruebas académicas fiables,válidas y -si posible fuera- normaiizadas,encuentra una dificultad afiadida. Unmodelo de examen, con tales o cuales con-tenidos concretos, apropiadamente vali-dado al modo usual de los tests psicomé-tricos, sólo puede utilizarse una vez, enuna convocatoria. Por su mero uso en unaocasión, queda invalidado para la si guien-te, puesto que los examinandos saben osos echan de antemano acerca del conte-níd^o del mismo. Ast, pues, mientras quelas pruebas psicométricas han de ser vali-dadas y normalizadas también en su con-creto contenido de unos elementos deter-minados, las pruebas académicas y lasselectivas necesitan de validación, másbien en cuanto a formato y a tipo de Item,pero no normalizadas en cuanto a conte-nido concreto, que suele quedar fuera deuso con una sola aplicación. En la valida-ción de un examen -aparte de su perti-nencia a un dominio acotable, aunquequizá difuso, de conocimiento- pasa aprimer plano el formato de pnieba. Tam-poco este rasgo es exclusivo de los exáme-nes. En realidad, en toda clase de pruebas,y no sólo en las académicas o en aquéllasdonde se com^rueba el grado de instruc-ción, conocimiento y destrezas de los suje-tos, el formato puede Ilegar a ser tan im-

ortante como el contenido. Cronbach(p1998, p . 202) refiere que las puntuacio-nes, en formas de presentación similares, aveces correlacionan entre sf en grado másalto que las obtenidas en contenidos simi-lares con formas diferentes. La adecuaciónde una prueba, por consiguiente, estl li ga-da a cuestiones de formato, que son lasconsideradas a continuación.

2^),3

A1 prestar atención al formato de exa-men y al modo de su calificación, está jus-tificado colocar el énfasis en una deseablecualidad, no aJ ena a la validez, y que entodo caso resulta crucial en los exámenes,cuando de las calificaciones depende el fu-turo de los examinandos. Es la cualidad deobjetividad> imparcialidad y equidad, tan-to de la prueba como de su calificación.Asumiendo un principio moral de mérito-«a cada uno según sus merecimientos»-,es lo que ante todo suele pedir y tiene de-recho a exigir el examinando o aspirante aser seleccionado, dentro de un sistemacompetitivo: que examen y calificación nosean arbitrarios, no estén sujetos a capri-chos, humores o preferencias personalesdel examinador. La ob'etiva equidad deun examen y de su calificación es segura-mente el más relevante elemento constitu-tivo de su fiabilidad y validez.

Para poder cumplir con el requisitode equidad, cuando es muy elevado el nú-mero de sujetos que han de pasar unaprueba, y quedan fuera de consideraciónotras fórmulas posibles (como el acuerdoentre varios jueces), en muchas pruebasacadémicas o de selección es común acu-dir a la fórmula llamada «prueba objetiva»o examen «tipo test» que luego, además,puede ser corregido mediante lectora óp-tica. Consiste en una lista, más o menosextensa, de (tems> en bloques de tres o másenunciados (hay discusión sobre el núme-ro más apropiado: cf. Del ado y Prieto,1998), donde el examinandgo ha de señalarcuál es verdadero entre otros falsos. Lasprincipales reglas de construcción de estaspruebas de alternativas múlti ples son co-nocidas desde hace tiempo ( Berk, 1984,p 227; Haladyna, 1994; Haladyna yDowning, 1989).

Si los (tems están bien formulados (loque no es fácil, pero tampoco imposible),en pruebas de ese género parecen quedar asalvo la objetividad e imparcialidad, asfcomo también la econom[a de tiempo decorrección, cuando son muchos los exa-

minados. Presentan ventajas a reciables:comparar alternativas e identifí^car la res-puesta correcta, genera menos ansiedad,en los examinandos ue tener que cons-truir una respuesta ^Embretson, 1985).Hay estudios, además, que ponen de ma-nifiesto la alta correlación que exhiben so-bre todo con respuestas de resumen (co-rrelación hasta 85), pero también, aun queno tan elevada, con una composición libre(Breland,1979; Hogan y Mishler,1980).

Sin embargo, ni siquiera con la pon-deración (penalizadora) de las respuestasincorrectas, el formato de pruebas objeti-vas es capaz de eliminar las habilidadespuramente adivinatorias -e irrelevantespara el conocimiento de la materia- que aalgunos examinandos les permiten exce-lentes untuaciones (cf. Cronbach, 1998,pp. 9^ 95). En todo caso, la principalamenaza a la validez de esas pruebas noestá en la interferencia de estrategias adivi-natorias, que son susceptibles de control(Budescu y Bar-Hillel, 1993; Prieto yDelgado, 1999). Está en que adolecen dedos graves sesgos que convertir(an en per-verso un sistema evaluador y selectivo ba-sado sólo en ellas. El primero es que pararesponder correctamente no hace falta sa-ber disertar sobre los temas y ni siquieraescribir. Son pruebas ágrafas, iletradas. Ala postre y a la larga, con tales pruebas po-dr(an llegar a maestros, inspectores, psicó-logos, abogados o jefes administrativos,personas que no supieran redactar un in-forme ni poner por escrito un plan de tra-bajo. El segundo es que valen para propo-siciones mdiscutibles y en matenasaxiomáticas, pero no, o no tanto, paraaquéllas donde el pensamiento cr(tico o elrazonamiento forman parte esencial de lacapacidad, destrezas y conocimientos ad-quiridos. Dicho en términos de psicologtacognitiva: el examen tipo test mide antetodo pensamiento convergente, memoriade reconocimiento, destrezas muy especí-ficas -o acaso trucos- para acertar en ese

294

tipo de prueba, y no otros conocimientosy capacidades.

El doble estudio, del que se informa acontinuación, tiene que ver, no con cues-tiones de contenido, de adecuado mues-treo del dominio de conocimientos por po-ner a prueba, sino con otro elemento nomenos relevante, como ya se ha razonado:el formato de la prueba. Está al servicio deldiseño de modos de examen objetivos> im-parciales, equitativos, ecuánimes, mas noágrafos. Trata de ver si otros formatos, dis-tintos del convencional de «prueba objeti-va», pueden satisfacer igualmente esos re-quisitos sin ^or ello incurrir en los sesgosrecién menaonados; si hay alguna alterna-tiva a las pruebas objetivas, que sin erderobjetividad y ecuanimldad, se halle li^re delos riesgos de efectuar selección profesio-nal, o de conceder titulación universitaria,a espaldas de una competencia discursivaque el exatnen tipo test es mcapaz de captary, en consecuencia, de fomentar retroacti-vamente.

El primer autor utiliza, desde haceaños> un formato de examen que consisteen una lista de enunciados a semejanza delas pruebas objetivas, pero sin bloques, enproposiciones aisladas. En ellas, el exami-nando ha de empezar por identificar cuá-les son verdaderas y cuáles falsas, peroademás -y aqut reside lo peculiar del pro-cedimiento- en las proposiciones falsas hade sustituir los términos inapropiados ojuicios erróneos, por otros que sean co-rrectos. A menudo, esa sustitución puedehacerse de varios modos, todos ellos acer-tados, y también caben grados de calidaden el acierto, grados que serán objeto decalificación, ftem a ftem.

Este formato -se presume- mantieneventajas propias de las pruebas objetivas:la de una alta objetividad en la califica-ción y también rapidez en la corrección.Y quizá no se expone a los inconvenientesde aquéllas: el hecho de que el examinan-do ha de formular por su cuenta juiciosalternativos, cuando los ítems propues-

tos son falsos, contribuye a evitar los ses-gos antes señalados y puede que orientehacia modos más críticos y reflexivos deestudio. Los [tems son corregidos y pun-tuados uno a uno, en escala de cero adiez, y existe penalización cuando nohubo acierto en la identificación correc-to/falso. En el Anexo se recogen las ins-trucciones típicas para este formato deexamen y algunos e}̂ emp los de (tems, asfcomo de sus posibles formulaciones derespuestas certeras.

La finalidad concreta del estudio hasido, pues, ver cómo funciona este formatode examen en comparación con el de laspruebas objetivas convencionales y con al-guna otra modalidad de prueba, tarnbiéntradicional, como es un conjunto de pre-guntas que requieren respuesta breve o eldesarrollo algo más extenso de un tema. Lacom^aración se hace sobre un constructode ^umparcialidad» , «ecuanimidad» y «ob-jetividad», entendida ésta como «no subje-t^vidad», no intrusión en la valoración porparte de la persona c^ue corrige el examen.A falta de otro cnteno, ese constructo va aser operacionalizado del siguiente modo: sepostula como prueba más objetiva, irn par-cial, ecuánime (términos aqui equivalen-tes) aquélla que correlacione con las demáscon valores más altos.

METODO

SUJETOS Y PROCEDIMIENTO

En un primer grupo, 55 alumnos, con latitulación de Psicología, realizaron el exa-men de la materia, con tres formatos dife-rentes de prueba:

Prueba 1(prueba objetiva), de tipo test,con bloques (20 en total} de tres enuncia-dos, para reconocer y rnarcar uno de elloscomo verdadero entre otros falsos (test);

Prueba 2(prueba con lista de enun-ciados singulares, 10 en total), a semejan-za de la prueba objetiva, pero sin bloques,

295

donde era preciso identificar proposicio-nes falsas y sustituir en ellas términos ina-propiados o juicios erróneos por otros co-rrectos (correcci6n);

Prueba 3(preguntas breves, 5 en to-tal) en las que se pedía una respuesta con-cisa y breve, máximo media docena de lí-neas (preguntas).

En un segundo grupo, fueron 82alumnos, con la titulación de Psicopeda-gogta, los que realizaron el examen con losanteriores procedimientos, más una cuar-ta modalidad: propuesta de dos temas, yelección de uno de ellos para ser desarro-llado por el alumno, a manera de ensayo,con una extensión aproximada de un folio(tema).

Los alumnos del primer grupo, dispu-sieron de un máximo de hora y mediapara realizar los tres e^ercicios correspon-dientes a los distintos í^ormatos de prueba.Los del segundo grupo, con un ejerciciomás, dispusieron de dos horas.

Conviene informar acerca de algunasotras circunstancias relevantes, aunque noesenciales, para los fines de la investiga-ción. Los examinandos podían consultarlibros y apuntes. Los contenidos concretosde los diversos formatos de examen tentanque ver más bien con la comprensión cr[ti-ca de los textos estudiados, con la inferen-cia y el razonamiento, más que con la me-morización. Por otra parte, los alumnoshabían sido informados, desde principiode curso, sobre la estructura múltiple delexamen final. Dos semanas antes de éste,realizaron un ejercicio de evaluación «amodo de examen» para familiarizarse sobretodo con el formato de la prueba con listade enunciados sin^ulares, y evitar efectosde sorpresa o desorientación, pero tambiéncon los formatos I y 3, es decir el de laprueba objetiva y el de las preguntas bre-ves, y contribuir as( a paliar posibles dife-rencias entre ellos c^ue pudieran deberse ala experiencia antenor con tales modalida-des de prueba.

EVALUAC16N DE LOS EJERCICIOS

La prueba I fue puntuada con lectora ópti-ca. Las pruebas 2, 3 y 4 fueron corregidaspor el profesor, sobre la base de criterios devaloración previamente establecidos y «aciegas» en el siguiente sentido: sin ver elnombre de cada examinando, y juzgandocada prueba, por separado, en dtas distin-tos, e ignorando, al calificar una prueba, lacalificación obtenida en otra u otras prue-bas ya corregtdas anteriormente.

I,a calificación que recibieron losalumnos fue la media de las tres o cuatropuntuaciones, según la pertenencia al pri-mer o al segundo grupo> respectivamente.Interesa señalar que no se formuló obje-ción o queja alguna acerca del plantea-míento o de los contenídos del examen, niantes ni después del mismo. En una sesiónposterior, los alumnos tuvieron accesotanto a su propio ejercicio, cuanto a une)ercicio «modélico» (ver Anexo), por asfdecir, confeccionado por el profesor comoreferencia de contraste. Tras esa sesiónningún alumno solicitó revisión de su ca-lificación.

RESULTADOS

Las imágenes visuales de la distribuciónde las puntuaciones, de los sujetos, se ob-tienen mediante los diagramas de disper-sión de las mismas. En cada diagrama sóiopueden representarse dos escalas de pun-tuación a la vez. Como muestra se ha ele-gido presentar, en gráfico I, el espacío de-finido Por las puntuaciones del ^rupo 2,en las dos modalidades en principio másafines: la de «test» y la de «corrección». Enel diagrama cabe observar que se dibuja elperfil de una cierta asociación entre los re-sultados en ambas modalidades. Pero, porotra ^arte, aparecen no pocos puntos des-perd^gados, fuera de perfil, algunos inclu-so de modo extremo, en solitario. Así,pues, para unos pocos sujetos el resultado

296

GRÁFICO I

Dispersión de puntuaciones

io

s

6

F

4

2

0

♦ ^ ♦ ♦ ♦

^ _♦ ♦♦ ♦ ♦♦ ♦♦ ♦ ♦

• ♦ w ♦ ♦♦ ♦ ^ •♦ ♦ ♦♦ ^ •

♦ • ♦♦ ^ •♦♦ ♦ ^ ^ ^

♦♦ ♦ ♦ ♦^♦

^ ^

♦ ^

0 2 4

Correccibn

H 10G

Diagrama de dispersión de puntuuiones en lat modalidades de examen y de corrección(grupo l; n = 82)

ha sido completamente dispar de una mo-dalidad a otra, a veces como para diferiren calificación de suspenso a notable.Diagramas semejantes surgen al ubicar losdatos de otras parejas de puntuaciones.En ellos aparecen perfiles análogos, pçrotambién puntos aislados, correspondien-tes a discrepancias grandes para un mismosujeto, entre sus logros en una modalidady en otra. Éste es el resultado de mayor re-lieve a través de los distintos diagramas dedispersibn obtenidos, que, sin embargo,no merece la pena reproducir uno poruno. Más allá de una inspección intuitivade gráficos, es el análisis correlacional elque permite realmente hacerse cargo delas asociaciones entre varíables.

Los resultados del análisis correlacio-nal proporcionan una imagen ya no vi-sual, sino abstracta, pero clara, de las aso-

ciaciones entre las puntuaciones en lasdistintas pruebas. Se han obtenido las co-rrelaciones simples y parciales entre esaspuntuaciones, y, asimismo, entre cadauna de éstas con la media de las restantes ycon la media total.

La tabla I presenta la matriz de esascorrelaciones. En la zona superior decada celda aparecen los valores de corre-lación en el estudio con el primer grupode alumnos; en la inferior, Ios del segun-do grupo. Por otro lado, a la izquierda dela barra inclinada (/) están los valores dela correlación de Pearson; a la derecha,los de la respectiva correlación parcial en-tre las variables respectivas, tras eliminarla asociación ex licable por la otra varia-ble (en grupo l^o las otras dos variables(en grupo 2) de los demás formatos deexamen.

297

TABLA I

' Matriz de correlaciones

Test Corrección Preguntas Tema

Corrección .38* /.19.58* /.18

Preguntas .57* /.48* .43* /.28.58* /.45* .52* /.35*

Tema - - -.30* /.19 .32* /.22 .18 / -.07

Media restantes .46* .56* .60* -.59* .57* .55* .32*

Media .82* .76* .82* -.79* .79* .77* .57*

Los resultados son consistentes de un grupoa otro. La modalidad «tema» queda en losvalores más báJos de relación con las demásmodalidades. En las correlaciones simples,los otros tres formatos de prueba intercorre-lacionan con valores muy semejantes entrest y, como no podfa ser menos, con la notamedia. Estos valores son ligeramente supe-riores en las modalidades «test» y«pregun-tas» frente a«corrección», en el primer gru-po; mientras que en el segundo, los valoresde correlación simple de estas tres variablesson prácticamente idénticos.

EI perfil de las correlaciones parcialestiene alguna particularidad concretada en elformato « pregunta^>. Esta variable conservavalores altos y significativos en su asociacióncon los formatos «corrección» y «test» ,mientras c^ue desciende a casi valor cero,pero negativo, en su correlación con «tema».

Se han efectuado también, para am-bos grupos, los correspondientes análisisde regresión, tomando la puntuación me-dia como variable dependiente y las pun-

tuaciones de modalidad como indepen-diente. Los resultados de este análisis pro-porcionan otra perspectiva aunque, comoes obvio, sobre un mismo paisa^e. Los pe-sos beta ponderados, de la ecuación de re-gresión, han sido de . 43 (primer grupo) y.35 (segundo grupo) para la variable«test»; de .42 y .37, respectivamente, para«corrección»; y de .40 y .33 para «pregun-tas». Los pesos beta descienden, del pri-mer al segundo grupo, por la introduc-ción en éste de la puntuactón en «tema» ,cuyo peso beta es de .30.

Se procedió, en fin, al análisis facto-rial de los resultados, al análisis de loscomponentes principales. En ambos gru-pos pudo extraerse un único factor, por loque no hubo lugar a buscar soluciones ro-tadas. El porcentaje de varianza explicadopor ese factor único, fue de un 64,2%, enel grupo 1 y de un 55>3%, en el grupo 2.La tabla II expone la matriz de compo-nentes, por modalidades de examen, paracada uno de los grupos.

298

'I'ABLA II

Análísís factoríal

Grupo 1 Grupo 2

Corrección .732 .791

Preguntas .844 .804

Tema .529

Test .893 .812

RESULTADOS DEL ANALISIS DE

COMPONENTES PRINCIPALESc SOLUCIÓN DE

UN SOLO FACTOR SIN POSIBILIDAD DE

ROTACIÓN

Lo mismo que sucede en otros análisis, enéste, de componentes principales, la mo-dalidad «tema» queda netamente por de-bajo de las otras, que en cambio aparecencon valores semejantes. Los valores másaltos, con todo, corres ponden al formato«test» y los más bajos al de «corrección».

DISCUS16N

A través de todos los análisis, tres de los ti-pos de examen se presentan con valoresparecidos: «test» , «preguntas» , «correc-ctón». En rincipio, pueden considerarseaproximadámente ígual de ecuánimes. Siel desaf(o era mostrar que el formato de«corrección» es tan equitativo y objetivocomo el de «test» , su equivalencia a eseefecto ha quedado probada. Un resultadono previsto es que el formato de «pregun-tas» breves, aun siendo pocas (cinco), nose queda pcr debajo en esa virtud, antesbien, sobresale. Lo yue menos cab(a espe-rar es que, en las correlaciones parciales,ese formato presenta valores significativosy más altos con «corrección» y aun máselevados con «test» , alcanzando ayuf valo-res de .45 y.48, mientras yue la correla-

ción de estos otros formatos, más cercanosentre sf por contenido, cae a níveles que latornan no significativa.

Es significativo el dato de que el for-mato «preguntas» tenga correlación másalta con «test» que con «corrección». Peroel restlltado más intrigante está en la co-rrelacidn tan baja de «preguntas» con«tema» , cuando ambos formatos, más quelos otros, poseen un elemento en común,que además es del todo ajeno al «test»: laextgencia de que el examinando muestreque es capaz de redactar unos fragmentosde discurso cientlfico. Tan inesperado re-sultado no es interpretable desde las basesy los hallazgos del presente estudio. Suconfirmación, primero, y su interpreta-ción, después, han de aguardar a otros es-cudios que acoten mejor y se centren demanera específica en el formato « pregun-tas», para poder examinar de modo stste-mático sus asociaciones con los formatosde conrenido más contrapuesto: el de tipo«test» y el de «tema».

Entretanto, sí que pueden extraersealgunas conclusiones sólidas respecto alobjeeivo principal del estudio: res pecto ala imparcialidad, ecuanimidad, objetivi-dad -en el sentido aquí manejado- de losdistintos modos de prueba:

• I_os exámencs tipo test, los depreguntas breves y los de correc-ción de frases incorrectas son,

2^)9

aproximadamente, igual de ecuá-nimes, objetivos e imparciales; me-jor dicho, pueden serlo: lo han sidoen el presente estudio, y es razona-ble esperar que oportunos refina-mientos que se introduzcan enellos, contribuyan a mejorarlos,pero, previsiblemente, en mejoraparalela, sin que alguno llegue a des-pegar mucho respecto a los demás.

• Una calificación final extratda apartir de distintos tipos de pruebasiempre será más ecuánime queaquélla que se derive de un solotipo. Sin embargo, no cabe dese-char, como injusto o sesgado, eluso de una modalidad única deprueba entre las tres aqut igualadas:«test» , «corrección» , «preguntas».Las correlaciones que cada una deellas obtiene, en los dos grupos,con la que aqut puede servir de va-riable criterio -la puntuación finalo combinada, de promedio- alcan-zan valores lo bastante elevados(entre .76 y .82) como ^ara poderafirmar que cumplen bien con sufunción, ordenar en su nivel derendimiento a un conjunto de exa-minandos, de calificarlos sin injus-ticia y, en consecuencia, de cum-plir, en su caso, una función socialde selección de candidatos.

• Sin embargo y por desgracia, laecuanimidad conseguida, respectoal conjunto de sujetos, no puedegeneralizarse a todos y cada uno deéstos, tomados uno a uno. Comoa^arece en los diagramas de disper-sión de las puntuaciones (gráficoI), algunos su^etos concretos, de ser

evaluados y calificados por uno uotro formato, llegan a oscilar nadamenos que del notable al suspenso.Permanece, pues, ^endiente lacuestión de la ecuammidad de losexámenes y pruebas de seleccióncon respecto a los individuos.

Quedan abiertas numerosas cuestio-nes que no es posible resolver, a partir deldiseño y de los datos de este estudio: quéperfil de resultados se hubiera obtenido deno haber conocido los sujetos, de antema-no, el modo o modos en que iban a serevaluados; qué mejora en las correlacionesdel formato «tema» podrta haberse logra-do con una corrección por varios jueces;hasta dónde se pueden generalizar los re-sultados a otras situaciones de prueba, ta-les como la valoración de conocimientos,en el primer ejercicio, para la obtencióndel carné de conducir, o las de acceso decandidatos a la función pública, realizadasa veces con grupos multitudinarios; quésentido tiene seleccionar, principalmente,sobre la base de un saber más bien teóricoy libresco, cuando, cada vez más, la selec-ción de personal presta atención, por unaparte, a destrezas prácticas y, por otra, avariables de personalidad ( Borman, Han-son ^ Hedge, 1887; Hogan y Roberts,199b). Mucho menos cabe dar res^uesta aotras cuestiones suscitadas por la influen-cia retroactiva del tipo de examen sobre elaprendizaje: cuáles son las consecuenciaspositivas y negativas de la aplicación de talo cual tipo de prueba; y, sobre todo, cuálesson, a largo plazo, y por efecto acumulati-vo, sobre sucesivas cohortes de estudian-tes. Pero como acostumbra a decirse, sonya otras cuestiones, es ya otra historia, a laque el presente estudio no pod(a atender.

300

BIBLIOGRAFfA

BERK, R. A. (ed.): A guide to criterion-referen-ced testconstruction. Baltimore, John Hop-kins Univ. Press, 1984.

B[c^s, J.: Teaching for guality learning at Uni-versity. Ballmoor, Open University Press,1999.

BpRMAN, W. C.., HANSON, M. A. y HEDf^E, J.

W.: ^<Personnel selection» , en American Re-view ofPsychology, 48 (1997), pp. 299-347.

BRF.LAND, H. M.: Can multiple-choice testsmeasure writing skills? Nueva York, Colle-ge Entrance Examination Board, 1979.

BuDFSCU, D. y BAR-Ht[.F.F:F,, M.: «To guess ornot to guess», en Journal of educationalmeasurement, 14 (1993), pp. 197-201.

CAS'rF,Lls, M.: «Los sistemas de evaluación delas Universidades» , en VARFOS AU^Y^Rf•:S:Hacia una elltsifzcación de las Universidadessegtín criterios de calidad. Madrid, ConsejoUniversidades / Fundación Universi-dad-Empresa, 1989.

Cot,FFS, K. y RoM1iF:RC, 'I'. A.: «Evaluacióndel desempeiio en matemáticas: un análisisde item de pruebas abiertas», en M. C.Wt^-rROCK y E. L. BAKF:R (eds.): 7esty cog-nición, Barcelona, Paidós, 1998.

CRON[iACH, L. J.: Fssentials of psychologicaltesting/Fundamentos de los tests psicológiros.Londres/Madrid, Harper Collins / Biblio-teca Nueva, 1998.

DELGADO, A. R. y PRIL°rc), G.: «Further evi-dence favoring three option in multi-ple-choice tests», en European Journul ofPsychologiral Assessment, 3, 14 ( I 998),PP•197-201.

EMHRF.'rSC)N, S. (ed.): Test desigrt: Develop-ment in Psychology und psychometrics.Orlando, FL, Academic Press, 1985.

FFRNÁNDE"L-VALLINA, J.: «Selección M1R,BIR, FIR, QIR», en VARU^ti AU'I^c^RF^s: Ha-cia unu dasiftCRCtÓn de llls Universidades se-

gún criterios de calidad. Madricí, ConsejoCJniversidades/Fundación Universidad-Empresa, 1989.

GFTr ► NGF:R, M.: «Analogue asessment: Eva-luating academicabilities» , en E. S. SF-FAt'1-Ro y T. R. KRA'rocHWU.F. (eds.): Behavio-ral assessment in schools. Nueva York,Guilford, 1998.

GROS, B. y Rc)MAÑA, T.: Serprofesor: palabras

sobre lu docencia universitaria. Barcelona,

Univ. Barcelona, 1995.

HALADYNA, T. M.: Developing and validating

multiple-choice test items. Hillsdale, N.J., L.Erlbaum, 1994.

HA[ADYNA, T. M. y Do^wNtN^, S. M.: «A ca-xonomy of multiple-choice item-writingrules», en Applied measurement in Educa-tion, 2 (1989), pp. 37-50.

Hoc;AN, T. P. y MFSHF.F:R, C.: «Relationshipsbetween essay tests and objective tests oflanguage skills for elementary school stu-dents», en Journal of F_ducational Measure-ment, 17 (1980), pp. 219-227.

Hcx.AN, R. H.; HocAN, J. y Roar:R'1's, B. W.:«Personality mea.curement and employ-ment decisions», en American Psychologist,51 (199G), pp. 469-477.

LAMO nh: Esl'tNOSA, E.: «Evaluación de la cali-dad de la enseñanza» , en VARFUS AUI'c^RES:Hacia una clasifrcaci6n de las Universidadessegzín criterios de calidud. Madrid, ConsejoUniversidades / Fundación Universidad-Empresa, 1989.

LAíARUti, B.: «Best practices in assessing aca-demic achievement», en H. B. VANCE(ed.): Best pructices in ussessment for schouland c•linicul settings. Brandon, ClinicalI'sychology I'ublishing, 1993.

LF^.N't'^, F^. E.: «Direct observation and measu-rement of academic skills: a conceptual re-view», en E. S. SHAP ► RO y"1'. R. KRA'roca► -WFF.L (eds.): Behavioral assessment insc'hools. Nueva York, Guilford, 1998.

O.C.D.E.: Escuelas y calidad de la enseñanza.Madrid/Barcelona> M.F,.C.IPaidós, 1991.

I'Rtr'.'rc^, G. y Dr.1.cnDC^, A. R.: «The efféct ofinstructians on mulriple-choice test sco-res», en Furopean Journal of I'syrhoingicalAssessrnent, 2, 15 (1999), pp. 143-1 S0.

301

Rivns, F.; JORNET, J. y SuñxEZ, J. M.: «Eva-luación del aprendizaje escolar», en F.S ►LVA (ed.): Evaluación psicológica en niñosy adolescentes. Madrid, Slntesis, 1995.

RosCx, E.: «Principles oi categorizations» , enE. RoscH y B. B. LLOr^ (eds.): Cognitionand categorization. Hillsdale, N. J., L.Erlbaum, 1978.

SCHUN, D. A.: Lrt formación de profesianales refle-xirro^ MadricVBat^o^lona, MEC / Paidós,1992.

STUFFLEBEAM, D. L. y SHINKFIELD, A. J.:Evaluación sistemática: gula teórica y prácti-ca. Madrid/Barcelona, MEC / Paidós,1987.

Tn.Ett, R. W.: «General statement on evalua-tion», en Journal ofeducational research, 35(1942), pp. 492-501.

WILSON, J. D.: Cómo valorar la calidad de !uenseñanza. Barcelona/Madrid, Paidós /MEC 1992.

302

ANEXO

EJEMPLOS DE fTEMSEN EL FORMA"I'O«CORRECCIÓN»

I. La Psicologfa se ha interesadomás por aspectos funcionales quepor aspectos estructurales delcomportamiento.

2. Aprendizaje es todo cambio deconducta en un individuo.

3. Hay en América más personasque hablan el castellano que enEuropa.

EJEMPLOS DE SU POSIBLE«CORRECC16N»

I. La Psicología no se ha interesadoapenas [más] por aspectos estruc-turales [que] y s>r, casi exclusiva-mente, por aspectos funcionalesdel comportamiento.

2. AprendizaJ'e es todo cambio en elpotencial de conducta en un indi-viduo como consecuencia de lapráctica o de la experiencia.

3. (es verdadera)

:^( ► :^