FORMATOS DE EXAMEN Y OBJETIVIDAD EN LAS …

eFORMATOS DE EXAMEN Y OBJETIVIDAD EN LAS CALIFICACIONES

ACADÉMICAS

ALFREDO FIERRO ()CARLOS FIERRO-HERNÁNDEZ el

Hábleme del urcer acto de Hamlet. El alumno no sabía y e profesorie diio: Queda usted suspendido. Y la verdad es que también Shakes-peare hubiera quedado suspendido porque la división en actos y escenases posterior a él. una decisión de los editores. Ya a mí me pidieran quehablase de una página de El Aleph, tambien quedaría suspendido.

(Jorge Luis Borgcs)

RESUMEN. Se comparan los resultados de examen en modalidades distintas deevaluación v calificación de alumnos. Las modalidades estudiadas en dos grupos dis-tintos de alumnos han sido: examen objetivo, a manera de test, de respuestas cerra-das; corrección de frases; preguntas breves; tema de desarrollo. Excepto esta últimamodalidad, las demás han mostrado elevadas correlaciones entre sí. Respecto a ellas,no cabe decir que alguna sea significativamente más equitativa que otras en la califi-cación. Por otro lado. sin embargo, la elevada correlación entre las mismas es compa-tible con la circunstancia de que para alumnos concretos el resultado es muy distintoen una u otra modalidad.

En la universidad española los exámenestienen un protagonismo académico, unaspeculiaridades de formato y una trascen-dencia para la futura carrera profesional,que no encuentrann en otros siste-mas universitarios. rialEcusión sobre lavalidez de los formatos convencionales deexamen, y de la consiguiente equidad de lascalificaciones que derivan de ellos, dificil-mente podría interesar a un profesor britá-

nico o germano, cuya tradición académicase adhiere a otros modos de evaluación delos conocimientos y destrezas de los estu-diantes. Sin embargo, también en otrospaíses, dentro o fuera del ámbito universi-tario, existen procedimientos selectivosque corresponden a un modelo de examen,y que merecen ser analizados y discutidosdesde principios y criterios propios de unadisciplina de evaluación.

(*) Universidad de Málaga.

Revista de Educación, núm. 322 (2000), pp. 291-304

291Fecha de entrada: 31-0 I -2000

Fecha de aceptación: 12-04-2000

El examen tipo, que constituye el ám-bito de referencia del presente estudio, serealiza por escrito, comporta un fuertecomponente memorístico, puesto que alexaminando no se le permite consultar li-bros o apuntes, y tiene un contenido es-tándar, aplicado a veces a centenares dealumnos o candidatos, en una o varias au-las a la vez. A ese prototipo obedecen, enEspaña, no sólo la mayoría de los exáme-nes universitarios, sino también muchosexámenes en el Bachillerato, las pruebasde acceso a la universidad y algunos ejerci-cios en concursos-oposición de acceso a lafunción pública, en este caso, incluso, conun mismo formulario de prueba en distin-tas ciudades a la vez. Ese género de exa-men representa, pues, toda una institu-ción y no solo en la universidad española.

Ser examinado es un modo especialde ser evaluado. Es una evaluación cuyosresultados repercuten, y a veces de mododecisivo, en la vida personal y no sólo en lacarrera: en forma de ser aprobado o no, deobtener o no una plaza, un título, de al-canzar tal o cual puntuación que, a su vez,computará al lado de otras puntuaciones yméritos. El examen, y la correspondientecalificación, constituyen un filtro institu-cional de suma relevancia, en una socie-dad que dice ser meritocrática y no discri-minativa, excepto por las capacidades ylos méritos.

La exacta delimitación del tema re-quiere puntualizar que existen muchosmodos y ámbitos de evaluación, ademásdel examen. Pueden y deben ser objeto deevaluación los procesos de enseñanza y nosólo los resultados de aprendizaje. Ademáses posible y necesaria la evaluación de losprocesos de aprendizaje, de adquisiciónde destrezas, y no únicamente los produc-tos de nuevos conocimientos. En fin, esrecomendable realizar la evaluación de losalumnos sin objetivos de criba, ni de cali-ficación, con fines de información paraellos mismos —alcanzable también me-diante prácticas de autoevaluación— y para

los docentes. Los exámenes, en suma,constituyen una forma particular de eva-luación. Son, además, una forma pedagó-gicamente cuestionable —una cosa es apro-bar, otra aprender—, no precisamentefavorita de los estudiosos en sociología yteoría de la educación y en metodologíaevaluativa (Castells, 1989; Stufflebeam yShinkfield, 1985, 1987; Wilson, 1992),los cuales suelen pasar de largo ante el exa-men tipo, aunque, por otra parte, reco-nozcan que nada influye tanto en los mo-dos de estudio de los alumnos como elmodo en que saben que van a ser exami-nados. Por cuestionable que sea, el caso es,pues, que el modo de examen:

• pasa a ser, retroactivamente, unfactor influyente, crucial, en el pro-ceso de enseñanza y aprendizaje,formando parte así de la actividadmisma de instrucción;

• llega incluso a ser un factor quemodifica (eventualmente, defor-ma) el núcleo del currículo o plande estudios establecido; y, en con-secuencia,

• es importante identificar las mejo-res formas prácticas, no ya sólo deevaluar, sino de examinar (Biggs,1999; Gettinger, 1988; Lazarus,1993).

Todo lo anterior vale, también, parala enseñanza universitaria. También enella hay que examinar y no sólo evaluar,aunque ésa sea una de las tareas que losprofesores juzgan menos gratificantes(Gros y Romaña, 1995).

Para el investigador familiarizado conla tecnología de las pruebas psicométricas,resulta tentador abordar el asunto en tér-minos semejantes al de la fiabilidad y vali-dez de los tests. Al fin y al cabo, se trata deuna variedad de éstos: son tests de conoci-miento. Cabe entonces incorporar tam-bién, por consiguiente, elementos de aná-lisis psicométrico, como los de la teoría de

292

la respuesta al item (así, Rivas, Jornet ySuárez, 1995). Sin embargo, la específicanaturaleza y las consecuencias de los exá-menes académicos o selectivos, frente a lostests psicométricos, les constituyen en unaespecie muy singular de prueba, dondetambién es preciso idear y practicar proce-dimientos específicos de recogida de in-formación pertinente, en orden a estable-cer su fiabilidad y validez.

Un enfoque de validez predictiva, ode criterio, respecto a un futuro profesio-nal, salvo que éste se tome a largo plazo,podría incurrir en circularidad. Exámenesy expediente académico contribuyen acrear el futuro inmediato de los estudian-tes y no meramente a predecirlo. Dado elpeso que las calificaciones suelen tener enlos inicios de la carrera laboral de cual-quier graduado, habría que esperar algu-nos arios para poder utilizar los logrosprofesionales como criterio de referenciapara las calificaciones, y aun, entonces, losería para el promedio de éstas, y no parala nota académica en tal o cual materia.

La validez de un examen tiene quever, ante todo, con la apropiada represen-tación muestral del dominio de conoci-mientos que intenta someter a prueba. Sinembargo, no es fácil establecer con rigor lavalidez de contenido de un examen, a par-tir de su carácter de muestra representati-va, extraída de algún universo o corpus deconocimientos que el alumno debe po-seer. Salvo que ese corpus esté perfecta-mente acotado en un catecismo, una listao un manual, carece de sentido atenerse aese proceder, que si acaso vale al poner aprueba los conocimientos del alumno, enconjuntos claramente delimitados, comouna tabla, un léxico o un código civil.Ahora bien, ninguno de los tramos de laenseñanza, y mucho menos la universita-ria, se propone aleccionar sólo en tales gé-neros de conjuntos cerrados; como míni-mo, pretende también instruir en cómoentenderlos y manejarlos. Qué debe co-nocer un examinando suele formar parte

de la clase de las categorías difusas (Rosch,1978). Un dominio, quizá, con núcleosprototípicos indudables, pero que se vandifuminando hacia la periferia en contor-nos un tanto borrosos, lo que suele servir,por otra parte, para graduar la calificaciónentre el mero aprobado y el sobresaliente.

Para hacerla todavía más compleja, laconfección de pruebas académicas fiables,válidas y —si posible fuera— normalizadas,encuentra una dificultad añadida. Unmodelo de examen, con tales o cuales con-tenidos concretos, apropiadamente vali-dado al modo usual de los tests psicomé-tricos, sólo puede utilizarse una vez, enuna convocatoria. Por su mero uso en unaocasión, queda invalidado para la siguien-te, puesto que los examinandos saben osospechan de antemano acerca del conte-nido del mismo. Así, pues, mientras quelas pruebas psicométricas han de ser vali-dadas y normalizadas también en su con-creto contenido de unos elementos deter-minados, las pruebas académicas y lasselectivas necesitan de validación, másbien en cuanto a formato y a tipo de ítem,pero no normalizadas en cuanto a conte-nido concreto, que suele quedar fuera deuso con una sola aplicación. En la valida-ción de un examen —aparte de su perti-nencia a un dominio acotable, aunquequizá difuso, de conocimiento— pasa aprimer plano el formato de prueba. Tam-poco este rasgo es exclusivo de los exáme-nes. En realidad, en toda clase de pruebas,y no sólo en las académicas o en aquéllasdonde se comprueba el grado de instruc-ción, conocimiento y destrezas de los suje-tos, el formato puede llegar a ser tan im-portante como el contenido. Cronbach(1998, p. 202) refiere que las puntuacio-nes, en formas de presentación similares, aveces correlacionan entre sí en grado másalto que las obtenidas en contenidos simi-lares con formas diferentes. La adecuaciónde una prueba, por consiguiente, está liga-da a cuestiones de formato, que son lasconsideradas a continuación.

293

Al prestar atención al formato de exa-men y al modo de su calificación, está jus-tificado colocar el énfasis en una deseablecualidad, no ajena a la validez, y que entodo caso resulta crucial en los exámenes,cuando de las calificaciones depende el fu-turo de los examinandos. Es la cualidad deobjetividad, imparcialidad y equidad, tan-to de la prueba como de su calificación.Asumiendo un principio moral de mérito--Ka cada uno según sus merecimientos»—,es lo que ante todo suele pedir y tiene de-recho a exigir el examinando o aspirante aser seleccionado, dentro de un sistemacompetitivo: que examen y calificación nosean arbitrarios, no estén sujetos a capri-chos, humores o preferencias personalesdel examinador. La objetiva equidad deun examen y de su calificación es segura-mente el más relevante elemento constitu-tivo de su fiabilidad y validez.

Para poder cumplir con el requisitode equidad, cuando es muy elevado el nú-mero de sujetos que han de pasar unaprueba, y quedan fuera de consideraciónotras fórmulas posibles (como el acuerdoentre varios jueces), en muchas pruebasacadémicas o de selección es común acu-dir a la fórmula llamada «prueba objetiva»o examen «tipo test» que luego, además,puede ser corregido mediante lectora óp-tica_ Consiste en una lista, más o menosextensa, de ítems, en bloques de tres o másenunciados (hay discusión sobre el núme-ro más apropiado: cf. Delgado y Prieto,1998), donde el examinando ha de señalarcuál es verdadero entre otros falsos. Lasprincipales reglas de construcción de estaspruebas de alternativas múltiples son co-nocidas desde hace tiempo (Berk, 1984,p. 227; Haladyna, 1994; Haladyna yDowning, 1989).

Si los ítems están bien formulados (loque no es fácil, pero tampoco imposible),en pruebas de ese género parecen quedar asalvo la objetividad e imparcialidad, asícomo también la economía de tiempo decorrección, cuando son muchos los exa-

minados. Presentan ventajas apreciables:comparar alternativas e identificar la res-puesta correcta, genera menos ansiedad,en los examinandos que tener que cons-truir una respuesta (Embretson. 1985).Hay estudios, además, que ponen de ma-nifiesto la alta correlación que exhiben so-bre todo con respuestas de resumen (co-rrelación hasta 85), pero también, aunqueno tan elevada, con una composición libre(Breland, 1979; Hogan y Mishler, 1980).

Sin embargo, ni siquiera con la pon-deración (penalizadora) de las respuestasincorrectas, el formato de pruebas objeti-vas es capaz de eliminar las habilidadespuramente adivinatorias —e irrelevantespara el conocimiento de la materia— que aalgunos examinandos les permiten exce-lentes puntuaciones (cf. Cronbach, 1998,pp. 94-95). En todo caso, la principalamenaza a la validez de esas pruebas noestá en la interferencia de estrategias adivi-natorias, que son susceptibles de control(Budescu y Bar-Hillel, 1993; Prieto yDelgado, 1999). Está en que adolecen dedos graves sesgos que convertirían en per-verso un sistema evaluador y selectivo ba-sado sólo en ellas. El primero es que pararesponder correctamente no hace falta sa-ber disertar sobre los temas y ni siquieraescribir. Son pruebas ágrafas, iletradas. Ala postre y a la larga, con tales pruebas po-drían llegar a maestros, inspectores, psicó-logos, abogados o jefes administrativos,personas que no supieran redactar un in-forme ni poner por escrito un plan de tra-bajo. El segundo es que valen para propo-siciones indiscutibles y en materiasaxiomáticas, pero no, o no tanto, paraaquéllas donde el pensamiento crítico o elrazonamiento forman parte esencial de lacapacidad, destrezas y conocimientos ad-quiridos. Dicho en términos de psicologíacognitiva: el examen tipo test mide antetodo pensamiento convergente, memoriade reconocimiento, destrezas muy especí-ficas —o acaso trucos— para acertar en ese

294

tipo de prueba, y no otros conocimientosy capacidades.

El doble estudio, del que se informa acontinuación, tiene que ver, no con cues-tiones de contenido, de adecuado mues-treo del dominio de conocimientos por po-ner a prueba, sino con otro elemento nomenos relevante, como ya se ha razonado:el formato de la prueba. Está al servicio deldiseño de modos de examen objetivos, im-parciales, equitativos, ecuánimes, mas noágrafos. Trata de ver si otros formatos, dis-tintos del convencional de «prueba objeti-va», pueden satisfacer igualmente esos re-quisitos sin por ello incurrir en los sesgosrecién mencionados; si hay alguna alterna-tiva a las pruebas objetivas, que sin perderobjetividad y ecuanimidad, se halle libre delos riesgos de efectuar selección profesio-nal, o de conceder titulación universitaria,a espaldas de una competencia discursivaque el examen tipo test es incapaz de captary, en consecuencia, de fomentar retroacti-vamente.

El primer autor utiliza, desde haceaños, un formato de examen que consisteen una lista de enunciados a semejanza delas pruebas objetivas, pero sin bloques, enproposiciones aisladas. En ellas, el exami-nando ha de empezar por identificar cuá-les son verdaderas y cuáles falsas, peroademás —y aquí reside lo peculiar del pro-cedimiento— en las proposiciones falsas hade sustituir los términos inapropiados ojuicios erróneos, por otros que sean co-rrectos. A menudo, esa sustitución puedehacerse de varios modos, todos ellos acer-tados, y también caben grados de calidaden el acierto, grados que serán objeto decalificación, ítem a ítem.

Este formato —se presume— mantieneventajas propias de las pruebas objetivas:la de una alta objetividad en la califica-ción y también rapidez en la corrección.Y quizá no se expone a los inconvenientesde aquéllas: el hecho de que el examinan-do ha de formular por su cuenta juiciosalternativos, cuando los ítems propues-

tos son falsos, contribuye a evitar los ses-gos antes señalados y puede que orientehacia modos más críticos y reflexivos deestudio. Los ítems son corregidos y pun-tuados uno a uno, en escala de cero adiez, y existe penalización cuando nohubo acierto en la identificación correc-to/falso. En el Anexo se recogen las ins-trucciones típicas para este formato deexamen y algunos ejemplos de Ítems, asícomo de sus posibles formulaciones derespuestas certeras.

La finalidad concreta del estudio hasido, pues, ver cómo funciona este formatode examen en comparación con el de laspruebas objetivas convencionales y con al-guna otra modalidad de prueba, tambiéntradicional, como es un conjunto de pre-guntas que requieren respuesta breve o eldesarrollo algo más extenso de un tema. Lacomparación se hace sobre un constructode «imparcialidad», «ecuanimidad» y «ob-jetividad», entendida ésta como «no subje-tividad», no intrusión en la valoración porparte de la persona que corrige el examen.A falta de otro criterio, ese construct° va aser operacionalizado del siguiente modo: sepostula como prueba más objetiva, impar-cial, ecuánime (términos aquí equivalen-tes) aquélla que correlacione con las demáscon valores más altos.

MÉTODO

SUJETOS Y PROCEDIMIENTO

En un primer grupo, 55 alumnos, con latitulación de Psicología, realizaron el exa-men de la materia, con tres formatos dife-rentes de prueba:

Prueba 1 (prueba objetiva), de tipo test,con bloques (20 en total) de tres enuncia-dos, para reconocer y marcar uno de elloscomo verdadero entre otros falsos (test);

Prueba 2 (prueba con lista de enun-ciados singulares, 10 en total), a semejan-za de la prueba objetiva, pero sin bloques,

295

donde era preciso identificar proposicio-nes falsas y sustituir en ellas términos ina-propiados o juicios erróneos por otros co-rrectos (corrección);

Prueba 3 (preguntas breves, 5 en to-tal) en las que se pedía una respuesta con-cisa y breve, máximo media docena de lí-neas (preguntas).

En un segundo grupo, fueron 82alumnos, con la titulación de Psicopeda-gogía, los que realizaron el examen con losanteriores procedimientos, más una cuar-ta modalidad: propuesta de dos temas, yelección de uno de ellos para ser desarro-llado por el alumno, a manera de ensayo,con una extensión aproximada de un folio(tema).

Los alumnos del primer grupo, dispu-sieron de un máximo de hora y mediapara realizar los tres ejercicios correspon-dientes a los distintos formatos de prueba.Los del segundo grupo, con un ejerciciomás, dispusieron de dos horas.

Conviene informar acerca de algunasotras circunstancias relevantes, aunque noesenciales, para los fines de la investiga-ción. Los examinandos podían consultarlibros y apuntes. Los contenidos concretosde los diversos formatos de examen teníanque ver más bien con la comprensión críti-ca de los textos estudiados, con la inferen-cia y el razonamiento, más que con la me-morización. Por otra parte, los alumnoshabían sido informados, desde principiode curso, sobre la estructura múltiple delexamen final. Dos semanas antes de éste,realizaron un ejercicio de evaluación «amodo de examen» para familiarizarse sobretodo con el formato de la prueba con listade enunciados sinplares, y evitar efectosde sorpresa o desorientación, pero tambiéncon los formatos 1 y 3, es decir el de laprueba objetiva y el de las preguntas bre-ves, y contribuir así a paliar posibles dife-rencias entre ellos 9ue pudieran deberse ala experiencia anterior con tales modalida-des de prueba.

EVALUACIÓN DE LOS EJERCICIOS

La prueba 1 fue puntuada con lectora ópti-ca. Las pruebas 2, 3 y 4 fueron corregidaspor el profesor, sobre la base de criterios devaloración previamente establecidos y «aciegas» en el siguiente sentido: sin ver elnombre de cada examinando, y juzgandocada prueba, por separado, en días distin-tos, e ignorando, al calificar una prueba, lacalificación obtenida en otra u otras prue-bas ya corregidas anteriormente.

La calificación que recibieron losalumnos fue la media de las tres o cuatropuntuaciones, según la pertenencia al pri-mer o al segundo grupo, respectivamente.Interesa señalar que no se formuló obje-ción o queja alguna acerca del plantea-miento o de los contenidos del examen, niantes ni después del mismo. En una sesiónposterior, los alumnos tuvieron accesotanto a su propio ejercicio, cuanto a unejercicio «modélico» (ver Anexo), por asídecir, confeccionado por el profesor comoreferencia de contraste. Tras esa sesiónningún alumno solicitó revisión de su ca-lificación.

RESULTADOS

Las imágenes visuales de la distribuciónde las puntuaciones, de los sujetos, se ob-tienen mediante los diagramas de disper-sión de las mismas. En cada diagrama sólopueden representarse dos escalas de pun-tuación a la vez. Como muestra se ha ele-gido presentar, en gráfico I, el espacio de-finido por las puntuaciones del grupo 2,en las dos modalidades en principio másafines: la de «test» y la de «corrección». Enel diagrama cabe observar que se dibuja elperfil de una cierta asociación entre los re-sultados en ambas modalidades. Pero, porotra parte, aparecen no pocos puntos des-perdigados, fuera de perfil, algunos inclu-so de modo extremo, en solitario. Así,pues, para unos pocos sujetos el resultado

296

GRÁFICO I

Dispersión de puntuaciones

• ••

:

••

• •$ • • • •• •

•

••

• ••••

•

•441 •• •• i_.._t___, ,

• •

• •

-- —•

• •

••

• •• •• •

••

• •••

•--.

•

• ••

•

2

4 6

8

1 0Corrección

Diagrama de dispersión de puntuaciones en las modalidades de examen y de corrección(grupo 1; n = 82)

1 0

8

6

4

2

O

0

ha sido completamente dispar de una mo-dalidad a otra, a veces como para diferiren calificación de suspenso a notable.Diagramas semejantes surgen al ubicar losdatos de otras parejas de puntuaciones.En ellos aparecen perfiles análogos, perotambién puntos aislados, correspondien-tes a discrepancias grandes para un mismosujeto, entre sus logros en una modalidady en otra. Éste es el resultado de mayor re-lieve a través de los distintos diagramas dedispersión obtenidos, que, sin embargo,no merece la pena reproducir uno poruno. Más allá de una inspección intuitivade gráficos, es el análisis correlacional elque permite realmente hacerse cargo delas asociaciones entre variables.

Los resultados del análisis correlacio-nal proporcionan una imagen ya no vi-sual, sino abstracta, pero clara, de las aso-

ciaciones entre las puntuaciones en lasdistintas pruebas. Se han obtenido las co-rrelaciones simples y parciales entre esaspuntuaciones, y, asimismo, entre cadauna de éstas con la media de las restantes ycon la media total.

La tabla 1 presenta la matriz de esascorrelaciones. En la zona superior decada celda aparecen los valores de corre-lación en el estudio con el primer grupode alumnos; en la inferior, los del segun-do grupo. Por otro lado, a la izquierda dela barra inclinada (/) están los valores dela correlación de Pearson; a la derecha,los de la respectiva correlación parcial en-tre las variables respectivas, tras eliminarla asociación explicable por la otra varia-ble (en grupo 1) o las otras dos variables(en grupo 2) de los demás formatos deexamen.

297

TABLA 1

Matriz de correlaciones

Test Corrección Preguntas Tema

Corrección .38» /.19.58 » /.18

Preguntas .57» /.48 » .43» /.28.58» 1.45 » .52* /.35»

Terna.30» /.19 .32» /.22 .18/ —.07

Media restantes .46» .56* .60".59» .57» .55* .32*

Media .82» .76» .82» —.79* .79» .77» .57»

Los resultados son consistentes de un grupo otro. La modalidad «tema» queda en loso5

valores más bajos de relación con las demásmodalidades. En las correlaciones simples,los otros tres formatos de prueba intercorre-lacionan con valores muy semejantes entresí y, como no podía ser menos, con la notamedia. Estos valores son ligeramente supe-riores en las modalidades «test» y «pregun-tas» frente a «corrección», en el primer uu-po; mientras que en el segundo, los valoresde correlación simple de estas tres variablesson prácticamente idénticos.

El perfil de las correlaciones parcialestiene alguna particularidad concretada en elformato «pregunta». Esta variable conservavalores altos y significativos en su asociacióncon los formatos «corrección» y «test»,mientras 9ue desciende a casi valor cero,peto negativo, en su correlación con «tema».

Se han efectuado también, para am-bos grupos, los correspondientes análisisde regresión, tomando la puntuación me-dia como variable dependiente y las pun-

n'aciones de modalidad como indepen-diente. Los resultados de este análisis pro-porcionan otra perspectiva aunque, comoes obvio, sobre un mismo paisaje. Los pe-sos beta ponderados, de la ecuación de re-gresión, han sido de .43 (primer grupo) y.35 (segundo grupo) para la variable«test»; de .42 y .37, respectivamente, para«corrección»; y de .40 y .33 para «pregun-tas». Los pesos beta descienden, del pri-mer al segundo grupo, por la introduc-ción en éste de la puntuación en «tema»,cuyo peso beta es de .30.

Se procedió, en fin, al análisis facto-rial de los resultados, al análisis de loscomponentes principales. En ambos gru-pos pudo extraerse un único factor, por loque no hubo lugar a buscar soluciones ro-tadas. El porcentaje de varianza explicadopor ese factor único, fue de un 64,2%, enel grupo I y de un 55,3%. en el grupo 2.La tabla II expone la matriz de compo-nentes. por modalidades de examen, paracada uno de los grupos.

298

TABLA II

Análisis factorial

Grupo 1 Grupo 2

Corrección .732 .791

Preguntas .844 .804

Tema .529

Test .893 .812

RESULTADOS DEL ANÁLISIS DECOMPONENTES PRINCIPALES: SOLUCIÓN DEUN SOLO FACTOR SIN POSIBILIDAD DEROTACIÓN

Lo mismo que sucede en otros análisis, enéste, de componentes principales, la mo-dalidad «tema» queda netamente por de-bajo de las otras, que en cambio aparecencon valores semejantes. Los valores másaltos, con todo, corresponden al formato«test» y los más bajos al de «corrección».

DISCUSIÓN

A través de todos los análisis, tres de los ti-pos de examen se presentan con valoresparecidos: «test», «preguntas», «correc-ción». En principio, pueden considerarseaproximadamente igual de ecuánimes. Siel desafío era mostrar que el formato de«corrección» es tan equitativo y objetivocomo el de «test», su equivalencia a eseefecto ha quedado probada. Un resultadono previsto es que el formato de «pregun-tas» breves, aun siendo pocas (cinco), nose queda per debajo en esa virtud, antesbien, sobresale. Lo que menos cabía espe-rar es que, en las correlaciones parciales,ese formato presenta valores significativosy más altos con «corrección» y aun máselevados con «test», alcanzando aquí valo-res de .45 y .48, mientras que la correla-

ción de estos otros formatos, más cercanosentre sí por contenido, cae a niveles que latornan no significativa.

Es significativo el dato de que el for-mato «preguntas» tenga correlación másalta con «test» que con «corrección». Peroel resultado más intrigante está en la co-rrelación tan baja de «preguntas» con«tema», cuando ambos formatos, más quelos otros, poseen un elemento en común,que además es del todo ajeno al «test»: laexigencia de que el examinando muestreque es capaz de redactar unos fragmentosde discurso científico. Tan inesperado re-sultado no es interpretable desde las basesy los hallazgos del presente estudio. Suconfirmación, primero, y su interpreta-ción, después, han de aguardar a otros es-tudios que acoten mejor y se centren demanera específica en el formato «pregun-tas», para poder examinar de modo siste-mático sus asociaciones con los formatosde contenido más contrapuesto: el de tipo«test» y el de «tema».

Entretanto, sí que pueden extraersealgunas conclusiones sólidas respecto alobjetivo principal del estudio: respecto ala imparcialidad, ecuanimidad, objetivi-dad —en el sentido aquí manejado— de losdistintos modos de prueba:

• Los exámenes tipo test, los depreguntas breves y los de correc-ción de frases incorrectas son,

299

aproximadamente, igual de ecuá-nimes, objetivos e imparciales; me-jor dicho, pueden serlo: lo han sidoen el presente estudio, y es razona-ble esperar que oportunos refina-mientos que se introduzcan enellos, contribuyan a mejorarlos,pero, previsiblemente, en mejoraparalela, sin que alguno llegue a des-pegar mucho respecto a los demás.

• Una calificación final extraída apartir de distintos tipos de pruebasiempre será más ecuánime queaquélla que se derive de un solotipo. Sin embargo, no cabe dese-char, como injusto o sesgado, eluso de una modalidad única deprueba entre las tres aquí igualadas:«test», «corrección», «preguntas».Las correlaciones que cada una deellas obtiene, en los dos grupos,con la que aquí puede servir de va-riable criterio —la puntuación finalo combinada, de promedio— alcan-zan valores lo bastante elevados(entre .76 y .82) como para poderafirmar que cumplen bien con sufunción, ordenar en su nivel derendimiento a un conjunto de exa-minandos, de calificarlos sin injus-ticia y, en consecuencia, de cum-plir, en su caso, una función socialde selección de candidatos.

• Sin embargo y por desgracia, laecuanimidad conseguida, respectoal conjunto de sujetos, no puedegeneralizarse a todos y cada uno deéstos, tomados uno a uno. Comoaparece en los diagramas de disper-sión de las puntuaciones (gráfico1), algunos sujetos concretos, de ser

evaluados y calificados por uno uotro formato, llegan a oscilar nadamenos que del notable al suspenso.Permanece, pues, pendiente lacuestión de la ecuanimidad de losexámenes y pruebas de seleccióncon respecto a los individuos.

Quedan abiertas numerosas cuestio-nes que no es posible resolver, a partir deldiseño y de los datos de este estudio: quéperfil de resultados se hubiera obtenido deno haber conocido los sujetos, de antema-no, el modo o modos en que iban a serevaluados; qué mejora en las correlacionesdel formato «tema» podría haberse logra-do con una corrección por varios jueces;hasta dónde se pueden generalizar los re-sultados a otras situaciones de prueba, ta-les como la valoración de conocimientos,en el primer ejercicio, para la obtencióndel carné de conducir, o las de acceso decandidatos a la función pública, realizadasa veces con grupos multitudinarios; quésentido tiene seleccionar, principalmente,sobre la base de un saber más bien teóricoy libresco, cuando, cada vez más, la selec-ción de personal presta atención, por unaparte, a destrezas prácticas y, por otra, avariables de personalidad (Borman, Han-son y Hedge, 1887; Hogan y Roberts,1996). Mucho menos cabe dar respuesta aotras cuestiones suscitadas por la influen-cia retroactiva del tipo de examen sobre elaprendizaje: cuáles son las consecuenciaspositivas y negativas de la aplicación de talo cual tipo de prueba; y, sobre todo, cuálesson, a largo plazo, y por efecto acumulati-vo, sobre sucesivas cohortes de estudian-tes. Pero como acostumbra a decirse, sonya otras cuestiones, es ya otra historia, a laque el presente estudio no podía atender.

300

BIBLIOGRAFÍA

BERK, R. A. (ed.): A guide to criterion-referen-ced test construction. Baltimore, John Hop-kins Univ. Press, 1984.

BIGGS, J.: Teachingfor quality learningat Uni-versity. Ballmoor, Open University Press,1999.

BORMAN, W. C., HANSON, M. A. y HEDGE, J.W.: «Personnel selection», en American Re-view ofPsychology, 48 (1997), pp. 299-347.

BRELAND, H. M.: Can multiple-choice testsmeasure writing skills? Nueva York, Colle-ge Entrance Examination Board, 1979.

BUDESCU, D. y BAR-HILLEL, M.: «To guess ornot to guess», en Journal of educationalmeasurement, 14 (1993), pp. 197-201.

CASTELLS, M.: «Los sistemas de evaluación delas Universidades», en VARIOS AUTORES:Hacia una clasificación de las Universidadessegún criterios de calidad. Madrid, ConsejoUniversidades / Fundación Universi-dad-Empresa, 1989.

COLLIS, K. y ROMBERG, T. A.: «Evaluacióndel desempeño en matemáticas: un análisisde item de pruebas abiertas», en M. C.WITTROCK y E. L. BAKER (eds.): Test y cog-nición, Barcelona, Paidós, 1998.

CRONBACH, L. J.: Essentials of psychologicaltesting/ Fundamentos de los tests psicológicos.Londres/Madrid, Harper Collins / Biblio-teca Nueva, 1998.

DELGADO, A. R. y PRIETO, G.: «Further evi-dence favoring three option in multi-ple-choice tests», en European Journal ofPsychological Assessment, 3, 14 (1998),pp. 197-201.

EMBRETSON, S. (ed.): Test design: Develop-ment in Psychology and psychometrics.Orlando, FI., Academic Press, 1985.

FERNÁNDEZ-VALLINA, J.: «Selección MIR,BIR, FIR, QIR», en VARIOS AUTORES: Ha-cia una clasificación de las Universidades se-gún criterios de calidad. Madrid, ConsejoUniversidades/Fundación Universidad-Empresa, 1989.

GETTINGER, M.: «Analogue asessment: Eva-luating academicabilities», en E. S. SHAPI-

RO y T. R. KRATOCHW1LL (eds.): Behavio-ral assessment in schools. Nueva York,Guilford, 1998.

GROS, B. y ROMAÑA, T.: Ser profesor: palabrassobre la docencia universitaria. Barcelona,Univ. Barcelona, 1995.

HALADYNA, T. M.: Developing and validatingmultiple-choice test items. Hillsdale, N.J., L.Erlbaum, 1994.

HAIADYNA, T. M. y DOWNING, S. M.: «A ta-xonomy of multiple-choice item-writingrules», en Applied measurement in Educa-non, 2 (1989), pp. 37-50.

HOGAN, T. P. y MISH1.ER, C.: «Relationshipsbetween essay tests and objective tests oflanguage skills for elementar), school stu-dents», en Jourrzal of Educational Measure-ment, 17 (1980), pp. 219-227.

HOGAN, R. H.; HOGAN, J. y ROBERTS, B. W.:«Personality measurement and employ-ment decisions», en American Psychologist,51 (1996), pp. 469-477.

LAMO DE ESPINOSA, E.: «Evaluación de la cali-dad de la enseñanza», en VARIOS AUTORES:Hacia una clasificación de las Universidadessegún criterios de calidad. Madrid, ConsejoUniversidades / Fundación Universidad-Empresa, 1989.

LA7_ARUS, B.: «Best practices in assessing aca-demic achievement», en H. B. VANCE(ed.): Best practices in assessment for schooland clinical settings. Brandon, ClinicalPsychology Publishing, 1993.

LENTZ, F. E.: «Direct observation and measu-rement of academic skills: a conceptual re-view», en E. S. SHAPIRO y T. R. KRATOCH-WILL (eds.): Behavioral assessment inschools. Nueva York, Guilford, 1998.

0.C.D.E.: Escuelas y calidad de la enseñanza.Madrid/Barcelona, M.E.C./Paidós, 1991.

PRIETO, G. y DELGADO, A. R.: «The effect ofinstructions on multiple-choice test sco-res», en European Journal of PsychologicalAssessment, 2, 15 (1999), pp. 143-150.

301

RIVAS, F.; JoRNEr, J. y SUÁREZ, J. M.: «Eva-luación del aprendizaje escolar», en F.SILVA (ed.): Evaluación psicológica en niñosy adolescentes. Madrid, Síntesis, 1995.

Raso!, E.: «Principies ofc:ategorizations», enE. ROSCH y B. B. LLon) (eds.): Cognitionami cattgorization. Hillsdale, N. J. LErlbaum, 1978.

SO ION, D. A.: La formación de profesionales nfle-ziuss Madrid/Barcekina, MEC / Paidós, 1992.

STUFFLERFAM, D. L y SHINKFIELD, A. J.:Evaluación sistentática: guía teórica y prácti-ca. Madrid/Barcelona, MEC / Paidás,1987.

TYLFR, R. W.: «General statement on ev-alua-tion», en Journal ofedsu-ational research, 35(1942), pp. 492-501.

WusoN, J. D.: Cómo valorar la calid,id de laenseñanza. Barcelona/Madrid, Paidós /MEC 1992.

302

ANEXO

EJEMPLOS DE ITEMSEN EL FORMATO«CORRECCIÓN »

1. La Psicología se ha interesadomás por aspectos funcionales quepor aspectos estructurales delcomportamiento.

2. Aprendizaje es todo cambio deconducta en un individuo.

3. Hay en América más personasque hablan el castellano que enEuropa.

EJEMPLOS DE SU POSIBLE«CORRECCIÓN»

1. La Psicología no se ha interesadoapenas [más] por aspectos estruc-turales [que] y sí, casi exclusiva-mente, por aspectos funcionalesdel comportamiento.

2. Aprendizaje es todo cambio en elpotencia/de conducta en un indi-viduo como consecuencia de Lapráctica o de la experiencia.

3. (es verdadera)

303

Documents

FORMATOS DE EXAMEN Y OBJETIVIDAD EN LAS …